CN111259906B

CN111259906B - 含多级通道注意力的条件生成对抗遥感图像目标分割方法

Info

Publication number: CN111259906B
Application number: CN202010057802.1A
Authority: CN
Inventors: 汪西莉; 余帅
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2023-04-07
Anticipated expiration: 2040-01-17
Also published as: CN111259906A

Abstract

一种含多级通道注意力的条件生成对抗遥感图像目标分割方法，包括如下步骤：S100：对作为分割的主干网络进行改进，其中，所述主干网络包括生成网络和判别网络，所述改进具体为：S101：生成网络由含有多级通道注意力的分割网络构成；S102：判别网络由跨步卷积和泄露型修正线性单元构成；S200：采用改进后的含多级通道注意力的条件生成对抗的图像分割网络进行遥感图像的分割；S300：输出遥感图像的分割结果。该方法使用具有多级通道注意力的条件生成对抗的图像分割网络，在提升多尺度目标信息的同时也提供了更真实的生成图像，解决了小目标漏分问题，提升分割结果边界准确性及平滑性。

Description

含多级通道注意力的条件生成对抗遥感图像目标分割方法

技术领域

本公开属于遥感图像处理技术领域，特别涉及一种含多级通道注意力的条件生成对抗遥感图像目标分割方法。

背景技术

遥感图像中的建筑物分割在城市规划、变化检测及GIS信息构建等方面具有至关重要的作用，日渐成为学术界和工业界的研究热点之一。但是，遥感图像的建筑物对象具有许多复杂的特性，如多变的尺度、密集的分布、多样的拓扑形状、复杂的背景、存在遮挡与阴影等。传统的建筑物分割算法主要基于人工构造的特征，这类算法只能提取到建筑物目标的浅层特征，不能充分的表达其高层语义信息，准确率低，鲁棒性差。近年来，深度卷积网络在自然图像的像素级分类中表现出卓越的性能，各种基于FCN(Fully ConvolutionalNetworks)的图像分割模型不断提出，这些模型在提取特征之后大都使用反卷积或双线性插值进行特征上采样，通过逐像素分类实现对输入图像的分割，利用高度的非线性映射及大量数据训练，提取出建筑物的深层特征，较好地克服了传统算法的缺陷。但由于深度卷积网络模型存在重复的卷积与池化操作，上采样不能完全弥补由此带来的信息丢失问题，因此产生的预测结果较为粗糙，小目标信息丢失及目标边缘信息较难提取。同时在遥感领域，公共数据集非常少，难以训练出优秀的深层卷积网络，网络鲁棒性有待进一步提高。

针对上述问题，现有的研究方法提供了一些解决手段，主要可分为两类：第一：改进卷积网络的内部结构。第二：增加全卷积网络的外部结构，将GAN(Generative AdversialNetworks)引入到图像分割之中。在语义分割任务中引入GAN可以增强空间长距离的连续性，与非对抗训练相比，可以获得更准确、更平滑的结果。但是，生成模型仍然使用较低级的特征来生成分割图，面对复杂的遥感建筑物对象，有待进一步提升提取特征的能力。

现阶段，主流的卷积神经网络在遥感建筑物对象分割中展现出优秀的性能。但仍存在小目标漏分，边界不准确、不平滑等问题。

发明内容

为了解决上述问题，本公开提供了一种含多级通道注意力的条件生成对抗遥感图像目标分割方法，包括如下步骤：

S100：对作为分割的主干网络进行改进，其中，所述主干网络包括生成网络和判别网络，所述改进具体为：

S101：生成网络由含有多级通道注意力的分割网络构成；

S102：判别网络由跨步卷积和泄露型修正线性单元构成；

S200：采用改进后的含多级通道注意力的条件生成对抗的图像分割网络进行遥感图像的分割；

S300：输出遥感图像的分割结果。

通过上述技术方案，首先，提出新的语义分割网络作为GAN的生成器，通过多级注意力机制的信息融合，以应对复杂的遥感目标对象特征提取。其次，判别器将原始图与分割图或标签图进行合并判别，更好地保留了原始特征，并使用strided convolutions和leakyReLU构建判别网络，增强梯度的传播。最后，利用标记图作为条件，使GAN训练可控，加快收敛速度，缩短网络训练时间，并带来边缘细节更平滑、完整的分割结果图，提升了分割网络性能。

附图说明

图1是本公开一个实施例中所提供的一种含多级通道注意力的条件生成对抗遥感图像目标分割方法的流程示意图；

图2是本公开一个实施例中生成网络的结构示意图；

图3是本公开一个实施例中通道注意力模块示意图；

图4是本公开一个实施例中判别网络的结构示意图；

图5是本公开一个实施例中在WHU building dataset上各深度网络的分割结果对比图；

图6是本公开一个实施例中在WHU building dataset训练集上Loss变化曲线、测试集上F1-score变化曲线；

图7是本公开一个实施例中在Satellite dataset II(East Asia)上各深度网络的分割结果对比图；

图8是本公开一个实施例中在Satellite dataset II(East Asia)训练集上Loss变化曲线、测试集上F1-score变化曲线。

具体实施方式

在一个实施例中，如图1所示，公开了一种含多级通道注意力的条件生成对抗遥感图像目标分割方法，包括如下步骤：

S101：生成网络由含有多级通道注意力的分割网络构成；

S102：判别网络由跨步卷积和泄露型修正线性单元构成；

S300：输出遥感图像的分割结果。

就该实施例而言，含多级通道注意力的条件生成对抗遥感图像目标分割方法(Remote senSing image object segmentation by cGAN with multilevel channelattention，Ra-cGAN)，包括生成网络G和判别网络D。G是具有通道注意力机制的多级特征融合网络，该网络通过自学的方式来构建通道注意力机制，并充分融合包含注意力的浅层局部信息与深层语义信息，增强各个尺度上特征的信息量，应对不同大小目标的分割问题，尤其是小目标信息的保持，G产生的分割结果作为D的输入；D是由五层strided convolutions和组成的分类网络，通过判断其输入是来自真实标签图还是生成器生成的图像，帮助G产生更加精准的生成图像。该方法使用具有多级通道注意力的条件生成对抗的图像分割网络，在提升多尺度目标信息的同时也提供了更真实的生成图像，解决了小目标漏分问题，提升分割结果边界准确性及平滑性。

在另一个实施例中，所述步骤S101中的生成网络主要包括两个组件：编码器与解码器。

就该实施例而言，生成网络是含有多级通道注意力的分割网络，如图2所示，主要包括两个组件，编码器与解码器，分别用于特征提取和类别预测。

在另一个实施例中，所述编码器包括5组卷积块、通道注意力层和Maxpooling层；所述解码器包括卷积层、反卷积层和通道注意力层。

就该实施例而言，编码器包括5组卷积块，以及为增强特征图上每一个像素的全局信息，提升网络对复杂背景下目标信息的获取而加入的通道注意力层，对应图2中Attention block，最后使用Maxpooling层进行特征降维，依次减小特征图的尺寸。解码器为还原特征图原有尺寸，生成与输入图像分辨率一致的预测图像，同时减小特征层深度。

在另一个实施例中，所述5组卷积块，每组由2个卷积核尺寸为3的卷积层、批归一化层、ReLU激活函数组成；所述Maxpooling层设置为大小为2，步长为2；所述反卷积层设置为步长为2，卷积核尺寸为2。

就该实施例而言，如此设置可以提取到更充分的特征信息，包含浅层细节信息和深层语义信息。

在另一个实施例中，所述的通道注意力层进一步包括：

首先将经过卷积操作得到的特征图U按空间维度进行全局平均池化，每个二维的特征通道都变成一个实数，这个实数具有全局的感受野，并且输出的维度和输入的特征通道数相匹配，都为c；

其次，引入了两个全连接层，第一个全连接层中r为一个缩放参数，后经过ReLU函数激活，第二个全连接层升回之前的维度，再通过Sigmoid层获得归一化的通道权重；

最后，将提取到的通道权重，加权到特征图U的每个通道上，得到具有通道注意力的特征图U_a。

就该实施例而言，通道注意力模块如图3所示，对应图2中Attention block。首先将经过卷积操作得到的特征图U按空间维度进行全局平均池化，每个二维的特征通道都变成一个实数，这个实数具有全局的感受野，并且输出的维度和输入的特征通道数相匹配，都为c。为全面获得通道之间动态、非线性的依赖关系，限制模型的复杂度，让网络可以自发更新通道权重，引入了两个全连接层，第一个全连接层中r为一个缩放参数，目的是降低计算量，后经过ReLU函数激活，第二个全连接层升回之前的维度，再通过Sigmoid层获得归一化的权重信息。简而言之，这两个全连接层的作用就是融合各通道的特征信息。最后将提取到的通道权重，加权到先前特征图的每个通道上，得到具有通道注意力的特征图U_a。

在另一个实施例中，所述步骤S102中的判别网络具体为：前三层卷积步长为2，卷积核大小为4，每经过一次卷积，特征向量的空间维度减少一半，通道数加倍；后两层卷积步长为1，卷积核大小为4，conv5将通道数压缩至1，再经过sigmoid层输出判别网络将输入预测为正类建筑物目标的概率。

就该实施例而言，判别网络的网络结构如图4所示。判别网络的输入为原图与分割图或标签图在通道维度上concatenate后的拼接图，这样做可以更好地保留样本的原始特征。在GAN判别网络中一般不用Max pooling，因为pooling后提供的梯度是稀疏的，不利于指导生成网络的学习，优秀的判别网络不仅应该分类能力强而且应该提供更多的信息给生成网络。激活函数使用LeakyReLU，解决ReLU可能带来梯度消失的问题。ReLU函数会将负值截断为0，而LeakyReLU在输入为负值时，函数值不为0，允许一个小的负值通过。由于判别网络的梯度对生成器来说特别重要，所以在判别网络里，用LeakyReLU代替ReLU、用stridedconvolutions代替Max pooling。

在另一个实施例中，所述步骤S101中的生成网络的输入为原始图像和像素级标签图像。

在另一个实施例中，所述步骤S102中的判别网络的输入为原始图像与所述生成网络生成的分割图像在通道维度上拼接后的拼接图像或原始图像与像素级标签图像在通道维度上拼接后的拼接图像。

就该实施例而言，生成网络G输入原始图像和像素级标签图像。判别网络D的输入有两种组合方式，一种是原始图像和生成网络生成图像的组合，另一种是原始图像和像素级标签图像的组合，训练过程中，原始图像与像素级标签图像作为正样本，原始图像与生成图像作为负样本。

在另一个实施例中，所述解码器使用包含通道注意力的特征图进行跳跃链接，与反卷积得到的信息相融合，进而获得分割图像。

就该实施例而言，为进一步提升网络对多尺度目标，尤其是小目标以及目标边缘信息的获取，使用包含通道注意力的特征图进行跳跃链接，与反卷积得到的信息相融合，以丰富全局语义信息和局部细节信息，从而得到更好的分割结果。

即每经过一次反卷积，就和编码器中通道数相同的注意力特征图进行融合，融合的方式是特征图在通道维度上的拼接。

在另一个实施例中，Ra-cGAN的损失函数为混合型损失函数，其定义式如下：

其中N表示训练图像x_n的个数，y_n表示其对应的标签图像，θ_G，θ_D分别表示生成网络和判别网络的参数，G(x_n)表示生成网络生成的图像，即像素级的预测图像。式中第一项代表生成网络的损失函数，第二项代表判别网络的损失函数。因Ra-cGAN包括两个子网络，训练过程需两个子网络交替训练来优化整个模型。训练过程如下：

优化判别网络：训练网络之前，首先固定生成网络的参数，优化判别网络，此时判别网络的损失函数定义式如下：

两种输入模式，一种为(x_n，y_n)，即原始图像与像素级标签图的拼接图，此时判别网络的标记为真，即1。另一种为(x_n，G(x_n))，即原始图像与生成网络生成的预测图的拼接图，此时判别网络的标记为假，即0，将以上两种组合分别输入到判别器中，并进行反向传播更新判别器的参数。

优化生成网络：固定判别网络的参数，优化生成网络，此时的判别网络损失函数定义式如下：

首先，将原始图像x_n输入到生成网络G中，得到生成的像素级预测图G(x_n)，计算G(x_n)与像素级标签图y_n的交叉熵损失值，即

其次，将G(x_n)和原始图像x_n经通道维度拼接后输入到判别网络D中，因为生成网络G的目的是生成的像素级预测图G(x_n)尽可能地接近真实标签图y_n，所以此时判别网络D的损失函数标记为真。经过第一步训练后的判别网络D有能力判断输入图像来自真实标签图还是生成图像，即此刻判别网络D的交叉熵损失值反映输入图像G(x_n)与原始图像x_n之间的差异，即l_CrossD。

最后，将

和l_CrossD同时作为生成网络反向传播的损失函数，即

其中λ表示判别网络损失函数的权重系数，用于决定判别网络对生成网络的监督反馈程度，当λ＝0时，整个网络等价于传统的语义分割网络训练。最后再使用反向传播算法更新一次生成网络G的参数。

式(3)中，我们通过引入判别网络带来的损失，最小化生成的预测图与真实标签图的损失，根据Goodfellow，将

替换成

具体含义是目标函数最大化判别网络将G(x_n)预测为x_n的概率，即使生成网络的生成图像更接近真实标签图。当判别器做出准确的预测时，可以产生更强的梯度信号，实验结果也说明这对于加速网络的收敛，减少训练时间产生了很大的作用。

式(1)(2)(3)中使用的损失函数具体为交叉熵函数，其定义式如下：

式(4)中，l_i为像素点i处的真实标签，p_k，i为像素点i输出属于k类的概率，K为类别总数，本文中K＝2，N表示全部图像的所有像素点总和，σ(·)为符号函数，当l_i＝k时为1，否则为0。

对于所有训练样本，重复使用前两步交替训练，直至训练达到指定次数，完成训练。

在另一个实施例中，给出实验环境。第一个数据集WHU building dataset，建筑物密集，类型众多，标签经过了重标定，更加准确，对模型的评价能力具有综合性与代表性。第二个更复杂且分割难度较高的数据集Satellite dataset II(East Asia)，以往方法在此数据集上的实验指标也都偏低。下面将分别介绍这两个数据集的详细信息。

WHU building dataset包括从新西兰Christchurch地区提取的22万栋建筑物，建筑物空间分辨率为0.075m，覆盖面积共为450km2，该区域包含农村、城镇、文化区工业区，具有不同颜色、大小和用途的多种多样的建筑类型，是评估建筑物提取算法潜力的理想数据集。数据集共有图像8189幅和对应的像素级标签图，分辨率为512pixle×512pixle。其中包括训练集4736幅，验证集1037幅，测试集2416幅。

Satellite dataset II(East Asia)建筑数据集覆盖东亚550km2，地面分辨率为2.7m。该数据集分别包含训练集和测试图的整体图像(训练集2幅图像、测试集1幅图像)以及这些大规模图像裁剪后的小幅图像。所有图像被无缝裁剪成17388幅分辨率为512pixle×512pixle大小的小幅图像，便于训练和测试。其中训练集图像包含13662幅，测试集图像包含3726幅。

实验平台硬件配置为Inter(R)Xeon(R)CPU Silver 4112 2.6GH、内存128G、NVIDIA TITAN Xp显卡，软件配置为Ubuntu16.04系统、Pytorch深度学习框架。训练过程初始Adam学习率设置为0.0002，momentum为0.5，batch_size为12，epoch设为200次，λ设为10。测试阶段可直接输入原始图像，输出像素级分割图。

实验使用以下几种评价指标评估模型在上述两种数据集上的性能，即IOU(Intersection Over Union)、P(Precision)、R(Recall)和F1-score。IOU是语义分割的标准度量，P表示预测正确的正类个数占全部预测为正的比例，R表示预测正确的正类个数占全部正样本的比例，F1-score同时兼顾了分类模型的准确率和召回率。它们的定义分别如下：

其中P_gt是真实标记图的像素集合，p_m是预测图像的像素集合，“∩”和“∪”分别表示交集和并集操作。|·|表示计算该组中的像素数。TP：true positive正类被判定为正类；FP：false positive负类被判定为正类；FN：false negative正类被判定为负类；TN：truenegative负类被判定为负类。

在另一个实施例中，在WHU building dataset数据集上，对比方法展示Ra-cGAN与U-Net模型、MLCA模型的分割结果。其中U-Net为语义分割经典网络，在病理图像分割和遥感图像分割中，都有着不俗的表现。MLCA模型为Ra-cGAN未加入对抗方法的子模型，也就是Ra-cGAN中单独的生成器模型。

图5从左到右依次为RGB原图，Groundtruth图，U-Net分割结果，MLCA分割结果，Ra-cGAN分割结果。结果图中黑色代表背景，白色代表目标建筑物。

如图5所示，第一列8副图像目标建筑物的光照、颜色、大小、形状、材质都各不相同。小图(1)圆圈标记区域的屋顶存在光照阴影，U-Net存在大量漏分现象，MLCA引入注意力后对漏分现象有一定程度的改善，而Ra-cGAN通过对抗网络的加入，相比前两者对阴影部分的分割更加完整，边缘也更加平滑；小图(2)、(4)、(5)、(6)、(7)包含大量的颜色形状不同的小目标对象，U-Net对其中与地面颜色差别较小，存在阴影的小目标提取能力较差，MLCA有一定的改善，但是仍然存在漏分与误分，Ra-cGAN则分割结果更加令人满意，(2)图像边缘的目标分割完整，(4)不仅解决了漏分前两者的漏分现象，而且地面误分为建筑物的现象也得到了解决，同时分割结果边缘细节更加丰富平滑，接近标签图；小图(3)、(8)包括较大的建筑物目标，且屋顶颜色形状较复杂，周围存在干扰物，分割难度较大，U-Net与MLCA均存在漏分和误分现象，而Ra-cGAN相较前两者对大目标分割更完整，对(8)小圆圈标记的易误分区域，分割更加准确平滑，整体更加接近标签图。

表1列出了所有比较方法在图7中的每副图像以及WHU building dataset测试集所有图像平均的定量结果。

表1

由表1可见，与其他方法相比，Ra-cGAN在每幅图像上的每种度量指标都能够达到最高，其中在测试集的平均结果上，相比未加入对抗的模型MLCA，IOU和F1-score两项指标高出1.34％、1.15％，比U-Net高出3.75％、2.52％。在训练时间上，MLCA为21h 42m，Ra-cGAN为18h 04m，Ra-cGAN由于加入对抗训练，相比MLCA收敛速度更快，训练时长更短。测试时间两者基本相同。结合分割图和量化结果来看，Ra-cGAN模型在未增加计算开销的情况下，分割效果更好，准确率更高，这表明含多级通道注意力的对抗网络可以提升遥感目标分割性能。

图6展示了Ra-cGAN在WHU building dataset训练集上loss的变化曲线、在测试集上F1-score的变化曲线。训练集上loss下降稳定，测试实验中F1-score在200个epoch内取得最好结果，并未产生过拟合现象。

在另一个实施例中，在Satellite dataset II(East Asia)数据集上，对比方法展示Ra-cGAN与U-Net模型、MLCA模型的分割结果。

在Satellite dataset II(East Asia)数据集上，图7从左到右依次为RGB原图、Groundtruth图、U-Net分割结果、MLCA分割结果、Ra-cGAN分割结果。结果图中黑色代表背景，白色代表目标建筑物。

如图7所示，第一列7幅图像的分辨率较低、目标大小、光照颜色各不相同，并且存在遮挡现象，分割难度较大。小图(1)(6)中圆圈标记的小目标，U-Net与MLCA不能完整分割出来，存在漏分小目标的现象，而Ra-cGAN的分割结果图对小目标分割更加完整，边缘更加平滑。小图(2)中的圆圈标记区域，尽管U-Net和MLCA都将目标分割了出来，但是分割的目标边缘不平整光滑，相比之下Ra-cGAN得到的结果与标签图更接近，目标分割准确，边缘平整。小图(3)(7)中，U-Net与MLCA将其他对象误判为目标建筑物，存在误检现象，Ra-cGAN结果图中未出现误检现象。数据集中类似小图(4)(5)光照信息的图像数量较少，在这种图像的分割中，MLCA的结果优于U-Net，但是相较其他类型的图像来说，准确率偏低，而加入对抗训练的Ra-cGAN则可以带来更加丰富的信息，分割的准确率也更高，结果更加完整。表2列出了所有比较方法在图7中的每幅图像以及Satellite dataset II(East Asia)测试集所有图像平均的定量结果。

表2

由表2所示，与其他方法相比，Ra-cGAN在每幅图像上的每种度量指标都达到最高，其中在测试集的平均IOU、F1-score上，Ra-cGAN比MLCA结果高出1.65％、1.60％，比U-Net高出7.26％、6.68％。在训练时间消耗上，MLCA为11h 37m，Ra-cGAN为9h 12m。结合分割结果图以及量化评价结果来看，Ra-cGAN模型在不增长训练时间的条件下，可以更快的得到最优分割结果，这说明充分包含多级通道注意力的条件对抗模型的有效性。

图8展示了Ra-cGAN在Satellite dataset II(East Asia)训练集上loss的变化曲线以及在测试集上F1-score的变化曲线。训练集上loss下降稳定，测试实验中，并未产生过拟合现象。

在另一个实施例中，Ra-cGAN和其他模型比较分析。

WHU building dataset数据集上Ra-cGAN模型与现有研究成果对比如表3所示。

表3

在表3所示的方法中SegNet是编码器为VGG前13层的卷积网络，解码器通过带索引的池化层还原图像尺寸。RefineNet是编码器使用远距离的残差连接，解码器使用一种链式残差池化操作。DeepLab V3+使用可分离卷积在ASPP结构中，是当前语义分割性能最好的模型之一。MLCA-Ksac是在MLCA的基础上加入共享空洞卷积模块，从而提升多尺度目标的分割精度。SiU-Net以原始图像及其下采样图像作为并行网络的输入，并行网络的两个分支共享相同的U型网络结构与权重，然后将分支的输出串联起来作为最终输出，该方法目前在WHU数据集上取得了最优的分割结果。从表3对比结果来看，Ra-cGAN在每一项评价指标上都取得了最高的精度，这表明了Ra-cGAN模型的有效性。

Satellite dataset II(East Asia)数据集上，Ra-cGAN模型与现有研究成果对比如表4所示。

表4

表4对比方法中，AugU-Net是对输入图像进行光谱增强操作，扩充其光谱维度的样本空间，即将原始图像重新采样作为新的输入样本。从表4的对比结果来看，Ra-cGAN在每一项评价指标上都取得了最高的精度，充分证明了包含多级通道注意力的条件对抗分割网络Ra-cGAN具有优秀的分割性能，以及应对来自不同的遥感建筑物对象分割任务中具有良好的扩展性与鲁棒性。

尽管以上结合附图对本发明的实施方案进行了描述，但本发明并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。

Claims

1.一种含多级通道注意力的条件生成对抗遥感图像目标分割方法，包括如下步骤：

S100：对作为分割的主干网络进行改进，其中，所述主干网络包括生成网络和判别网络，所述改进具体为；

S101：生成网络由含有多级通道注意力的分割网络构成；

S102：判别网络由跨步卷积和泄露型修正线性单元构成；

S300：输出遥感图像的分割结果。

2.根据权利要求1所述的方法，其中，优选的，所述步骤S101中的生成网络主要包括两个组件：编码器与解码器。

3.根据权利要求2所述的方法，其中，所述编码器包括5组卷积块、通道注意力层和Maxpooling层；所述解码器包括卷积层、反卷积层和通道注意力层。

4.根据权利要求3所述的方法，其中，所述5组卷积块，每组由2个卷积核尺寸为3的卷积层、批归一化层、ReLU激活函数组成；所述Maxpooling层设置为大小为2，步长为2；所述反卷积层设置为步长为2，卷积核尺寸为2。

5.根据权利要求3所述的方法，其中，所述的通道注意力层进一步包括：

6.根据权利要求1所述的方法，其中，所述步骤S102中的判别网络具体为：前三层卷积步长为2，卷积核大小为4，每经过一次卷积，特征向量的空间维度减少一半，通道数加倍；后两层卷积步长为1，卷积核大小为4，第5个卷积层将通道数压缩至1，再经过sigmoid层输出将生成网络生成的分割图像预测为真实的像素级标签图像的概率。

7.根据权利要求1所述的方法，其中，所述步骤S101中的生成网络的输入为原始图像和像素级标签图像。

8.根据权利要求1所述的方法，其中，所述步骤S102中的判别网络的输入为原始图像与所述生成网络生成的分割图像在通道维度上拼接后的拼接图像或原始图像与像素级标签图像在通道维度上拼接后的拼接图像。

9.根据权利要求3所述的方法，其中，所述解码器使用包含通道注意力的特征图进行跳跃链接，与反卷积得到的信息相融合，进而获得分割图像。