CN116935043A

CN116935043A - 一种基于多任务生成对抗网络的典型地物遥感图像生成方法

Info

Publication number: CN116935043A
Application number: CN202310703146.1A
Authority: CN
Inventors: 李玉霞; 龚钰姝; 何磊; 张靖霖; 童忠贵; 刘斌; 罗涵
Original assignee: University of Electronic Science and Technology of China; Chengdu University of Information Technology
Current assignee: University of Electronic Science and Technology of China; Chengdu University of Information Technology
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-10-24

Abstract

本发明公开了一种基于多任务生成对抗网络的典型地物遥感图像生成方法，利用全局生成器捕捉语义标签块的全局信息，生成全局图像；同时利用局部生成器针对不同地物设置类别生成器，以类别生成器的中间特征合成局部生成结果，并引入空间注意模块以加强类别语义标签的生成效果，从而使局部生成器关注不同地物的特点，改善复杂的多类样本生成；利用共享参数编码器平衡全局生成器和局部生成器的训练过程，从而形成稳健的生成器网络；利用融合网络将全局生成结果和局部生成结果融合得到最终生成图像；利用人工制作的语义标签图像输入到训练好的生成模型，可以得到生成的遥感图像，以此来扩充数据集。

Description

一种基于多任务生成对抗网络的典型地物遥感图像生成方法

技术领域

本发明属于遥感图像处理技术领域，更为具体地讲，涉及一种基于多任务生成对抗网络的典型地物遥感图像生成方法。

背景技术

随着深度学习的发展，遥感图像也被广泛用于基于卷积神经网络的深度学习任务中，如地物分类，语义分割，道路提取，变化检测，图像超分辨率，图像融合与配准等。作为当前人工智能领域的一个重要分支，深度学习方法的特点在于其使用了大量数据驱动的模式，通过利用多层的神经网络，将输入的数据进行自动特征提取，实现自动学习。然而，由于这种方法对数据的要求极高，故要实现深度学习模型的鲁棒训练，必须要有大量的有效数据样本。因此，数据的质量和数据量对于深度学习模型的成功至关重要。但由于遥感图像的获取成本较高，且在拍摄完成后，还需要经过繁琐而复杂的处理流程才能够投入使用。另一方面，由于标注样本数量有限，工作人员需要花费大量时间和精力来进行标注工作。因此，由于样本数量少、质量不佳以及样本多样性的不足，获取大量遥感图像数据样本存在困难，可能会对后续的研究工作产生负面影响，进而影响到整个研究进程。

传统数据增强方法在经过变换后可以扩大样本数量，但由于其操作的对象主要是单幅图像或多幅图像，仅仅使用了图像本身的信息或图像对的互信息，故而产生的新图像可以利用的先验知识很少，大多是对数据的重复记忆，增加的信息量有限。因此通过传统数据增强方法扩充后的数据集缺乏多样性，对模型的精度提升效果不明显。近年来基于机器学习的样本生成技术为数据增强提供了新思路，其中以生成对抗网络(GAN)为代表的基于神经网络的样本生成方法已成为机器学习领域中的研究热点。该方法将整个数据集作为先验知识，因此能扩充更有效的数据，更广泛地涵盖数据分布。

目前基于生成对抗网络的样本生成方法所针对的数据集图像形式单一，数据复杂度低，不适用于高分辨率、多尺度、多对象、数据分布复杂的遥感图像。同时，基于遥感图像面向的目标任务对生成图像细节要求不高，而对于语义分割任务，遥感图像的每类地物每个对象都同等重要，生成图像要求像素级准确度，故对生成图像的纹理细节要求高。最后，大部分语义图像合成方法主要是基于全局语义标签合成，针对不同类别对象使用同一模型结构，共享同一网络参数，但生成不同类别外观。因此针对不同尺度大小、不同样本占比量、不同复杂程度的对象，网络采取同等对待策略。而少部分针对具体类别设置生成网络的语义图像合成方法其具体类别生成网络设计简单，同时所面向的图像为生成对象次、重点分明或前、背景突出。因此针对遥感图像中各地物类别样本占比极不平衡、样本对象复杂的场景，现有语义图像合成方法难以生成高质量遥感图像。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于多任务生成对抗网络的典型地物遥感图像生成方法，通过制作含有典型地物的语义标签图像来生成遥感图像。

为实现上述发明目的，本发明一种基于多任务生成对抗网络的典型地物遥感图像生成方法，其特征在于，包括以下步骤：

(1)、构建训练数据集；

(1.1)、下载多张遥感图像，再利用语义分割标注工具将每张遥感图像中的典型地物进行标注，得到语义标签图像；其中，典型地物包括背景、水体、建筑、植被和道路，对应的像素值分别设为1、2、3、4、5；如：典型地物为背景，则对应的像素值设为1，典型地物为水体，则对应的像素值设为2，以此类推；

(1.2)、将每一张遥感图像与对应的语义标签图像裁剪为m*n大小的图块，其中记第i张遥感图像裁剪后的第j个遥感图像块为I_i,j，对应的语义标签图像块为S_i,j，i＝1,2,…表示遥感图像的编号，j＝1,2,…表示遥感图像块的编号；I_i,j和S_i,j的大小均为3×W×H的图像；

(1.3)、对语义标签图像块S_i,j进行独热码处理，得到包含单一典型地物的类别语义标签图像将类别语义标签图像/>与对应遥感图像I_i,j进行点乘，得到包含单一典型地物的类别遥感图像/>

(1.4)、将遥感图像块I_i,j与对应的语义标签图像块S_i,j作为一组训练数据，从而构成训练数据集；

(2)、搭建并训练多任务生成对抗网络；

(2.1)、从训练数据集中选取一组训练数据，并作为多任务生成对抗网络生成器的输入；

(2.2)、搭建并训练多任务生成对抗网络的生成器；

多任务生成对抗网络生成器以共享参数编码器作为输入端口，其中，共享参数编码器包含3个卷积模块、6个残差模块和3个反卷积模块；每个卷积模块包含了一个3x3的卷积层、一个实例归一化层和一个ReLu激活函数层；残差模块主路径首先依次经过3x3的卷积层、实例归一化层、ReLu激活函数层、3x3的卷积层、实例归一化层，再和跳链路径通道相加共同经过ReLu激活函数层；每个卷积模块包含了一个3x3的转至卷积层、一个实例归一化层和一个ReLu激活函数层；

语义标签图像块S_i,j通过共享参数编码器后，得到编码特征图F^64×W×H，然后同时将编码特征图F^64×W×H送入多任务生成对抗网络的全局生成器、局部生成器和融合网络中；

其中，全局生成器包含编码器和解码器；编码器由9个串联的编码模块：E₁、E₂、E₃、E₄、E₅、E₆、E₇、E₈、E₉构成，每个编码模块由4x4的步长为2的卷积层、实例归一化层、LeakyReLu激活函数层构成；编码器对编码特征图F^64×W×H进行下采样，9个编码模块的输出特征依次为

解码器由9个串联解码模块D₁、D₂、D₃、D₄、D₅、D₆、D₇、D₈、D₉构成，每个编码模块由4x4的步长为2的反卷积层、实例归一化层、ReLu激活函数层构成；解码器对编码器最后一个编码模块的输出特征进行上采样，9个解码模块的输出特征依次为

局部生成器包含5个结构相同的类别生成器以及类别特征融合模块；类别生成器包含类别编码器和类别解码器；类别编码器由4个串联的类别编码模块E_N1、E_N2、E_N3、E_N4构成，每个类别编码模块由4x4的步长为2的卷积层、实例归一化层、LeakyReLu激活函数层构成；

类别编码器将一张类别语义标签图像与编码特征图F^64×W×H点乘的结果作为输入，每个类别编码模块的输出特征依次为/>其中，N＝1,2,…5代表典型地物类别；

类别解码器由4个串联的类别解码模块D_N1、D_N2、D_N3、D_N4构成，每个类别解码模块由4x4的步长为2的反卷积层、实例归一化层、ReLu激活函数层构成；类别解码器对类别编码器最后一个类别编码模块的输出特征进行上采样，每个类别解码模块的输出特征依次为

类别特征融合模块包括上采样模块、空间注意力模块和一个卷积模块；上采样模块由三个反卷积层构成，每个反卷积层都包含两次“反卷积+实例归一化+ReLu激活函数”计算，其中第一次反卷积操作设置卷积核为3，卷积步长1，第二次反卷积操作设置卷积核为3，步长为2；特征经过一个反卷积层后，在尺度上均扩大为原来的两倍；5个类别生成器的中间特征在通道维度上拼接后输入到上采样模块中，经过上采样计算后得到特征F_l ^64×W×H；F_l ^64×W×H紧接着被输入到空间注意力模块中；在空间注意力模块中，F_l ^64×W×H分别经过平均池化和最大池化得到特征/>和/> 和/>通道维度拼接后得到特征/> 经过3×3卷积和Sigmoid运算后得到特征/>最后F_l ^64×W×H与/>像素相乘后得到特征/> 经过一层3×3卷积得到局部生成器的最终结果/>

融合网络由三层3×3卷积及反卷积组成，F^64×W×H经过卷积和反卷积运算后，再经过softmax层计算出特征F^2×W×H；特征图F^2×W×H第一个维度为权重图第二个维度为权重图/> 和/>点乘的结果与/>和/>点乘的结果在通道维度上拼接后输入到3×3卷积中，得到最终生成的遥感图像/>

将最终生成的遥感图像与真实遥感图像I_i,j分别送入特征提取网络，再通过特征提取网络提取特征，然后计算本轮生成器训练后的多损失函数值L_G：

其中，

L_g＝-logD(G(S_i,j))

其中，G和D分别表示生成器和判别器，L_g为生成器损失值；

其中，为/>与I_i,j间的重建误差损失值；

其中，为/>与/>间的重建误差损失值；

其中，Φ_k()表示特征提取网络中第k个模块输出特征，V表示特征提取网络中所选模块的编号，L_VGG为和I_i,j间的感知相似的损失值；

其中，Gram(F)＝F^TF，F为变量，上标T表示转置，U表示特征提取网络所选模块的序号，L_T为和I_i,j间的纹理匹配损失值；

(2.3)、搭建并训练多任务生成对抗网络的判别器；

多任务生成对抗网络的判别器由6个卷积模块构成，前四个卷积模块由4×4的步长为2的卷积层、实例归一化层和LeakyReLu激活函数层构成，后两个卷积模块由4×4的步长为1的卷积层、实例归一化层和LeakyReLu激活函数层构成；判别器接收S_i,j与I_i,j通道拼接的结果和S_i,j与通道拼接的结果作为输入；

计算本轮判别器训练后的判别损失L_d：

最后，利用每一组训练数据对多任务生成对抗网络进行训练，训练固定迭代次数后，则停止训练，从而得到训练完成的多任务生成对抗网络；

(3)、典型地物遥感图像样本生成；

制作含有五类典型地物、大小为m*n样本语义标签图像块，然后再输入至训练完成的多任务生成对抗网络，从而输出对应的遥感图像。

本发明的发明目的是这样实现的：

本发明基于多任务生成对抗网络的典型地物遥感图像生成方法，利用全局生成器捕捉语义标签块的全局信息，生成全局图像；同时利用局部生成器针对不同地物设置类别生成器，以类别生成器的中间特征合成局部生成结果，并引入空间注意模块以加强类别语义标签的生成效果，从而使局部生成器关注不同地物的特点，改善复杂的多类样本生成；利用共享参数编码器平衡全局生成器和局部生成器的训练过程，从而形成稳健的生成器网络；利用融合网络将全局生成结果和局部生成结果融合得到最终生成图像；利用人工制作的语义标签图像输入到训练好的生成模型，可以得到生成的遥感图像，以此来扩充数据集。

同时，本发明基于多任务生成对抗网络的典型地物遥感图像生成方法还具有以下有益效果：

(1)、本发明通过感知损失和纹理匹配损失的约束，提升生成图像的色彩纹理和感知真实度。

(2)、本发明基于同时使用包含特定地物类别的局部生成器从具体类别语义标签中学习对应类别的特征，通过结合全局上下文的宏观信息和局部细节信息，生成细节更丰富，建筑物轮廓更完整，水体伪影更少的遥感图像。

(3)、针对局部生成器生成能力不足，局部生成器受到来自全局上下文信息特征信息的干扰导致特定类生成质量欠缺的问题，本发明利用局部生成器中各类别生成器的中间特征生成局部图像，并引入空间注意力模块加强同类地物之间的联系，提升具体地物类别的生成质量。

(4)、本发明对包含水体、建筑、植被、道路和其他五类典型地物的遥感图像进行数据扩充，重点解决了包含五类典型地物的遥感图像样本生成中，复杂建筑物、样本占比量少的地物生成困难的问题，从而使生成图像满足遥感图像语义分割深度学习任务所需样本的多样性和丰富性，提升遥感图像语义分割精度。

附图说明

图1是本发明多任务生成对抗网络生成器的整体结构图；

图2共享参数编码器结构图；

图3全局生成器结构图；

图4局部生成器结构图；

图5空间注意力模块结构图；

图6融合网络结构图；

图7VGG19网络计算损失函数示意图

图8多任务生成对抗网络判别器网络结构图；

图9为实验结果图，(a)图为语义标签图像，(b)图Pix2Pix生成图像，(c)图多任务生成对抗网络生成图像，(d)图为真实图像。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

在本实施例中，本发明一种基于多任务生成对抗网络的典型地物遥感图像生成方法，包括以下步骤：

(1)、构建训练数据集；

(1.2)、在本实施例中，下载的遥感图像为5826×3884大小，我们将每一张遥感图像与对应的语义标签图像裁剪为m*n＝512*512大小的图块，其中记第i张遥感图像裁剪后的第j个遥感图像块为I_i,j，对应的语义标签图像块为S_i,j，i＝1,2,…表示遥感图像的编号，j＝1,2,…表示遥感图像块的编号；I_i,j和S_i,j的大小均为3×W×H的图像，其中W＝512,H＝512；

(2)、搭建并训练图1所示的多任务生成对抗网络生成器；

(2.2)、搭建并训练多任务生成对抗网络的生成器；

如图1所示，多任务生成对抗网络的生成器主要包括四个部分：共享参数编码器E、全局生成器G_g、融合网络G_w和局部生成器G_l；局部生成器中5个结构相同的类别生成器依次为：背景生成器G_l1、水体生成器G_l2、植被生成器G_l3、道路生成器G_l4、建筑生成器G_l5；

多任务生成对抗网络生成器以共享参数编码器E作为输入端口，其中，如图2所示，共享参数编码器包含3个卷积模块、6个残差模块和3个反卷积模块；每个卷积模块包含了一个3x3的卷积层、一个实例归一化层和一个ReLu激活函数层；残差模块主路径首先依次经过3x3的卷积层、实例归一化层、ReLu激活函数层、3x3的卷积层、实例归一化层，再和跳链路径通道相加共同经过ReLu激活函数层；每个卷积模块包含了一个3x3的转至卷积层、一个实例归一化层和一个ReLu激活函数层；共享参数编码器E一方面保持全局生成器G_g和局部生成器G_l在训练中的平衡性，另一方面学习语义标签图的整体信息，从而在正向特征学习和反向参数传递的过程中保持整个骨干网络训练过程的稳定性。

其中，如图3所示，全局生成器包含编码器和解码器；编码器由9个串联的编码模块：E₁、E₂、E₃、E₄、E₅、E₆、E₇、E₈、E₉构成，每个编码模块由4x4的步长为2的卷积层、实例归一化层、LeakyReLu激活函数层构成；编码器对编码特征图F^64×W×H进行下采样，9个编码模块的输出特征依次为

如图4所示，局部生成器包含5个结构相同的类别生成器以及类别特征融合模块；针对不同典型地物设计特定的网络结构，这样可以辅助全局生成器在学习全局信息的同时，关注不同地物的特点，从而改善复杂的多类样本生成；类别生成器包含类别编码器和类别解码器；类别编码器由4个串联的类别编码模块E_N1、E_N2、E_N3、E_N4构成，每个类别编码模块由4x4的步长为2的卷积层、实例归一化层、LeakyReLu激活函数层构成；

类别编码器将一张类别语义标签图像与编码特征图F^64×W×H点乘的结果作为输入如图1所示，背景的类别标签/>与编码特征图F^64×W×H点乘的结果为f₁，水体的类别标签与编码特征图F^64×W×H点乘的结果为f₂，依此类推；每个类别编码模块的输出特征依次为其中，N＝1,2,…5代表典型地物类别；

类别特征融合模块包括上采样模块、空间注意力模块和一个卷积模块；上采样模块由三个反卷积层构成，每个反卷积层都包含两次“反卷积+实例归一化+ReLu激活函数”计算，其中第一次反卷积操作设置卷积核为3，卷积步长1，第二次反卷积操作设置卷积核为3，步长为2；特征经过一个反卷积层后，在尺度上均扩大为原来的两倍；5个类别生成器的中间特征在通道维度上拼接后输入到上采样模块中，经过上采样计算后得到特征F_l ^64×W×H；F_l ^64×W×H紧接着被输入到空间注意力模块中；如图5所示，在空间注意力模块中，F_l ^64×W×H分别经过平均池化和最大池化得到特征和/> 和/>通道维度拼接后得到特征/> 经过3×3卷积和Sigmoid运算后得到特征/>最后F_l ^64×W×H与/>像素相乘后得到特征/> 经过一层3×3卷积得到局部生成器的最终结果/>通过引入空间注意力模块，特征F_l ^64×W×H可以在空间维度上获得全局的上下文信息,使得具有相同语义标签的像素之间能够进一步相互促进，提高多类别地物的图像生成质量。如图6所示，融合网络由三层3×3卷积及反卷积组成，F^64×W×H经过卷积和反卷积运算后，再经过softmax层计算出特征F^2×W×H；特征图F^2×W×H第一个维度为权重图/>第二个维度为权重图/> 和/>点乘的结果与/>和/>点乘的结果在通道维度上拼接后输入到3×3卷积中，得到最终生成的遥感图像/>

如图7所示，将最终生成的遥感图像与真实遥感图像I_i,j分别送入特征提取网络VGG19中；特征提取网络可以获取输入图像在指定模块k中提取的中间特征，用于计算本轮生成器训练后的多损失函数值L_G：

其中，

L_g＝-logD(G(S_i,j))

其中，G和D分别表示生成器和判别器，L_g为生成器损失值；

其中，为/>与I_i,j间重建误差损失值；

其中，为/>与/>间重建误差损失值；

其中，Φ_k()表示VGG19网络第k个模块的输出特征，V＝{2,4,8,12,16}为VGG19网络选定模块的序号，L_VGG为和I_i,j间的感知相似性损失值；

其中，Gram(F)＝F^TF，F为变量，上标T表示转置，k＝{2,16}表示选取VGG19网络第2、16个模块的输出特征，L_T为和I_i,j间的纹理匹配损失值；

(2.3)、搭建并训练多任务生成对抗网络的判别器；

如图7所示，多任务生成对抗网络的判别器由6个卷积模块构成，前四个卷积模块由4×4的步长为2的卷积层、实例归一化层和LeakyReLu激活函数层构成，后两个卷积模块由4×4的步长为1的卷积层、实例归一化层和LeakyReLu激活函数层构成；判别器接收S_i,j与I_i,j通道拼接的结果和S_i,j与通道拼接的结果作为输入；

计算本轮判别器训练后的判别损失L_d：

(3)、典型地物遥感图像样本生成；

制作含有五类典型地物、大小为m*n＝512*512样本语义标签图像块，然后再输入至训练完成的多任务生成对抗网络，从而输出对应的遥感图像。

如图9所示，通过对输出图像的分析，可以看出本发明切实提升了典型地物遥感图像的生成质量。

其中，在图9中，(a)是待生成典型地物遥感图像的语义标签图，(b)是Pix2Pix生成结果图，(c)是多任务生成对抗网络生成结果图，(d)是真实遥感图像。从生成结果图中可以看出，对比Pix2Pix，多任务生成对抗网络生成具有更高质量的遥感图像，其中，图中第一行显示多任务生成对抗网络的生成图像其建筑物具有更清晰和更规则的轮廓；第二行显示多任务生成对抗网络的生成图像，其地物的纹理更真实、丰富；第三行和第四行分别显示多任务生成对抗网络的生成图像在水体和道路的纹理生成上更符合真实地物的特征。

综述，本发明围绕现有生成模型在遥感图像生成过程中存在的复杂建筑物生成困难、样本占比不均衡导致生成图像存在伪影、少样本量地物纹理生成不丰富的问题，提出多任务生成对抗网络模型。具体来说，多任务生成对抗网络利用全局生成器学习全局上下文信息，并针对不同地物类别设计特定的学习网络，以关注不同地物的细节特点，同时综合考虑共享编码器的特征提取能力，形成稳定的全局-局部生成模型结构，改善复杂的多类样本生成质量。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于多任务生成对抗网络的典型地物遥感图像生成方法，其特征在于，包括以下步骤：

(1)、构建训练数据集；

(1.1)、

下载多张遥感图像，再利用语义分割标注工具将每张遥感图像中的典型地物进行标注，得到语义标签图像；其中，典型地物包括背景、水体、建筑、植被和道路，对应的像素值分别设为1、2、3、4、5；如：典型地物为背景，则对应的像素值设为1，典型地物为水体，则对应的像素值设为2，以此类推；

(2)、搭建并训练多任务生成对抗网络；

(2.2)、搭建并训练多任务生成对抗网络的生成器；

其中，

L_g＝-logD(G(S_i,j))

其中，G和D分别表示生成器和判别器，L_g为生成器损失值；

其中，为/>与I_i,j间的重建误差损失值；

其中，为/>与/>间的重建误差损失值；

(2.3)、搭建并训练多任务生成对抗网络的判别器；

计算本轮判别器训练后的判别损失L_d：

(3)、典型地物遥感图像样本生成；