CN116935043A - 一种基于多任务生成对抗网络的典型地物遥感图像生成方法 - Google Patents
一种基于多任务生成对抗网络的典型地物遥感图像生成方法 Download PDFInfo
- Publication number
- CN116935043A CN116935043A CN202310703146.1A CN202310703146A CN116935043A CN 116935043 A CN116935043 A CN 116935043A CN 202310703146 A CN202310703146 A CN 202310703146A CN 116935043 A CN116935043 A CN 116935043A
- Authority
- CN
- China
- Prior art keywords
- layer
- convolution
- remote sensing
- generator
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 47
- 230000004927 fusion Effects 0.000 claims abstract description 16
- 230000004913 activation Effects 0.000 claims description 33
- 238000010606 normalization Methods 0.000 claims description 33
- 238000010586 diagram Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 12
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000005520 cutting process Methods 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 claims description 4
- 238000011282 treatment Methods 0.000 claims description 4
- 230000017105 transposition Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 26
- 238000013135 deep learning Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000001308 synthesis method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/30—Assessment of water resources
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多任务生成对抗网络的典型地物遥感图像生成方法,利用全局生成器捕捉语义标签块的全局信息,生成全局图像;同时利用局部生成器针对不同地物设置类别生成器,以类别生成器的中间特征合成局部生成结果,并引入空间注意模块以加强类别语义标签的生成效果,从而使局部生成器关注不同地物的特点,改善复杂的多类样本生成;利用共享参数编码器平衡全局生成器和局部生成器的训练过程,从而形成稳健的生成器网络;利用融合网络将全局生成结果和局部生成结果融合得到最终生成图像;利用人工制作的语义标签图像输入到训练好的生成模型,可以得到生成的遥感图像,以此来扩充数据集。
Description
技术领域
本发明属于遥感图像处理技术领域,更为具体地讲,涉及一种基于多任务生成对抗网络的典型地物遥感图像生成方法。
背景技术
随着深度学习的发展,遥感图像也被广泛用于基于卷积神经网络的深度学习任务中,如地物分类,语义分割,道路提取,变化检测,图像超分辨率,图像融合与配准等。作为当前人工智能领域的一个重要分支,深度学习方法的特点在于其使用了大量数据驱动的模式,通过利用多层的神经网络,将输入的数据进行自动特征提取,实现自动学习。然而,由于这种方法对数据的要求极高,故要实现深度学习模型的鲁棒训练,必须要有大量的有效数据样本。因此,数据的质量和数据量对于深度学习模型的成功至关重要。但由于遥感图像的获取成本较高,且在拍摄完成后,还需要经过繁琐而复杂的处理流程才能够投入使用。另一方面,由于标注样本数量有限,工作人员需要花费大量时间和精力来进行标注工作。因此,由于样本数量少、质量不佳以及样本多样性的不足,获取大量遥感图像数据样本存在困难,可能会对后续的研究工作产生负面影响,进而影响到整个研究进程。
传统数据增强方法在经过变换后可以扩大样本数量,但由于其操作的对象主要是单幅图像或多幅图像,仅仅使用了图像本身的信息或图像对的互信息,故而产生的新图像可以利用的先验知识很少,大多是对数据的重复记忆,增加的信息量有限。因此通过传统数据增强方法扩充后的数据集缺乏多样性,对模型的精度提升效果不明显。近年来基于机器学习的样本生成技术为数据增强提供了新思路,其中以生成对抗网络(GAN)为代表的基于神经网络的样本生成方法已成为机器学习领域中的研究热点。该方法将整个数据集作为先验知识,因此能扩充更有效的数据,更广泛地涵盖数据分布。
目前基于生成对抗网络的样本生成方法所针对的数据集图像形式单一,数据复杂度低,不适用于高分辨率、多尺度、多对象、数据分布复杂的遥感图像。同时,基于遥感图像面向的目标任务对生成图像细节要求不高,而对于语义分割任务,遥感图像的每类地物每个对象都同等重要,生成图像要求像素级准确度,故对生成图像的纹理细节要求高。最后,大部分语义图像合成方法主要是基于全局语义标签合成,针对不同类别对象使用同一模型结构,共享同一网络参数,但生成不同类别外观。因此针对不同尺度大小、不同样本占比量、不同复杂程度的对象,网络采取同等对待策略。而少部分针对具体类别设置生成网络的语义图像合成方法其具体类别生成网络设计简单,同时所面向的图像为生成对象次、重点分明或前、背景突出。因此针对遥感图像中各地物类别样本占比极不平衡、样本对象复杂的场景,现有语义图像合成方法难以生成高质量遥感图像。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于多任务生成对抗网络的典型地物遥感图像生成方法,通过制作含有典型地物的语义标签图像来生成遥感图像。
为实现上述发明目的,本发明一种基于多任务生成对抗网络的典型地物遥感图像生成方法,其特征在于,包括以下步骤:
(1)、构建训练数据集;
(1.1)、下载多张遥感图像,再利用语义分割标注工具将每张遥感图像中的典型地物进行标注,得到语义标签图像;其中,典型地物包括背景、水体、建筑、植被和道路,对应的像素值分别设为1、2、3、4、5;如:典型地物为背景,则对应的像素值设为1,典型地物为水体,则对应的像素值设为2,以此类推;
(1.2)、将每一张遥感图像与对应的语义标签图像裁剪为m*n大小的图块,其中记第i张遥感图像裁剪后的第j个遥感图像块为Ii,j,对应的语义标签图像块为Si,j,i=1,2,…表示遥感图像的编号,j=1,2,…表示遥感图像块的编号;Ii,j和Si,j的大小均为3×W×H的图像;
(1.3)、对语义标签图像块Si,j进行独热码处理,得到包含单一典型地物的类别语义标签图像将类别语义标签图像/>与对应遥感图像Ii,j进行点乘,得到包含单一典型地物的类别遥感图像/>
(1.4)、将遥感图像块Ii,j与对应的语义标签图像块Si,j作为一组训练数据,从而构成训练数据集;
(2)、搭建并训练多任务生成对抗网络;
(2.1)、从训练数据集中选取一组训练数据,并作为多任务生成对抗网络生成器的输入;
(2.2)、搭建并训练多任务生成对抗网络的生成器;
多任务生成对抗网络生成器以共享参数编码器作为输入端口,其中,共享参数编码器包含3个卷积模块、6个残差模块和3个反卷积模块;每个卷积模块包含了一个3x3的卷积层、一个实例归一化层和一个ReLu激活函数层;残差模块主路径首先依次经过3x3的卷积层、实例归一化层、ReLu激活函数层、3x3的卷积层、实例归一化层,再和跳链路径通道相加共同经过ReLu激活函数层;每个卷积模块包含了一个3x3的转至卷积层、一个实例归一化层和一个ReLu激活函数层;
语义标签图像块Si,j通过共享参数编码器后,得到编码特征图F64×W×H,然后同时将编码特征图F64×W×H送入多任务生成对抗网络的全局生成器、局部生成器和融合网络中;
其中,全局生成器包含编码器和解码器;编码器由9个串联的编码模块:E1、E2、E3、E4、E5、E6、E7、E8、E9构成,每个编码模块由4x4的步长为2的卷积层、实例归一化层、LeakyReLu激活函数层构成;编码器对编码特征图F64×W×H进行下采样,9个编码模块的输出特征依次为
解码器由9个串联解码模块D1、D2、D3、D4、D5、D6、D7、D8、D9构成,每个编码模块由4x4的步长为2的反卷积层、实例归一化层、ReLu激活函数层构成;解码器对编码器最后一个编码模块的输出特征进行上采样,9个解码模块的输出特征依次为
局部生成器包含5个结构相同的类别生成器以及类别特征融合模块;类别生成器包含类别编码器和类别解码器;类别编码器由4个串联的类别编码模块EN1、EN2、EN3、EN4构成,每个类别编码模块由4x4的步长为2的卷积层、实例归一化层、LeakyReLu激活函数层构成;
类别编码器将一张类别语义标签图像与编码特征图F64×W×H点乘的结果作为输入,每个类别编码模块的输出特征依次为/>其中,N=1,2,…5代表典型地物类别;
类别解码器由4个串联的类别解码模块DN1、DN2、DN3、DN4构成,每个类别解码模块由4x4的步长为2的反卷积层、实例归一化层、ReLu激活函数层构成;类别解码器对类别编码器最后一个类别编码模块的输出特征进行上采样,每个类别解码模块的输出特征依次为
类别特征融合模块包括上采样模块、空间注意力模块和一个卷积模块;上采样模块由三个反卷积层构成,每个反卷积层都包含两次“反卷积+实例归一化+ReLu激活函数”计算,其中第一次反卷积操作设置卷积核为3,卷积步长1,第二次反卷积操作设置卷积核为3,步长为2;特征经过一个反卷积层后,在尺度上均扩大为原来的两倍;5个类别生成器的中间特征 在通道维度上拼接后输入到上采样模块中,经过上采样计算后得到特征Fl 64×W×H;Fl 64×W×H紧接着被输入到空间注意力模块中;在空间注意力模块中,Fl 64×W×H分别经过平均池化和最大池化得到特征/>和/> 和/>通道维度拼接后得到特征/> 经过3×3卷积和Sigmoid运算后得到特征/>最后Fl 64×W×H与/>像素相乘后得到特征/> 经过一层3×3卷积得到局部生成器的最终结果/>
融合网络由三层3×3卷积及反卷积组成,F64×W×H经过卷积和反卷积运算后,再经过softmax层计算出特征F2×W×H;特征图F2×W×H第一个维度为权重图第二个维度为权重图/> 和/>点乘的结果与/>和/>点乘的结果在通道维度上拼接后输入到3×3卷积中,得到最终生成的遥感图像/>
将最终生成的遥感图像与真实遥感图像Ii,j分别送入特征提取网络,再通过特征提取网络提取特征,然后计算本轮生成器训练后的多损失函数值LG:
其中,
Lg=-logD(G(Si,j))
其中,G和D分别表示生成器和判别器,Lg为生成器损失值;
其中,为/>与Ii,j间的重建误差损失值;
其中,为/>与/>间的重建误差损失值;
其中,Φk()表示特征提取网络中第k个模块输出特征,V表示特征提取网络中所选模块的编号,LVGG为和Ii,j间的感知相似的损失值;
其中,Gram(F)=FTF,F为变量,上标T表示转置,U表示特征提取网络所选模块的序号,LT为和Ii,j间的纹理匹配损失值;
(2.3)、搭建并训练多任务生成对抗网络的判别器;
多任务生成对抗网络的判别器由6个卷积模块构成,前四个卷积模块由4×4的步长为2的卷积层、实例归一化层和LeakyReLu激活函数层构成,后两个卷积模块由4×4的步长为1的卷积层、实例归一化层和LeakyReLu激活函数层构成;判别器接收Si,j与Ii,j通道拼接的结果和Si,j与通道拼接的结果作为输入;
计算本轮判别器训练后的判别损失Ld:
最后,利用每一组训练数据对多任务生成对抗网络进行训练,训练固定迭代次数后,则停止训练,从而得到训练完成的多任务生成对抗网络;
(3)、典型地物遥感图像样本生成;
制作含有五类典型地物、大小为m*n样本语义标签图像块,然后再输入至训练完成的多任务生成对抗网络,从而输出对应的遥感图像。
本发明的发明目的是这样实现的:
本发明基于多任务生成对抗网络的典型地物遥感图像生成方法,利用全局生成器捕捉语义标签块的全局信息,生成全局图像;同时利用局部生成器针对不同地物设置类别生成器,以类别生成器的中间特征合成局部生成结果,并引入空间注意模块以加强类别语义标签的生成效果,从而使局部生成器关注不同地物的特点,改善复杂的多类样本生成;利用共享参数编码器平衡全局生成器和局部生成器的训练过程,从而形成稳健的生成器网络;利用融合网络将全局生成结果和局部生成结果融合得到最终生成图像;利用人工制作的语义标签图像输入到训练好的生成模型,可以得到生成的遥感图像,以此来扩充数据集。
同时,本发明基于多任务生成对抗网络的典型地物遥感图像生成方法还具有以下有益效果:
(1)、本发明通过感知损失和纹理匹配损失的约束,提升生成图像的色彩纹理和感知真实度。
(2)、本发明基于同时使用包含特定地物类别的局部生成器从具体类别语义标签中学习对应类别的特征,通过结合全局上下文的宏观信息和局部细节信息,生成细节更丰富,建筑物轮廓更完整,水体伪影更少的遥感图像。
(3)、针对局部生成器生成能力不足,局部生成器受到来自全局上下文信息特征信息的干扰导致特定类生成质量欠缺的问题,本发明利用局部生成器中各类别生成器的中间特征生成局部图像,并引入空间注意力模块加强同类地物之间的联系,提升具体地物类别的生成质量。
(4)、本发明对包含水体、建筑、植被、道路和其他五类典型地物的遥感图像进行数据扩充,重点解决了包含五类典型地物的遥感图像样本生成中,复杂建筑物、样本占比量少的地物生成困难的问题,从而使生成图像满足遥感图像语义分割深度学习任务所需样本的多样性和丰富性,提升遥感图像语义分割精度。
附图说明
图1是本发明多任务生成对抗网络生成器的整体结构图;
图2共享参数编码器结构图;
图3全局生成器结构图;
图4局部生成器结构图;
图5空间注意力模块结构图;
图6融合网络结构图;
图7VGG19网络计算损失函数示意图
图8多任务生成对抗网络判别器网络结构图;
图9为实验结果图,(a)图为语义标签图像,(b)图Pix2Pix生成图像,(c)图多任务生成对抗网络生成图像,(d)图为真实图像。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
在本实施例中,本发明一种基于多任务生成对抗网络的典型地物遥感图像生成方法,包括以下步骤:
(1)、构建训练数据集;
(1.1)、下载多张遥感图像,再利用语义分割标注工具将每张遥感图像中的典型地物进行标注,得到语义标签图像;其中,典型地物包括背景、水体、建筑、植被和道路,对应的像素值分别设为1、2、3、4、5;如:典型地物为背景,则对应的像素值设为1,典型地物为水体,则对应的像素值设为2,以此类推;
(1.2)、在本实施例中,下载的遥感图像为5826×3884大小,我们将每一张遥感图像与对应的语义标签图像裁剪为m*n=512*512大小的图块,其中记第i张遥感图像裁剪后的第j个遥感图像块为Ii,j,对应的语义标签图像块为Si,j,i=1,2,…表示遥感图像的编号,j=1,2,…表示遥感图像块的编号;Ii,j和Si,j的大小均为3×W×H的图像,其中W=512,H=512;
(1.3)、对语义标签图像块Si,j进行独热码处理,得到包含单一典型地物的类别语义标签图像将类别语义标签图像/>与对应遥感图像Ii,j进行点乘,得到包含单一典型地物的类别遥感图像/>
(1.4)、将遥感图像块Ii,j与对应的语义标签图像块Si,j作为一组训练数据,从而构成训练数据集;
(2)、搭建并训练图1所示的多任务生成对抗网络生成器;
(2.1)、从训练数据集中选取一组训练数据,并作为多任务生成对抗网络生成器的输入;
(2.2)、搭建并训练多任务生成对抗网络的生成器;
如图1所示,多任务生成对抗网络的生成器主要包括四个部分:共享参数编码器E、全局生成器Gg、融合网络Gw和局部生成器Gl;局部生成器中5个结构相同的类别生成器依次为:背景生成器Gl1、水体生成器Gl2、植被生成器Gl3、道路生成器Gl4、建筑生成器Gl5;
多任务生成对抗网络生成器以共享参数编码器E作为输入端口,其中,如图2所示,共享参数编码器包含3个卷积模块、6个残差模块和3个反卷积模块;每个卷积模块包含了一个3x3的卷积层、一个实例归一化层和一个ReLu激活函数层;残差模块主路径首先依次经过3x3的卷积层、实例归一化层、ReLu激活函数层、3x3的卷积层、实例归一化层,再和跳链路径通道相加共同经过ReLu激活函数层;每个卷积模块包含了一个3x3的转至卷积层、一个实例归一化层和一个ReLu激活函数层;共享参数编码器E一方面保持全局生成器Gg和局部生成器Gl在训练中的平衡性,另一方面学习语义标签图的整体信息,从而在正向特征学习和反向参数传递的过程中保持整个骨干网络训练过程的稳定性。
语义标签图像块Si,j通过共享参数编码器后,得到编码特征图F64×W×H,然后同时将编码特征图F64×W×H送入多任务生成对抗网络的全局生成器、局部生成器和融合网络中;
其中,如图3所示,全局生成器包含编码器和解码器;编码器由9个串联的编码模块:E1、E2、E3、E4、E5、E6、E7、E8、E9构成,每个编码模块由4x4的步长为2的卷积层、实例归一化层、LeakyReLu激活函数层构成;编码器对编码特征图F64×W×H进行下采样,9个编码模块的输出特征依次为
解码器由9个串联解码模块D1、D2、D3、D4、D5、D6、D7、D8、D9构成,每个编码模块由4x4的步长为2的反卷积层、实例归一化层、ReLu激活函数层构成;解码器对编码器最后一个编码模块的输出特征进行上采样,9个解码模块的输出特征依次为
如图4所示,局部生成器包含5个结构相同的类别生成器以及类别特征融合模块;针对不同典型地物设计特定的网络结构,这样可以辅助全局生成器在学习全局信息的同时,关注不同地物的特点,从而改善复杂的多类样本生成;类别生成器包含类别编码器和类别解码器;类别编码器由4个串联的类别编码模块EN1、EN2、EN3、EN4构成,每个类别编码模块由4x4的步长为2的卷积层、实例归一化层、LeakyReLu激活函数层构成;
类别编码器将一张类别语义标签图像与编码特征图F64×W×H点乘的结果作为输入如图1所示,背景的类别标签/>与编码特征图F64×W×H点乘的结果为f1,水体的类别标签与编码特征图F64×W×H点乘的结果为f2,依此类推;每个类别编码模块的输出特征依次为其中,N=1,2,…5代表典型地物类别;
类别解码器由4个串联的类别解码模块DN1、DN2、DN3、DN4构成,每个类别解码模块由4x4的步长为2的反卷积层、实例归一化层、ReLu激活函数层构成;类别解码器对类别编码器最后一个类别编码模块的输出特征进行上采样,每个类别解码模块的输出特征依次为
类别特征融合模块包括上采样模块、空间注意力模块和一个卷积模块;上采样模块由三个反卷积层构成,每个反卷积层都包含两次“反卷积+实例归一化+ReLu激活函数”计算,其中第一次反卷积操作设置卷积核为3,卷积步长1,第二次反卷积操作设置卷积核为3,步长为2;特征经过一个反卷积层后,在尺度上均扩大为原来的两倍;5个类别生成器的中间特征 在通道维度上拼接后输入到上采样模块中,经过上采样计算后得到特征Fl 64×W×H;Fl 64×W×H紧接着被输入到空间注意力模块中;如图5所示,在空间注意力模块中,Fl 64×W×H分别经过平均池化和最大池化得到特征和/> 和/>通道维度拼接后得到特征/> 经过3×3卷积和Sigmoid运算后得到特征/>最后Fl 64×W×H与/>像素相乘后得到特征/> 经过一层3×3卷积得到局部生成器的最终结果/>通过引入空间注意力模块,特征Fl 64×W×H可以在空间维度上获得全局的上下文信息,使得具有相同语义标签的像素之间能够进一步相互促进,提高多类别地物的图像生成质量。如图6所示,融合网络由三层3×3卷积及反卷积组成,F64×W×H经过卷积和反卷积运算后,再经过softmax层计算出特征F2×W×H;特征图F2×W×H第一个维度为权重图/>第二个维度为权重图/> 和/>点乘的结果与/>和/>点乘的结果在通道维度上拼接后输入到3×3卷积中,得到最终生成的遥感图像/>
如图7所示,将最终生成的遥感图像与真实遥感图像Ii,j分别送入特征提取网络VGG19中;特征提取网络可以获取输入图像在指定模块k中提取的中间特征,用于计算本轮生成器训练后的多损失函数值LG:
其中,
Lg=-logD(G(Si,j))
其中,G和D分别表示生成器和判别器,Lg为生成器损失值;
其中,为/>与Ii,j间重建误差损失值;
其中,为/>与/>间重建误差损失值;
其中,Φk()表示VGG19网络第k个模块的输出特征,V={2,4,8,12,16}为VGG19网络选定模块的序号,LVGG为和Ii,j间的感知相似性损失值;
其中,Gram(F)=FTF,F为变量,上标T表示转置,k={2,16}表示选取VGG19网络第2、16个模块的输出特征,LT为和Ii,j间的纹理匹配损失值;
(2.3)、搭建并训练多任务生成对抗网络的判别器;
如图7所示,多任务生成对抗网络的判别器由6个卷积模块构成,前四个卷积模块由4×4的步长为2的卷积层、实例归一化层和LeakyReLu激活函数层构成,后两个卷积模块由4×4的步长为1的卷积层、实例归一化层和LeakyReLu激活函数层构成;判别器接收Si,j与Ii,j通道拼接的结果和Si,j与通道拼接的结果作为输入;
计算本轮判别器训练后的判别损失Ld:
最后,利用每一组训练数据对多任务生成对抗网络进行训练,训练固定迭代次数后,则停止训练,从而得到训练完成的多任务生成对抗网络;
(3)、典型地物遥感图像样本生成;
制作含有五类典型地物、大小为m*n=512*512样本语义标签图像块,然后再输入至训练完成的多任务生成对抗网络,从而输出对应的遥感图像。
如图9所示,通过对输出图像的分析,可以看出本发明切实提升了典型地物遥感图像的生成质量。
其中,在图9中,(a)是待生成典型地物遥感图像的语义标签图,(b)是Pix2Pix生成结果图,(c)是多任务生成对抗网络生成结果图,(d)是真实遥感图像。从生成结果图中可以看出,对比Pix2Pix,多任务生成对抗网络生成具有更高质量的遥感图像,其中,图中第一行显示多任务生成对抗网络的生成图像其建筑物具有更清晰和更规则的轮廓;第二行显示多任务生成对抗网络的生成图像,其地物的纹理更真实、丰富;第三行和第四行分别显示多任务生成对抗网络的生成图像在水体和道路的纹理生成上更符合真实地物的特征。
综述,本发明围绕现有生成模型在遥感图像生成过程中存在的复杂建筑物生成困难、样本占比不均衡导致生成图像存在伪影、少样本量地物纹理生成不丰富的问题,提出多任务生成对抗网络模型。具体来说,多任务生成对抗网络利用全局生成器学习全局上下文信息,并针对不同地物类别设计特定的学习网络,以关注不同地物的细节特点,同时综合考虑共享编码器的特征提取能力,形成稳定的全局-局部生成模型结构,改善复杂的多类样本生成质量。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (1)
1.一种基于多任务生成对抗网络的典型地物遥感图像生成方法,其特征在于,包括以下步骤:
(1)、构建训练数据集;
(1.1)、
下载多张遥感图像,再利用语义分割标注工具将每张遥感图像中的典型地物进行标注,得到语义标签图像;其中,典型地物包括背景、水体、建筑、植被和道路,对应的像素值分别设为1、2、3、4、5;如:典型地物为背景,则对应的像素值设为1,典型地物为水体,则对应的像素值设为2,以此类推;
(1.2)、将每一张遥感图像与对应的语义标签图像裁剪为m*n大小的图块,其中记第i张遥感图像裁剪后的第j个遥感图像块为Ii,j,对应的语义标签图像块为Si,j,i=1,2,…表示遥感图像的编号,j=1,2,…表示遥感图像块的编号;Ii,j和Si,j的大小均为3×W×H的图像;
(1.3)、对语义标签图像块Si,j进行独热码处理,得到包含单一典型地物的类别语义标签图像将类别语义标签图像/>与对应遥感图像Ii,j进行点乘,得到包含单一典型地物的类别遥感图像/>
(1.4)、将遥感图像块Ii,j与对应的语义标签图像块Si,j作为一组训练数据,从而构成训练数据集;
(2)、搭建并训练多任务生成对抗网络;
(2.1)、从训练数据集中选取一组训练数据,并作为多任务生成对抗网络生成器的输入;
(2.2)、搭建并训练多任务生成对抗网络的生成器;
多任务生成对抗网络生成器以共享参数编码器作为输入端口,其中,共享参数编码器包含3个卷积模块、6个残差模块和3个反卷积模块;每个卷积模块包含了一个3x3的卷积层、一个实例归一化层和一个ReLu激活函数层;残差模块主路径首先依次经过3x3的卷积层、实例归一化层、ReLu激活函数层、3x3的卷积层、实例归一化层,再和跳链路径通道相加共同经过ReLu激活函数层;每个卷积模块包含了一个3x3的转至卷积层、一个实例归一化层和一个ReLu激活函数层;
语义标签图像块Si,j通过共享参数编码器后,得到编码特征图F64×W×H,然后同时将编码特征图F64×W×H送入多任务生成对抗网络的全局生成器、局部生成器和融合网络中;
其中,全局生成器包含编码器和解码器;编码器由9个串联的编码模块:E1、E2、E3、E4、E5、E6、E7、E8、E9构成,每个编码模块由4x4的步长为2的卷积层、实例归一化层、LeakyReLu激活函数层构成;编码器对编码特征图F64×W×H进行下采样,9个编码模块的输出特征依次为
解码器由9个串联解码模块D1、D2、D3、D4、D5、D6、D7、D8、D9构成,每个编码模块由4x4的步长为2的反卷积层、实例归一化层、ReLu激活函数层构成;解码器对编码器最后一个编码模块的输出特征进行上采样,9个解码模块的输出特征依次为
局部生成器包含5个结构相同的类别生成器以及类别特征融合模块;类别生成器包含类别编码器和类别解码器;类别编码器由4个串联的类别编码模块EN1、EN2、EN3、EN4构成,每个类别编码模块由4x4的步长为2的卷积层、实例归一化层、LeakyReLu激活函数层构成;
类别编码器将一张类别语义标签图像与编码特征图F64×W×H点乘的结果作为输入,每个类别编码模块的输出特征依次为/>其中,N=1,2,…5代表典型地物类别;
类别解码器由4个串联的类别解码模块DN1、DN2、DN3、DN4构成,每个类别解码模块由4x4的步长为2的反卷积层、实例归一化层、ReLu激活函数层构成;类别解码器对类别编码器最后一个类别编码模块的输出特征进行上采样,每个类别解码模块的输出特征依次为
类别特征融合模块包括上采样模块、空间注意力模块和一个卷积模块;上采样模块由三个反卷积层构成,每个反卷积层都包含两次“反卷积+实例归一化+ReLu激活函数”计算,其中第一次反卷积操作设置卷积核为3,卷积步长1,第二次反卷积操作设置卷积核为3,步长为2;特征经过一个反卷积层后,在尺度上均扩大为原来的两倍;5个类别生成器的中间特征 在通道维度上拼接后输入到上采样模块中,经过上采样计算后得到特征Fl 64×W×H;Fl 64×W×H紧接着被输入到空间注意力模块中;在空间注意力模块中,Fl 64×W×H分别经过平均池化和最大池化得到特征/>和/> 和/>通道维度拼接后得到特征/> 经过3×3卷积和Sigmoid运算后得到特征/>最后Fl 64×W×H与/>像素相乘后得到特征/> 经过一层3×3卷积得到局部生成器的最终结果/>
融合网络由三层3×3卷积及反卷积组成,F64×W×H经过卷积和反卷积运算后,再经过softmax层计算出特征F2×W×H;特征图F2×W×H第一个维度为权重图第二个维度为权重图/> 和/>点乘的结果与/>和/>点乘的结果在通道维度上拼接后输入到3×3卷积中,得到最终生成的遥感图像/>
将最终生成的遥感图像与真实遥感图像Ii,j分别送入特征提取网络,再通过特征提取网络提取特征,然后计算本轮生成器训练后的多损失函数值LG:
其中,
Lg=-logD(G(Si,j))
其中,G和D分别表示生成器和判别器,Lg为生成器损失值;
其中,为/>与Ii,j间的重建误差损失值;
其中,为/>与/>间的重建误差损失值;
其中,Φk()表示特征提取网络中第k个模块输出特征,V表示特征提取网络中所选模块的编号,LVGG为和Ii,j间的感知相似的损失值;
其中,Gram(F)=FTF,F为变量,上标T表示转置,U表示特征提取网络所选模块的序号,LT为和Ii,j间的纹理匹配损失值;
(2.3)、搭建并训练多任务生成对抗网络的判别器;
多任务生成对抗网络的判别器由6个卷积模块构成,前四个卷积模块由4×4的步长为2的卷积层、实例归一化层和LeakyReLu激活函数层构成,后两个卷积模块由4×4的步长为1的卷积层、实例归一化层和LeakyReLu激活函数层构成;判别器接收Si,j与Ii,j通道拼接的结果和Si,j与通道拼接的结果作为输入;
计算本轮判别器训练后的判别损失Ld:
最后,利用每一组训练数据对多任务生成对抗网络进行训练,训练固定迭代次数后,则停止训练,从而得到训练完成的多任务生成对抗网络;
(3)、典型地物遥感图像样本生成;
制作含有五类典型地物、大小为m*n样本语义标签图像块,然后再输入至训练完成的多任务生成对抗网络,从而输出对应的遥感图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310703146.1A CN116935043A (zh) | 2023-06-14 | 2023-06-14 | 一种基于多任务生成对抗网络的典型地物遥感图像生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310703146.1A CN116935043A (zh) | 2023-06-14 | 2023-06-14 | 一种基于多任务生成对抗网络的典型地物遥感图像生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116935043A true CN116935043A (zh) | 2023-10-24 |
Family
ID=88385424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310703146.1A Pending CN116935043A (zh) | 2023-06-14 | 2023-06-14 | 一种基于多任务生成对抗网络的典型地物遥感图像生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116935043A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117237778A (zh) * | 2023-11-15 | 2023-12-15 | 松立控股集团股份有限公司 | 基于特征融合gan的少样本图像生成方法及系统 |
CN117409100A (zh) * | 2023-12-15 | 2024-01-16 | 山东师范大学 | 基于卷积神经网络的cbct图像伪影矫正系统及方法 |
-
2023
- 2023-06-14 CN CN202310703146.1A patent/CN116935043A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117237778A (zh) * | 2023-11-15 | 2023-12-15 | 松立控股集团股份有限公司 | 基于特征融合gan的少样本图像生成方法及系统 |
CN117409100A (zh) * | 2023-12-15 | 2024-01-16 | 山东师范大学 | 基于卷积神经网络的cbct图像伪影矫正系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113159051B (zh) | 一种基于边缘解耦的遥感图像轻量化语义分割方法 | |
Engin et al. | Cycle-dehaze: Enhanced cyclegan for single image dehazing | |
CN108537742B (zh) | 一种基于生成对抗网络的遥感图像全色锐化方法 | |
CN110059758B (zh) | 一种基于语义分割的遥感影像养殖塘检测方法 | |
CN111612807B (zh) | 一种基于尺度和边缘信息的小目标图像分割方法 | |
CN108648197B (zh) | 一种基于图像背景掩膜的目标候选区域提取方法 | |
CN112465111A (zh) | 一种基于知识蒸馏和对抗训练的三维体素图像分割方法 | |
CN116935043A (zh) | 一种基于多任务生成对抗网络的典型地物遥感图像生成方法 | |
CN109035267B (zh) | 一种基于深度学习的图像目标抠取方法 | |
CN111178316A (zh) | 一种基于深度架构自动搜索的高分辨率遥感影像土地覆盖分类方法 | |
CN112070727B (zh) | 一种基于机器学习的金属表面缺陷检测方法 | |
CN107578455B (zh) | 基于卷积神经网络的任意尺寸样本纹理合成方法 | |
CN112364838B (zh) | 一种利用合成的联机文本图像改进手写ocr性能的方法 | |
CN109087375A (zh) | 基于深度学习的图像空洞填充方法 | |
CN110070517A (zh) | 基于退化成像机理和生成对抗机制的模糊图像合成方法 | |
CN115908772A (zh) | 一种基于Transformer和融合注意力机制的目标检测方法及系统 | |
CN117409192B (zh) | 一种基于数据增强的红外小目标检测方法及装置 | |
CN114863266A (zh) | 一种基于深度时空模式交互网络的土地利用分类方法 | |
CN112767277B (zh) | 一种基于参考图像的深度特征排序去模糊方法 | |
CN113744205A (zh) | 一种端到端的道路裂缝检测系统 | |
CN117422998A (zh) | 一种基于YOLOv5s改进的河道漂浮物识别算法 | |
CN116563683A (zh) | 一种基于卷积神经网络和多层感知机的遥感影像场景分类方法 | |
CN114331894B (zh) | 一种基于潜在特征重构和掩模感知的人脸图像修复方法 | |
CN115205624A (zh) | 一种跨维度注意力聚合的云雪辩识方法、设备及存储介质 | |
Jiang et al. | Mask‐guided image person removal with data synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |