CN110689086B - 基于生成式对抗网络的半监督高分遥感图像场景分类方法 - Google Patents

基于生成式对抗网络的半监督高分遥感图像场景分类方法 Download PDF

Info

Publication number
CN110689086B
CN110689086B CN201910948951.4A CN201910948951A CN110689086B CN 110689086 B CN110689086 B CN 110689086B CN 201910948951 A CN201910948951 A CN 201910948951A CN 110689086 B CN110689086 B CN 110689086B
Authority
CN
China
Prior art keywords
emgan
image
training
discriminator
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910948951.4A
Other languages
English (en)
Other versions
CN110689086A (zh
Inventor
钱晓亮
李佳
刘玉翠
张建伟
程塨
姚西文
王慰
任航丽
李祖贺
王芳
史坤峰
曾黎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University of Light Industry
Original Assignee
Zhengzhou University of Light Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University of Light Industry filed Critical Zhengzhou University of Light Industry
Priority to CN201910948951.4A priority Critical patent/CN110689086B/zh
Publication of CN110689086A publication Critical patent/CN110689086A/zh
Application granted granted Critical
Publication of CN110689086B publication Critical patent/CN110689086B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提出了一种基于生成式对抗网络的半监督高分遥感图像场景分类方法,构建EMGAN模型:将生成式对抗网络的判别器由二分类变为多分类获得EMGAN判别器,在生成式对抗网络的生成器中添加一个信息熵最大化网络获得EMGAN生成器;训练EMGAN模型:根据训练图像有无标签,将EMGAN判别器的损失函数分为监督部分和无监督部分;将EMGAN生成器的损失函数分成特征匹配损失函数和生成图像信息熵损失函数;EMGAN判别器和EMGAN生成器双方交替训练;微调VGGNet‑16模型;训练SVM模型;融合EMGAN模型和VGGNet‑16模型的特征并进行场景分类,得到分类结果。本发明在训练样本较少的情况下,能够有效提升遥感图像场景分类的精度。

Description

基于生成式对抗网络的半监督高分遥感图像场景分类方法
技术领域
本发明涉及基于机器学习的高分辨率遥感图像场景分类的技术领域,尤其涉及一种基于生成式对抗网络的半监督高分遥感图像场景分类方法。
背景技术
土地覆盖是人地相互作用过程的最终体现,也是地球表层系统最明显的景观标志,土地覆盖变化又会引发一系列环境的改变。遥感技术因能提供动态、丰富和廉价的数据源已成为获取土地覆盖信息最为行之有效的手段。近年来,随着遥感成像技术的不断发展,已经能够得到多种分辨率(空间分辨率、光谱分辨率、辐射分辨率和时间分辨率)且质量更高的航拍或者卫星拍摄的遥感图像,因而对从遥感图像中辨别土地利用或覆盖的情况提出了更高的要求。高分辨率遥感图像场景分类能够有效地辨别土地利用情况,其结果也可以为目标识别和检索任务提供重要的参考信息,有效提高图像解译的性能,在自然灾害监测、交通监管、武器制导和城市规划等应用方面具有重要的意义。
高分辨率遥感图像场景分类的大致流程为:对输入图像进行特征提取,然后分类器利用图像特征进行分类得到最终结果。其中,分类器的研究已经相对成熟,当前工作的重点之一就是特征提取策略的研究。现有高分辨率遥感图像场景分类方法的特征提取策略可大致分为两类:(1)手工特征的提取,主要依靠专业人员设计特征提取算法;(2)数据驱动特征的提取,基于大量样本自动学习出图像特征。其中以深度学习为代表的数据驱动特征分类表现优于手工特征,然后缺乏大规模的高分遥感图像场景分类数据集,限制了深度学习特征在高分遥感图像场景分类中的应用效果。
发明内容
针对现有高分辨率遥感图像场景分类方法特征提取的精度低,需要大量样本的技术问题,本发明提出一种基于生成式对抗网络的半监督高分遥感图像场景分类方法,能够使用较少的训练样本为最后的分类任务提供具有较强判别力的图像特征,分类精度较高。
为了达到上述目的,本发明的技术方案是这样实现的:一种基于生成式对抗网络的半监督高分遥感图像场景分类方法,其步骤如下:
步骤一:构建EMGAN模型:将生成式对抗网络的判别器由二分类变为多分类获得EMGAN判别器,在生成式对抗网络的生成器中添加一个信息熵最大化网络获得EMGAN生成器,利用EMGAN判别器和EMGAN生成器构建EMGAN模型;
步骤二:训练EMGAN模型:根据训练图像有无标签,将EMGAN判别器的损失函数分为监督部分和无监督部分;将EMGAN生成器的损失函数分为特征匹配损失函数和生成图像信息熵损失函数;EMGAN判别器和EMGAN生成器双方交替训练;
步骤三:微调VGGNet-16模型:采用在自然图像数据集上预训练过的VGGNet-16模型,即引入了大量的自然图像知识,再将VGGNet-16模型增加一个全连接层,然后使用有标签的遥感图像对其进行微调;
步骤四:训练SVM模型:将有标签的真实图像分别输入训练后的EMGAN模型和VGGNet-16模型,提取EMGAN模型和VGGNet-16模型的全连接层特征并进行融合成为训练图像的最终表示,将训练图像的最终表示传送至SVM进行训练;
步骤五:融合EMGAN模型和VGGNet-16模型的特征并进行场景分类:将测试图像分别输入训练后的EMGAN模型和VGGNet-16模型,提取EMGAN模型和VGGNet-16模型的全连接层特征并进行融合成为测试图像的最终表示,将测试图像的最终表示传送至SVM进行分类,得到分类结果。
所述EMGAN判别器的构建方法为:设计多层卷积,不同的卷积层设置不同的卷积核,前几个卷积层的卷积核步长较大,中间几个卷积层的一些卷积核不改变中间特征图的大小,在一些卷积层之前增加dropout操作,即将上一层的激活输出进行随机置零。
所述EMGAN判别器适用于多分类的判别且输出有K+1类,其中,K是图像类别的数目;在EMGAN判别器训练时,EMGAN判别器的输入包括有标签真实图像、无标签真实图像和生成图像这三类图像,在EMGAN判别器预测过程中,有标签真实图像按照标签类别预测至前K类中的对应类别,生成图像被预测为第K+1类,无标签真实图像被预测至前K类且以较大概率被预测于前K类中确定的某一类。
所述EMGAN生成器的构建方法为:EMGAN生成器包括伪图像生成网络和信息熵最大化网络,伪图像生成网络负责生成遥感图像,伪图像生成网络将输入噪声向量经映射及变形成为张量,经过多层转置卷积后生成与训练图像相似的遥感图像即生成图像;信息熵最大化网络负责估算生成图像的信息熵,信息熵最大化网络的结构与伪图像生成网络的结构相对称,信息熵最大化网络的输入为伪图像生成网络输出的生成图像,生成图像经多层卷积后成为一个张量,经过变形成为向量,然后经过全连接层,得到一个向量,将向量分割为两个大小相等的子向量作为输出;所述伪图像生成网络和信息熵最大化网络中的每个卷积层后都跟有批量正则化和激活操作,激活操作的激活函数为激活函数ReLU。
所述EMGAN判别器的损失函数的设计方法为:
根据训练图像的有无标签,EMGAN判别器的损失函数LD可分为监督部分Lsupervised和无监督部分Lunsupervised,即LD=Lsupervised+Lunsupervised
监督部分Lsupervised的训练样本为有标签样本,使用交叉熵作为损失函数:
Figure BDA0002225119300000031
其中,L代表有标签样本集合,xl和y分别代表集合L中的任意一幅训练图像和对应的标签,pD(y|xl,y≤K)代表训练图像xl在EMGAN判别器的前K类中标签对应的类别上的预测输出,E(·)代表数学期望运算;
无监督部分Lunsupervised的训练样本包括无标签真实图像和生成图像,要求EMGAN判别器尽可能将无标签真实图像预测至前K类,并且是前K类中确定的某一类,要求将生成图像尽可能预测至第K+1类:
Figure BDA0002225119300000032
其中,U和G分别代表无标签真实图像集合和生成图像集合,xu代表无标签真实图像集合U中的任意一幅训练图像,xg代表生成图像集G中的任意一幅训练图像,yu代表xu的类别,pD(yu≤K|xu)代表训练图像xu在EMGAN判别器的前K类中的任意类别上的预测输出,pD(k|xu)代表训练图像xu在EMGAN判别器的第k类上的预测输出,k∈[1,K],
Figure BDA0002225119300000033
为条件熵,通过使其最大化让EMGAN判别器尽可能将无标签真实图像预测至前K类中确定的某一类,pD(K+1|xg)代表训练图像xg在EMGAN判别器的第K+1类上的预测输出;
综上,EMGAN判别器的损失函数为:
Figure BDA0002225119300000034
所述EMGAN生成器的损失函数的设计方法为:
EMGAN生成器的损失函数LG表示为:LG=LFM+LEM
特征匹配损失函数LFM采用特征匹配技术,即分别取真实图像和生成图像在EMGAN判别器的某一层的特征,训练中使二者的差值不断变小,特征匹配损失函数为:
Figure BDA0002225119300000041
其中,x代表真实图像、包含xl和xu两类,z代表生成器的输入噪声,x~P(x)和z~P(z)分别表示真实图像分布和噪声分布的采样,显然,G(z,θG)表示由输入噪声z生成的“伪”图像,f(x)与f(G(z,θG))分别表示真实图像和生成图像在EMGAN判别器某一层的输出特征;
生成图像信息熵损失函数LEM用来计算生成图像的信息熵,即:
LEM=-plog(p),
其中,p是生成图像特征的概率密度分布,概率密度分布为高斯分布,即:
Figure BDA0002225119300000042
其中,σ和μ分别是高斯分布的标准差和均值,由信息熵最大化网络输出两个大小相等的子向量分别作为标准差σ和均值μ;
综上,EMGAN生成器的损失函数为:
Figure BDA0002225119300000043
Figure BDA0002225119300000044
所述EMGAN判别器和EMGAN生成器双方交替训练的方法为:在训练时,EMGAN生成器与EMGAN判别器双方交替训练;在EMGAN判别器训练时,EMGAN生成器参数被固定不变,最大化EMGAN判别器的损失函数值进行参数更新,EMGAN生成器训练时,EMGAN判别器参数被固定不变,最小化EMGAN生成器的损失函数值进行参数更新;直至EMGAN模型训练完成。
所述步骤三中采用增加全连接层的方式对VGGNet-16网络进行微调,即在1000类的输出之后增加一层从1000到微调数据集的类别数目的全连接层,实现微调数据集类别数目的输出,训练样本使用训练过EMGAN模型的有标签图像。
所述步骤五实现的方法为:
步骤5.1:图像预处理:将高分辨率遥感图像重置为适合于EMGAN判别器和VGGNet-16模型输入的尺寸;
步骤5.2:特征提取:将测试图像输入完成训练的EMGAN判别器和VGGNet-16模型,得到各自的一维全连接层特征;
步骤5.3:全连接层特征融合及分类:提取的EMGAN判别器特征为fdis,提取的VGGNet-16特征为fvgg16,融合得到图像特征F,即:
Figure BDA0002225119300000051
其中,
Figure BDA0002225119300000052
表示将两个特征拼接在一起;
最后将图像特征F输送给SVM进行分类,得到分类结果。
与现有技术相比,本发明的有益效果:从三个方面提升了分类精度,分别是:(1)充分使用了大量的无标签样本,能够使生成图像质量更好,从而促进了判别器的能力;(2)在EMGAN生成器设计了EMN,增大了生成图像的多样性,从而促进了判别器的能力;(3)使用了微调过的VGGNet-16网络,辅助基于判别器提取的特征进行分类。通过实验可知,本发明在训练样本较少的情况下,能够有效提升高分辨率遥感图像场景分类的精度,对识别土地利用与覆盖有重要意义。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程示意图。
图2为本发明的EMGAN架构的结构示意图,其中,上半部分为生成器,包含有FGN和EMN,下半部分为判别器。
图3为本发明的EMGAN判别器架构的结构示意图。
图4为本发明的EMGAN生成器架构的结构示意图,其中,(a)是FGN,(b)是EMN。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种基于生成式对抗网络的半监督高分遥感图像场景分类方法,其步骤如下:
步骤一:构建EMGAN模型:将生成式对抗网络的判别器由二分类变为多分类获得EMGAN判别器,在生成式对抗网络的生成器中添加一个信息熵最大化网络获得EMGAN生成器,利用EMGAN判别器和EMGAN生成器构建EMGAN模型。
本发明构建了一种基于生成式对抗网络的半监督高分遥感图像场景分类模型。将传统生成式对抗网络(Generative Adversarial Nets,GAN)的判别器由二分类变为多分类。在传统GAN的生成器中添加了一个信息熵最大化网络(Entropy Maximized Nets,EMN)来增加生成图像的多样性,通过增强生成器的生成能力达到提升判别器判别能力的目的(GAN的对抗博弈思想),使判别器为后续的分类任务提供具有判别力的特征。EMGAN模型包含有EMGAN判别器和EMGAN生成器,如图2所示。
EMGAN判别器的构建:为了能够提升判别器的判别能力,设计多层卷积以增加网络的深度。不同的卷积层设置不同的卷积核,前几层步长较大的卷积核快速将较大的输入图像卷至较小的特征图状态,中间层的一些卷积核并未改变中间特征图的大小,能够对较深层的图像特征进行多次提取,使其具有较强判别能力。同时,在一些卷积层之前增加dropout操作,即将上一层的激活输出进行随机置零,有效地防止由于网络过深而产生的过拟合问题。此外,设计适用于多分类任务的输出层。相比于传统判别器的“真假”二输出,适用于多分类的判别器的输出有K+1类,其中,K是图像类别的数目。在EMGAN判别器训练时,判别器的输入有三类图像,分别是:有标签真实图像、无标签真实图像和生成图像,生成图像是生成器生成的“伪”图像。在判别器预测过程中,真实图像应该被预测至前K类,生成图像被预测为第K+1类,其中,有标签图像应该按照标签类别预测至前K类中的对应类别,无标签真实图像被预测至且均匀分布在前K类且以较大概率被预测于前K类中确定的某一类。实际分类时不可能输入有标签图像和生成图像。
本发明构建的EMGAN判别器如图3所示,输入大小为256*256*3的遥感图像,包含三类图像:真实有标签图像、真实无标签图像和生成图像,经十层卷积及激活函数后得到大小为6*6*384的张量,其中每个卷积层后都跟有批量正则化和激活函数ReLU,此张量经过平均池化(average pooling)变成一个384维的向量,经全连接层变为K+1类的输出。卷积神经网络中任意一层都有输入和输出,384维的向量输入给全连接层,输出K+1类,也是K+1维的向量。网络中每层的卷积核如表1所示,前几层步长较大的卷积核能够快速将较大的输入图像卷至较小的特征图状态,而为了增加网络深度,其中的一些卷积层并未改变中间特征图的大小,如4、5、7、9和10层,但是这些卷积层能够对较深层的图像特征进行多次提取,使其具有较强判别能力。但是较深的网络容易出现过拟合问题(网络模型学习能力过于强大,以至于将训练样本某个特殊的特征当做所有训练样本的一般特征,具有较低的泛化能力),因此,分别在第4、7、9层卷积之前增加了值为0.5的Dropout操作,即将上一层的激活输出进行随机50%的置零,能够有效地防止过拟合。
表1判别器的卷积核大小
Figure BDA0002225119300000071
EMGAN生成器的构建:EMGAN生成器包括两个网络,分别是伪图像生成网络(fakeimage generating net,FGN)和信息熵最大化网络(entropy maximizing net,EMN),FGN负责生成遥感图像,EMN负责估算生成图像的信息熵,以增强生成图像的多样性。FGN输入噪声向量,经映射及变形成为张量,此张量经过多层转置卷积后生成遥感图像即生成图像,其中每个卷积层后都跟有批量正则化和激活操作。EMN的结构被设计成与FGN的结构相对称,输入由FGN输出的生成图像,经多层卷积后成为一个张量,此张量经过变形成为向量,然后经过全连接层,得到一个向量,将其分割为两个大小相等的子向量作为EMN的输出,其中每个卷积层后均跟有批量正则化和激活操作。
生成器负责生成与训练图像相似的伪图像,由于训练图像是遥感图像,因此生成的也是遥感图像。生成的遥感图像就是生成图像,也是假图像和伪图像。变形的具体操作是重新调整矩阵的行数、列数、维数。
本发明构建的EMGAN生成器如图4所示,包含有FGN和EMN。其中FGN,如图4(a)所示,输入100维的噪声向量,经映射及变形成为大小为4*4*256的张量,此张量经过六层转置卷积后生成一个大小为256*256*3的遥感图像,转置卷积操作为(5,2,2,1),其中每个卷积层后都跟有批量正则化和激活函数Relu。受编码器—解码器模型结构思想的启发,EMN的结构被设计与FGN的结构相对称,如图4(b)所示,EMN的输入由FGN生成大小为256*256*3的遥感图像,经六层卷积后成为一个大小为4*4*256的张量,卷积操作为(5,2,2),此张量经过变形成为8192维向量,然后经过全连接层,得到一个200维的向量,将其分割为两个100维向量作为EMN的输出,其中每个卷积层后均跟有批量正则化和激活函数ReLU,全连接层后也跟有激活函数ReLU。
步骤二:训练EMGAN模型:根据训练图像有无标签,将EMGAN判别器的损失函数分为监督部分和无监督部分;将EMGAN生成器的损失函数分成特征匹配损失函数和生成图像信息熵损失函数;EMGAN判别器和EMGAN生成器双方交替训练。
模型包含训练阶段和测试阶段,训练阶段的输入图像为训练图像,训练图像包含有两部分,一部分有标签图像进行监督训练,一部分无标签图像进行无监督训练。测试阶段的输入图像为测试图像,测试图像均为无标签图像。算法所需的训练图像包含有有标签和无标签,即所准备的训练图像就包含有这两部分。
特征匹配损失函数用于使生成的“伪”图像更接近真实图像。生成图像信息熵损失函数用于增加生成图像的多样性。EMGAN模型在训练时,EMGAN生成器与EMGAN判别器双方交替训练。在EMGAN判别器训练时,EMGAN生成器参数被固定不变,采用EMGAN判别器的损失函数进行参数更新,即最大化EMGAN判别器的损失函数值进行参数更新,EMGAN生成器训练时,EMGAN判别器参数被固定不变,采用EMGAN生成器的损失函数进行参数更新,即最小化EMGAN生成器的损失函数值进行参数更新;直至训练完成。在EMGAN生成器与EMGAN判别器的迭代训练过程中,二者可设置不同的训练次数。参数的更新包括模型的所有参数,每一层的权重和偏置。没有预训练的模型在训练最开始的时候,参数都是随机初始化的,然后训练一次是根据损失值,使用优化算法进行所有的参数更新。现在有的研究表明生成器训练的次数比判别器训练的次数多一些会好,比如生成器2次,判别器1次。
EMGAN判别器的损失函数的设计方法为:
根据训练图像的有无标签,EMGAN判别器的损失函数LD可分为两部分,分别是监督部分Lsupervised和无监督部分Lunsupervised,即
LD=Lsupervised+Lunsupervised
监督部分Lsupervised与普通监督训练的情况一样,训练样本为有标签样本,使用交叉熵作为损失函数,即:
Figure BDA0002225119300000081
其中,L代表有标签样本集合,xl和y分别代表有标签样本集合L中的任意一幅训练图像和对应的标签,pD(y|xl,y≤K)代表训练图像xl在EMGAN判别器的前K类中标签对应的类别上的预测输出,E(·)代表数学期望运算。利用优化算法Adam对模型参数不断优化使损失值增大,EMGAN判别器能以较大概率将输入有标签图像预测至标签对应类别。
无监督部分Lunsupervised的训练样本包括无标签真实图像和生成图像,要求EMGAN判别器尽可能将无标签真实图像预测至前K类,并且是前K类中确定的某一类,要求将生成图像尽可能预测至第K+1类:
Figure BDA0002225119300000091
其中,U和G分别代表无标签真实图像集合和生成图像集合,xu代表无标签真实图像集合U中的任意一幅训练图像,xg代表生成图像集合G中的任意一幅训练图像,yu代表训练图像xu的类别,pD(yu≤K|xu)代表训练图像xu在EMGAN判别器的前K类中的任意类别上的预测输出,pD(k|xu)代表训练图像xu在EMGAN判别器的第k类上的预测输出,k∈[1,K],
Figure BDA0002225119300000092
为条件熵,通过使其最大化让EMGAN判别器尽可能将无标签真实图像预测至前K类中确定的某一类,pD(K+1|xg)代表训练图像xg在EMGAN判别器的第K+1类上的预测输出。
此外,针对无标签真实图像,无标签真实图像可以使用本领域其他的数据集,对无监督部分Lunsupervised设计增加了一种条件熵(conditional entropy),保证判别器对于“真伪”图像具有较强的判别能力,使无标签真实图像以较大概率被预测于前K类中确定的某一类。在本发明中,样本和图像是等价的。真实图像是与生成图像相对的,真实图像是所准备的图像,包括训练图像和测试图像,训练图像包含有标签和无标签图像;生成图像是由生成器生成的,也称为假图像或者伪图像。
综上,判别器的损失函数为:
Figure BDA0002225119300000093
模型训练时,训练图像通常以batch为单位逐个输入,然后累计损失值,并求均值。
EMGAN生成器的损失函数的设计方法为:
EMGAN生成器的损失函数中包含有两部分,一部分是LFM设计用于使生成的“伪”图像更接近真实图像,此部分采用特征匹配损失;另一部分是LEM用于增加生成图像的多样性。因此,EMGAN生成器的损失函数LG可表示为:
LG=LFM+LEM
特征匹配损失函数LFM采用特征匹配技术,即分别取真实图像和生成图像在判别器的某一层的特征,训练中使二者的差值不断变小,直至理想状态下二者的特征毫无差别。因此,特征匹配损失函数:
Figure BDA0002225119300000101
其中,x代表真实图像,包含有标签样本集合中的训练图像xl和无标签真实图像集合中的训练图像xu两类,z代表生成器的输入噪声,x~P(x)和z~P(z)分别表示真实图像分布和噪声分布的采样,显然,G(z,θG)表示由噪声z生成的“伪”图像,f(x)与f(G(z,θG))分别表示真实图像和生成图像在EMGAN判别器某一层的输出特征。训练过程中,最小化特征匹配损失函数LFM能够使生成图像与真实图像在特征层面相似,同时特征匹配技术使模型在训练过程中也更加稳定。
生成图像信息熵损失函数LEM用来计算生成图像的信息熵,因此,
LEM=-plog(p),
其中,p是生成图像特征的概率密度分布,概率密度分布为高斯分布,即:
Figure BDA0002225119300000102
其中,σ和μ分别是高斯分布的标准差和均值,由EMN的输出计算出两个大小相等的子向量标准差σ和均值μ。模型输出两个100维的向量,即分别是标准差σ和均值μ。训练过程中,最大化信息熵损失,增加生成图像的多样性。
综上,EMGAN生成器的损失函数为:
Figure BDA0002225119300000103
步骤三:微调VGGNet-16模型:采用在自然图像数据集ImageNet上预训练过的VGGNet-16模型,即引入了大量的自然图像知识。再将VGGNet-16模型增加一个全连接层,然后使用有标签的遥感图像对其进行微调。
微调后可以提取特征用于最终分类。将图像输入给模型,将某一层的输出提取出来,即是提取特征。采用增加全连接层的方式对VGGNet-16网络进行微调,即在1000类的输出之后增加一层从1000到微调数据集的类别数目的全连接层,实现微调数据集类别数目的输出,训练样本使用训练过EMGAN模型的有标签图像。
VGGNet-16网络是深度学习领域内公开的特定模型,ImageNet是自然图像领域公开的数据集,在ImageNet上预训练过的模型最后分类层的输出就是1000类。因此,使用在ImageNet上预训练过的VGGNet-16网络,相当于引入了大量自然图像的知识。预训练过的模型在各个深度学习平台上均可下载。微调数据集就是训练数据集,是遥感领域内公开的数据集,不同数据集的类别数目不一样。
步骤四:训练SVM模型:将有标签的真实图像分别输入训练后的EMGAN模型和VGGNet-16模型,提取EMGAN模型和VGGNet-16模型的全连接层特征并进行融合成为训练图像的最终表示,将图像的最终表示传送至SVM进行训练。
使用有标签图像对SVM进行训练,使SVM学习得到合适的参数,当输入测试图像特征时,SVM可以输出测试图像的类别。
步骤五:融合EMGAN模型和VGGNet-16模型的特征并进行场景分类:将测试图像分别输入训练后的EMGAN模型和VGGNet-16模型,提取EMGAN模型和VGGNet-16模型的全连接层特征并进行融合成为测试图像的最终表示,将测试图像的最终表示传送至SVM进行分类,得到分类结果。
在EMGAN模型和VGGNet-16模型完成训练后,分别提取两个模型的全连接层特征,然后进行融合成为测试图像的最终表示,最后送给SVM进行分类。
步骤5.1:图像预处理
高分辨率遥感图像需要被重置为适合于EMGAN判别器和VGGNet-16模型输入的尺寸。本发明将遥感图像图像分别重置为256*256*3和224*224*3适合于EMGAN判别器和VGGNet-16模型。
步骤5.2:特征提取
将测试图像输入完成训练的判别器和VGGNet-16模型,分别进行特征提取,可选择提取一维全连接层特征,或者二维卷积特征。二维卷积特征需要编码成一维特征。本发明提取EMGAN判别器的全连接层特征,得到384维的特征向量,提取VGGNet-16模型的第一个全连接层特征,得到4096维的特征向量。
步骤5.3:全连接层特征融合及分类:
提取的EMGAN判别器特征为fdis,提取的VGGNet-16特征为fvgg16,将二者融合得到图像特征F,即:
Figure BDA0002225119300000111
其中,
Figure BDA0002225119300000112
表示将特征拼接在一起。最后将图像特征F输送给SVM进行分类,得到分类结果。
将EMGAN判别器的384维特征和VGGNet-16模型的4096维特征拼接在一起,得到4480维特征,最后将4480维图像特征输送给SVM进行训练并分类,得到分类结果。
截止目前,已有许多公开的数据集用于评估高分辨率遥感图像场景分类的性能。本发明采用UC Merced[Yang,Y.and S.Newsam.Bag-of-visual-words and spatialextensions for land-use classification.in Sigspatial International Conferenceon Advances in Geographic Information Systems.2010.New York,NY,USA:ACM.]、AID[Xia,G.S.,et al.,AID:A Benchmark Data Set for Performance Evaluation ofAerial Scene Classification.IEEE Transactions on Geoscience&Remote Sensing,2017.55(7):p.3965-3981.]和NWPU-RESISC45[Cheng,G.,J.Han,and X.Lu,RemoteSensing Image Scene Classification:Benchmark and State of the Art.IEEEGeoscience and Remote Sensing,2017.105(10):p.1865-1883.]数据集进行实验对比。在每次实验开始时,数据集中的每一类图像都是随机排序的,然后在一个完整的实验过程中按照这个顺序固定下来。在基于半监督的DEGAN的训练中,当使用NWPU-RESISC45数据集进行训练时,数据集的前10%和20%带有标签的图像被用于有监督的训练,在UC Merced、AID数据集中选取与NWPU-RESISC45数据集公共类别的数据,与NWPU-RESISC45数据集的前80%图像作为无标签图像训练集,NWPU-RESISC45数据集最后20%的图像作为测试图像集。在接下来的过程中,VGGNet-16模型和SVM的训练与EMGAN半监督训练过程中使用的标签图像是一致的,这就保证了整个算法中使用较少的标记样本。每个数据集的每种训练率下的实验重复10次。
对于EMGAN的训练,batch大小设置为60,判别器和生成器的学习率分别是0.0006和0.0003。对于VGGNet-16的训练,实验设置与文献[Cheng,G.,J.Han,and X.Lu,RemoteSensing Image Scene Classification:Benchmark and State of the Art.Proceedingsof the IEEE,2017.105(10):p.1865-1883.
]相同。运行试验的工作站配置为Intel(R)XeonE5-2650 v3@2.30Hz×20CPU,GPU为NVIDIA GTX TITAN-XP,内存128G。选取Pytorch为深度学习平台,Adam为优化器。实验结果如表2所示,由表2可知:
1)本发明可以获得较高的高分遥感图像场景分类精度,在训练率为20%的情况下,可以得到92.51%的分类精度。
2)本发明通过十次实验得到的标准差较小,表明该模型具有更强的鲁棒性。由于训练集的无标记数据不局限于其自身的数据集,而是加上其他数据集的训练样本,这使得模型更加稳定。
表2 NWPU-RESISC45数据集上不同方法间的总体精度与标准差(%)的对比
Figure BDA0002225119300000121
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于生成式对抗网络的半监督高分遥感图像场景分类方法,其特征在于,其步骤如下:
步骤一:构建EMGAN模型:将生成式对抗网络的判别器由二分类变为多分类获得EMGAN判别器,在生成式对抗网络的生成器中添加一个信息熵最大化网络获得EMGAN生成器,利用EMGAN判别器和EMGAN生成器构建EMGAN模型;
步骤二:训练EMGAN模型:根据训练图像有无标签,将EMGAN判别器的损失函数分为监督部分和无监督部分;将EMGAN生成器的损失函数分为特征匹配损失函数和生成图像信息熵损失函数;EMGAN判别器和EMGAN生成器双方交替训练;
步骤三:微调VGGNet-16模型:采用在自然图像数据集上预训练过的VGGNet-16模型,即引入了大量的自然图像知识,再将VGGNet-16模型增加一个全连接层,然后使用有标签的遥感图像对其进行微调;
步骤四:训练SVM模型:将有标签的训练图像分别输入训练后的EMGAN模型和VGGNet-16模型,提取EMGAN模型和VGGNet-16模型的全连接层特征并进行融合成为训练图像的最终表示,将训练图像的最终表示传送至SVM进行训练;
步骤五:融合EMGAN模型和VGGNet-16模型的特征并进行场景分类:将测试图像分别输入训练后的EMGAN模型和VGGNet-16模型,提取EMGAN模型和VGGNet-16模型的全连接层特征并进行融合成为测试图像的最终表示,将测试图像的最终表示传送至SVM进行分类,得到分类结果;
所述EMGAN生成器的构建方法为:EMGAN生成器包括伪图像生成网络和信息熵最大化网络,伪图像生成网络负责生成遥感图像,伪图像生成网络将输入噪声向量经映射及变形成为张量,经过多层转置卷积后生成与训练图像相似的遥感图像即生成图像;信息熵最大化网络负责估算生成图像的信息熵,信息熵最大化网络的结构与伪图像生成网络的结构相对称,信息熵最大化网络的输入为伪图像生成网络输出的生成图像,生成图像经多层卷积后成为一个张量,经过变形成为向量,然后经过全连接层,得到一个向量,将向量分割为两个大小相等的子向量作为输出;所述伪图像生成网络和信息熵最大化网络中的每个卷积层后都跟有批量正则化和激活操作,激活操作的激活函数为激活函数ReLU。
2.根据权利要求1所述的基于生成式对抗网络的半监督高分遥感图像场景分类方法,其特征在于,所述EMGAN判别器的构建方法为:设计多层卷积,不同的卷积层设置不同的卷积核,前几个卷积层的卷积核步长较大,中间几个卷积层的部分卷积核不改变中间特征图的大小,在部分卷积层之前增加dropout操作,即将上一层的激活输出进行随机置零。
3.根据权利要求2所述的基于生成式对抗网络的半监督高分遥感图像场景分类方法,其特征在于,所述EMGAN判别器适用于多分类的判别且输出有K+1类,其中,K是图像类别的数目;在EMGAN判别器训练时,EMGAN判别器的输入包括有标签真实图像、无标签真实图像和生成图像这三类图像,在EMGAN判别器预测过程中,有标签真实图像按照标签类别预测至前K类中的对应类别,生成图像被预测为第K+1类,无标签真实图像被预测至前K类且以较大概率被预测于前K类中确定的某一类。
4.根据权利要求3所述的基于生成式对抗网络的半监督高分遥感图像场景分类方法,其特征在于,所述EMGAN判别器的损失函数的设计方法为:
根据训练图像的有无标签,EMGAN判别器的损失函数LD可分为监督部分Lsupervised和无监督部分Lunsupervised,即LD=Lsupervised+Lunsupervised
监督部分Lsupervised的训练样本为有标签样本,使用交叉熵作为损失函数:
Figure FDA0002598161420000021
其中,L代表有标签样本集合,xl和y分别代表有标签样本集合L中的任意一幅训练图像和对应的标签,pD(y|xl,y≤K)代表训练图像xl在EMGAN判别器的前K类中标签对应的类别上的预测输出,E(·)代表数学期望运算;
无监督部分Lunsupervised的训练样本包括无标签真实图像和生成图像,要求EMGAN判别器尽可能将无标签真实图像预测至前K类,并且是前K类中确定的某一类;将生成图像尽可能预测至第K+1类:
Figure FDA0002598161420000022
其中,U和G分别代表无标签真实图像集合和生成图像集合,xu代表无标签真实图像集合U中的任意一幅训练图像,xg代表生成图像集G中的任意一幅训练图像,yu代表训练图像xu的类别,pD(yu≤K|xu)代表训练图像xu在EMGAN判别器的前K类中的任意类别上的预测输出,pD(k|xu)代表训练图像xu在EMGAN判别器的第k类上的预测输出,k∈[1,K],
Figure FDA0002598161420000023
为条件熵,pD(K+1|xg)代表训练图像xg在EMGAN判别器的第K+1类上的预测输出;
综上,EMGAN判别器的损失函数为:
Figure FDA0002598161420000031
5.根据权利要求4所述的基于生成式对抗网络的半监督高分遥感图像场景分类方法,其特征在于,所述EMGAN生成器的损失函数的设计方法为:
EMGAN生成器的损失函数LG表示为:LG=LFM+LEM
特征匹配损失函数LFM采用特征匹配技术,即分别取真实图像和生成图像在EMGAN判别器的某一层的特征,训练中使二者的差值不断变小,特征匹配损失函数为:
Figure FDA0002598161420000032
其中,x代表真实图像、包含有标签真实图像集合中的训练图像xl和无标签真实图像集合中的训练图像xu两类,z代表生成器的输入噪声,x~P(x)和z~P(z)分别表示真实图像分布和噪声分布的采样,显然,G(z,θG)表示由输入噪声z生成的“伪”图像,f(x)与f(G(z,θG))分别表示真实图像和生成图像在EMGAN判别器某一层的输出特征;
生成图像信息熵损失函数LEM用来计算生成图像的信息熵,即:
LEM=-p log(p),
其中,p是生成图像特征的概率密度分布,概率密度分布为高斯分布,即:
Figure FDA0002598161420000033
其中,σ和μ分别是高斯分布的标准差和均值,由信息熵最大化网络输出两个大小相等的子向量分别作为标准差σ和均值μ;
综上,EMGAN生成器的损失函数为:
Figure FDA0002598161420000034
Figure FDA0002598161420000035
6.根据权利要求4或5所述的基于生成式对抗网络的半监督高分遥感图像场景分类方法,其特征在于,所述EMGAN判别器和EMGAN生成器双方交替训练的方法为:在训练时,EMGAN生成器与EMGAN判别器双方交替训练;在EMGAN判别器训练时,EMGAN生成器参数被固定不变,最大化EMGAN判别器的损失函数值进行参数更新,EMGAN生成器训练时,EMGAN判别器参数被固定不变,最小化EMGAN生成器的损失函数值进行参数更新;直至EMGAN模型训练完成。
7.根据权利要求6所述的基于生成式对抗网络的半监督高分遥感图像场景分类方法,其特征在于,所述步骤三中采用增加全连接层的方式对VGGNet-16网络进行微调,即在1000类的输出之后增加一层从1000到微调数据集的类别数目的全连接层,实现微调数据集类别数目的输出,训练样本使用训练过EMGAN模型的有标签图像。
8.根据权利要求1或7所述的基于生成式对抗网络的半监督高分遥感图像场景分类方法,其特征在于,所述步骤五实现的方法为:
步骤5.1:图像预处理:将高分辨率遥感图像重置为适合于EMGAN判别器和VGGNet-16模型输入的尺寸;
步骤5.2:特征提取:将测试图像输入完成训练的EMGAN判别器和VGGNet-16模型,得到各自的一维全连接层特征;
步骤5.3:全连接层特征融合及分类:提取的EMGAN判别器特征为fdis,提取的VGGNet-16特征为fvgg16,融合得到图像特征F,即:
Figure FDA0002598161420000041
其中,
Figure FDA0002598161420000042
表示将两个特征拼接在一起;
最后将图像特征F输送给SVM进行分类,得到分类结果。
CN201910948951.4A 2019-10-08 2019-10-08 基于生成式对抗网络的半监督高分遥感图像场景分类方法 Active CN110689086B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910948951.4A CN110689086B (zh) 2019-10-08 2019-10-08 基于生成式对抗网络的半监督高分遥感图像场景分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910948951.4A CN110689086B (zh) 2019-10-08 2019-10-08 基于生成式对抗网络的半监督高分遥感图像场景分类方法

Publications (2)

Publication Number Publication Date
CN110689086A CN110689086A (zh) 2020-01-14
CN110689086B true CN110689086B (zh) 2020-09-25

Family

ID=69111580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910948951.4A Active CN110689086B (zh) 2019-10-08 2019-10-08 基于生成式对抗网络的半监督高分遥感图像场景分类方法

Country Status (1)

Country Link
CN (1) CN110689086B (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139928B (zh) * 2020-01-16 2024-02-23 中移(上海)信息通信科技有限公司 肺结节检测模型的训练方法和肺结节检测方法
CN111428758A (zh) * 2020-03-06 2020-07-17 重庆邮电大学 一种改进的基于无监督表征学习的遥感图像场景分类方法
CN111598174B (zh) * 2020-05-19 2020-12-29 中国科学院空天信息创新研究院 基于半监督对抗学习的模型训练方法及图像变化分析方法
CN111709318B (zh) * 2020-05-28 2023-03-24 西安理工大学 一种基于生成对抗网络的高分辨率遥感图像分类方法
CN111522958A (zh) * 2020-05-28 2020-08-11 泰康保险集团股份有限公司 文本分类方法和装置
CN111767800B (zh) * 2020-06-02 2023-09-05 华南师范大学 遥感影像场景分类得分融合方法、系统、设备及存储介质
CN111832650B (zh) * 2020-07-14 2023-08-01 西安电子科技大学 基于生成对抗网络局部聚合编码半监督的图像分类方法
CN112132181B (zh) * 2020-08-20 2023-05-05 黑龙江大学 一种基于生成式对抗网络的图像真伪识别方法
CN111931865B (zh) * 2020-09-17 2021-01-26 平安科技(深圳)有限公司 图像分类模型的训练方法、装置、计算机设备及存储介质
CN112232395B (zh) * 2020-10-08 2023-10-27 西北工业大学 一种基于联合训练生成对抗网络的半监督图像分类方法
CN112257787B (zh) * 2020-10-23 2023-01-17 天津大学 基于生成式双重条件对抗网络结构的图像半监督分类方法
CN112270351A (zh) * 2020-10-24 2021-01-26 国网江苏省电力有限公司信息通信分公司 基于辅助分类生成对抗网络的半监督加密流量识别方法
CN112418305A (zh) * 2020-11-19 2021-02-26 北京紫光展锐通信技术有限公司 一种训练样本的生成方法、装置、计算机设备和存储介质
CN112396566A (zh) * 2020-11-19 2021-02-23 中国石油大学(华东) 基于生成对抗网络的海洋涡旋图像自动增强系统、计算机设备、存储介质
CN112529154A (zh) * 2020-12-07 2021-03-19 北京百度网讯科技有限公司 图像生成模型训练方法和装置、图像生成方法和装置
CN112949384B (zh) * 2021-01-23 2024-03-08 西北工业大学 一种基于对抗性特征提取的遥感图像场景分类方法
CN113160156A (zh) * 2021-04-12 2021-07-23 佛山市顺德区美的洗涤电器制造有限公司 用于处理图像的方法、处理器、家用电器及存储介质
CN113221948B (zh) * 2021-04-13 2022-08-05 复旦大学 基于对抗生成网络和弱监督学习的数字切片图像分类方法
CN113240655B (zh) * 2021-05-21 2023-04-07 深圳大学 一种自动检测眼底图像类型的方法、存储介质及装置
CN113269256A (zh) * 2021-05-26 2021-08-17 广州密码营地科技有限公司 一种MiSrc-GAN模型的构建方法及应用
CN113537031B (zh) * 2021-07-12 2023-04-07 电子科技大学 基于多鉴别器条件生成对抗网络的雷达图像目标识别方法
CN113887504B (zh) * 2021-10-22 2023-03-24 大连理工大学 强泛化性的遥感图像目标识别方法
CN114119803B (zh) * 2022-01-27 2022-05-10 浙江大学 一种基于因果图谱的场景图像生成方法
CN114792349B (zh) * 2022-06-27 2022-09-06 中国人民解放军国防科技大学 基于半监督生成对抗网络的遥感影像转换地图迁移方法
CN114863225B (zh) * 2022-07-06 2022-10-04 腾讯科技(深圳)有限公司 图像处理模型训练方法、生成方法、装置、设备及介质
CN115424119B (zh) * 2022-11-04 2023-03-24 之江实验室 基于语义分形的可解释gan的图像生成训练方法及装置
CN116030500B (zh) * 2023-02-16 2023-07-18 深圳华付技术股份有限公司 一种人员着装规范识别方法及系统
CN115984635B (zh) * 2023-03-21 2023-07-07 自然资源部第一海洋研究所 多源遥感数据分类模型训练方法、分类方法和电子设备
CN116385813B (zh) * 2023-06-07 2023-08-29 南京隼眼电子科技有限公司 基于无监督对比学习的isar图像空间目标分类方法、装置及存储介质
CN117612020A (zh) * 2024-01-24 2024-02-27 西安宇速防务集团有限公司 基于sgan对抗神经网络遥感影像要素变化的检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564115A (zh) * 2018-03-30 2018-09-21 西安电子科技大学 基于全卷积gan的半监督极化sar地物分类方法
CN110097103A (zh) * 2019-04-22 2019-08-06 西安电子科技大学 基于生成对抗网络的半监督图像分类方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194872B (zh) * 2017-05-02 2019-08-20 武汉大学 基于内容感知深度学习网络的遥感图像超分辨率重建方法
CN108764005B (zh) * 2018-01-31 2019-06-18 华侨大学 一种高光谱遥感图像地物空间波谱特征提取方法及系统
US11019355B2 (en) * 2018-04-03 2021-05-25 Electronics And Telecommunications Research Institute Inter-prediction method and apparatus using reference frame generated based on deep learning
CN109508740B (zh) * 2018-11-09 2019-08-13 郑州轻工业学院 基于高斯混合噪声生成式对抗网络的物体硬度识别方法
CN110110745A (zh) * 2019-03-29 2019-08-09 上海海事大学 基于生成对抗网络的半监督x光图像自动标注

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564115A (zh) * 2018-03-30 2018-09-21 西安电子科技大学 基于全卷积gan的半监督极化sar地物分类方法
CN110097103A (zh) * 2019-04-22 2019-08-06 西安电子科技大学 基于生成对抗网络的半监督图像分类方法

Also Published As

Publication number Publication date
CN110689086A (zh) 2020-01-14

Similar Documents

Publication Publication Date Title
CN110689086B (zh) 基于生成式对抗网络的半监督高分遥感图像场景分类方法
Jiao et al. A survey on the new generation of deep learning in image processing
Dizaji et al. Unsupervised deep generative adversarial hashing network
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
Othman et al. Domain adaptation network for cross-scene classification
CN107609601B (zh) 一种基于多层卷积神经网络的舰船目标识别方法
Kuo et al. Green learning: Introduction, examples and outlook
CN110914836A (zh) 在跨联网计算边缘连续运行应用程序的人工智能和深度学习中实现连续的存储器有界学习的系统和方法
CN109977094B (zh) 一种用于结构化数据的半监督学习的方法
CN112307995B (zh) 一种基于特征解耦学习的半监督行人重识别方法
CN112883839B (zh) 基于自适应样本集构造与深度学习的遥感影像解译方法
Liu et al. Learning human pose models from synthesized data for robust RGB-D action recognition
Xi et al. Deep prototypical networks with hybrid residual attention for hyperspectral image classification
Yee et al. DeepScene: Scene classification via convolutional neural network with spatial pyramid pooling
Liu et al. Sparse manifold-regularized neural networks for polarimetric SAR terrain classification
CN113159067A (zh) 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置
CN113569895A (zh) 图像处理模型训练方法、处理方法、装置、设备及介质
Can et al. Evaluating shape representations for Maya glyph classification
Feng et al. Deep image set hashing
Riaz et al. A semi-supervised CNN with fuzzy rough C-mean for image classification
CN115222998A (zh) 一种图像分类方法
Zhong et al. Automatic aurora image classification framework based on deep learning for occurrence distribution analysis: A case study of all‐sky image data sets from the Yellow River Station
Chen et al. High-resolution remote sensing image classification with RmRMR-enhanced bag of visual words
CN115995040A (zh) 一种基于多尺度网络的sar图像小样本目标识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant