CN114764880B - 多成分gan重建的遥感图像场景分类方法 - Google Patents

多成分gan重建的遥感图像场景分类方法 Download PDF

Info

Publication number
CN114764880B
CN114764880B CN202210350836.9A CN202210350836A CN114764880B CN 114764880 B CN114764880 B CN 114764880B CN 202210350836 A CN202210350836 A CN 202210350836A CN 114764880 B CN114764880 B CN 114764880B
Authority
CN
China
Prior art keywords
graph
image
classification
true
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210350836.9A
Other languages
English (en)
Other versions
CN114764880A (zh
Inventor
边小勇
刘卓
邓鹤
杨博
盛玉霞
李波
喻国荣
张晓龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Science and Engineering WUSE
Original Assignee
Wuhan University of Science and Engineering WUSE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Science and Engineering WUSE filed Critical Wuhan University of Science and Engineering WUSE
Priority to CN202210350836.9A priority Critical patent/CN114764880B/zh
Publication of CN114764880A publication Critical patent/CN114764880A/zh
Application granted granted Critical
Publication of CN114764880B publication Critical patent/CN114764880B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了多成分GAN重建的遥感图像场景分类方法,首先将场景数据集按比例随机划分成训练集和测试集;其次对数据集进行预处理,这些经过预处理之后的遥感场景图像数据即为真图;接着以随机初始化的方式获取多个潜在编码输入生成器网络以获得伪图;然后将真图、伪图联合输入到一个特征提取及联合定位模块,参与联合定位获得多个信息性部件;这些信息性部件用作多个潜在编码的更新接着利用全图特征和部件特征分别参与图像级分类和部件级分类,获得最优的分类模型;最后将测试集输入到最优定位网络和最优分类模型,获得最终的预测结果。本发明可以提高多个部件定位准确性和分类效果。

Description

多成分GAN重建的遥感图像场景分类方法
技术领域
本发明涉及遥感图像场景分类技术领域,尤其涉及多成分GAN重建的遥感图像场景分类方法。
背景技术
遥感图像场景分类任务作为遥感图像处理技术的重要分支,在军用和民用领域都具有重要的意义。场景分类旨在通过学习的分类器自动地为每个场景图像预测一个语义类别。然而,受不同时间、季节、区域和成像条件的影响,遥感图像在平移、视点、对象姿态和外观、空间分辨率、光照、背景和遮挡等方面具有丰富的变化,表现出高的类内多样性和低的类间差异。因此,遥感场景分类仍然面临着严峻的挑战。
图像分类方法的性能很大程度上取决于图像的表示。早先大量的手工特征方法被提出并用于图像分类,它们主要基于低级或中级特征,例如颜色、纹理和结构,虽然取得了较好的分类效果,但是这些手工特征方法需要大量的人工参与,并且图像特征与图像的高级语义之间始终存在巨大的差距,需要较为繁琐的参数调整,而且不是端到端的学习过程,限制了这些方法的性能。
最近,深度学习方法在计算机视觉领域发展迅速,深度学习方法越来越多地用于场景图像分类,该类方法可以进行端到端的学习,与传统手工特征和特征编码方法相比,具有更好的表示能力。但是遥感场景图像非常复杂,其中充满很多小对象,同时受卫星传感器姿态、成像距离等因素的影响,对象的空间结构、姿态各异,同一类别的场景也出现了各种空间变化,传统的分类方法只将整个图像看作单个向量,难以充分描述多个图像内容,导致分类时的精度降低。将图像按照不同区域进行划分,每个区域代表一个对象示例,就可以转化为多示例学习。M.Oquab,L.Bottou和I.Laptev等人发表的《对象定位是没有代价的吗?弱监督卷积神经网络》,IEEE计算机视觉和模式识别大会,pp.685-694,2015(《Is objectlocalization for free?-weakly-supervised learning with convolutional neuralnetworks》(IEEE conference on computer vision and pattern recognition,pp.685-694,2015.))中使用弱监督卷积神经网络进行对象定位以及分类,可以准确定位到图像中对象的位置,但是由于其采用最大池化函数,仅能定位到单个对象区域,在含有多个对象的复杂的遥感场景图像上的定位效果很差。J.Han,X.Yao和G.Gong等人发表的《基于部件的细粒度视觉分类卷积神经网络》,IEEE模式分析和机器智能交易,vol,44,pp.579-590,2019(《P-CNN:Part-based convolutional neural networks for fine-grained visualcategorization》(IEEE transactions on pattern analysis and machineintelligence,vol.44,pp.579-590,2019.))中使用压缩和激发模块在特征通道上进行作用,通过增强信息性通道以及抑制干扰性通道来聚类以获取多个区域,虽然可以定位到区域,但该方法只是在具有刚性图像的细粒度数据集上有较好的性能,对于复杂的遥感场景区域定位,值得探索研究。
最近,一些研究人员从GAN图像重建的角度来探索区域重建和定位。这些方法假设不同的噪声分布可以恢复图像中不同的细节,从而对应到原图的不同区域。但是由于潜在噪声是随机生成的,往往生成的图像不够清晰、细节,因此许多研究人员在生成图像之前给潜在编码提供良好的初始化,越好的初始化越能生成图像的特定区域。J.Bao,D.Chen和F.Wen等人发表的《通过非对称训练生成细粒度图像》,国际计算机视觉大会,pp.2745-2754,2017(《CVAE-GAN:fine-grained image generation through asymmetrictraining》(IEEE international conference on computer vision,pp.2745-2754,2017.))中结合变分自动编码机和生成式对抗网络,在图像生成前通过自动编码器编码出原始图像的表示,使潜在编码携带图像信息,能够生成更加细节的图像,但是新增的自动编码机增加了网络开销以及训练难度。J.Gu,Y.Shen和B.Zhou等人发表的《使用先验多编码GAN的图像处理》,IEEE计算机视觉和模式识别大会,pp.3012-3021,2020(《Imageprocessing using multi-code gan prior》(IEEE conference on computer vision andpattern recognition,pp.3012-3021,2020.))中使用预训练的PGGAN模型,将原始图像反转成多个潜在编码,每个潜在编码对应于原图的不同区域,然后利用这些潜在编码进行后续图像处理,如图像去噪和图像恢复等,但多个潜在编码由损失函数更新,而不是以原图定位到的区域作为更新,缺乏对定位以及分类的研究。
由此可知,现有技术中的方法存在定位不够准确导致分类效果不佳的技术问题。
发明内容
本发明提出了一种多成分GAN重建的遥感图像场景分类方法,用于解决或者至少部分解决现有技术中存在的分类效果不佳的技术问题。
为了解决上述技术问题,本发明提供了一种多成分GAN重建的遥感图像场景分类方法,包括:
S1:将场景数据集按预设比例划分为训练集和测试集;
S2:对训练集中的图像进行预处理,预处理后的图像为真图;
S3:构建多成分GAN重建的遥感图像场景分类网络模型,模型包括多编码生成器网络、特征提取网络、联合定位模块和联合分类模块,其中,多编码生成器网络用于生成包含细节的伪图,特征提取网络用于根据输入的真图提取真图特征、根据输入的伪图提取伪图特征,提取的真图特征和伪图特征作为全局特征,联合定位模块用于根据提取的真图特征得到真图的信息性部件、根据提取的伪图特征得到伪图的信息性部件,真图的信息性部件和伪图的信息性部件作为部件特征,联合分类模块用于根据全局特征得到全图分类结果,根据真图的信息性部件和伪图的信息性部件的组合得到部件级分类结果,再根据全图分类结果与部件级分类结果得到场景分类结果;
S4:将训练集中预处理后的图像输入多成分GAN重建的遥感图像场景分类网络模型,进行训练,以部件级分类损失以及部件级相似性度量损失的组合方式对网络进行微调,得到最优分类模型,作为训练好的多成分GAN重建的遥感图像场景分类网络模型;
S5:将测试集中的图像进行预处理后输入训练好的多成分GAN重建的遥感图像场景分类网络模型,进行场景分类。
在一种实施方式中,步骤S2包括:
S2.1:将数据集中的图像保存在对应的场景类别的文件夹中;
S2.2:将数据集中包含的图像统一使用双线性插值的方式重新设置图像分辨率。
在一种实施方式中,多编码生成器网络的生成过程包括:
设置生成器网络的学习参数,初始化网络权重,偏差参数;
随机初始化多潜在编码zn以及通道重要性权重αn
将多潜在编码zn以及通道重要性权重αn输入生成器网络,以像素级重构误差损失优化网络以及通道重要性权重αn,获得最优生成器模型,作为多编码生成器网络,其中,像素级重构误差损失的计算方式如下:
在式(1)中:Xreal表示经过预处理之后的数据集中的真图,Xfake表示生成器生成的伪图。
在一种实施方式中,特征提取网络的生成过程包括:
设置特征提取网络学习参数;
加载预训练模型,初始化网络权重,偏差参数;
将进行数据预处理后的数据集中的图像输入特征提取网络,以交叉熵损失进行微调,获得最优特征提取模型,交叉熵损失公式如下:
在式(2)中:C表示样本类别数;x表示软最大化层的输出向量,形如[1,C];label表示样本对应的实际标签;x[label]表示样本的实际标签对应的预测概率值;x[i]表示样本属于第i类的预测概率值。
在一种实施方式中,联合定位模块根据提取的真图特征得到真图的信息性部件,包括:
将特征提取网络的输出真图特征Freal输入联合定位模块,利用预测概率回传与特征图加权求和得到类激活图CAM,将该类激活图CAM分别进行最大池化和最小池化,得到若干波峰以及波谷坐标点:
利用K-means聚类算法将所有得到的波峰与波谷坐标点分别聚类成k组和m组,波峰聚类中心是携带前景信息以及上下文信息的语义位置,波谷聚类中心是有背景相关信息的语义位置,波峰信息进一步转化为真图的信息性部件Rreal
在一种实施方式中,所述方法还包括:
将特征提取网络根据真图特征提取定位到的波峰以及波谷点的特征作为多个潜在编码的更新,并输入多编码生成器网络获取更加细节的伪图。
在一种实施方式中,联合定位模块根据提取的伪图特征得到伪图的信息性部件,包括:
将特征提取网络的输出伪图特征Ffake输入联合定位模块,利用预测概率回传与特征图加权求和得到类激活图CAM,将该类激活图CAM分别进行最大池化和最小池化,得到若干波峰以及波谷的坐标点;
利用K-means聚类算法将所有得到的波峰与波谷坐标点分别聚类成k组和m组,波峰聚类中心携带前景信息以及上下文信息的语义位置,波谷聚类中心具有背景相关信息的语义位置,波峰信息进一步转化为伪图的信息性部件Rfake
在一种实施方式中,真图的信息性部件与伪图的信息性部件的组合形式包括:
RrUf=Rreal∪Rfake (3)
RrIf=Rreal∩Rfake (4)
RrUSf=Rreal∪(Rfake-Rreal) (5)
其中,Rreal表示真图的信息性部件,Rfake表示伪图的信息性部件,RrUf表示两者的并集,RrIf表示两者的交集,RrUSf表示真图中的部件与伪图中独有的部件做集合的并运算。
在一种实施方式中,步骤S4中,组合的损失的计算方式为:
部件级分类损失的计算方式为:
部件级相似性度量损失的计算方式为:
k表示联合定位产生的前景信息部件的个数,即聚类得到的波峰个数;yi,n表示预测的第i幅图像中第n个部件的软最大化概率,yreal和yfake表示真图和伪图对应部件的预测概率;上标γ表示权重参数;D(RrealRfake)是成对的L2规范化向量之间的欧式距离,表示为:
D(Rreal,Rfake)=||Rreal-Rfake||2 (9)
Rreal表示真图的信息性部件,Rfake表示伪图的信息性部件。
在一种实施方式中,步骤S5包括:
S5.1:对测试集数据进行图像预处理;
S5.2:将数据预处理后的测试集图像输入特征提取网络得到图像特征并进行图像级分类,得到图像级预测概率;
S5.3:将特征提取网络得到的特征输入联合定位模块进行部件定位,得到多个信息性部件并进行部件级分类,得到部件级预测概率;
S5.4:将两个预测概率通过以下公式组合,得到最终的分类结果,组合公式入下:
其中,pimg表示图像级预测概率,ppart表示部件级预测概率,p为最终的概率,根据p能够得到最终的分类结果。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明采用多成分GAN重建的遥感图像场景分类方法,首先利用多编码生成器网络生成充满细节的伪图,然后利用真图联合伪图定位到多个信息性部件,最后通过图像级分类与部件级分类的组合结果作为最终的分类结果。多编码生成器网络的运用可以生成足够细节的伪图,扩充图像样本,有助于提高模型的泛化能力。训练过程利用真图联合伪图做部件定位,真伪图在特征上具有一定的差异性和互补性,可以提高定位结果,使模型能够更准确地定位到多个信息性部件。最后,将图像级分类概率和部件级分类概率结合作为最终的分类结果,提升了遥感图像场景分类效果,解决了现有技术中的分类效果不佳的技术问题。
进一步地,本发明通过多成分GAN重建的遥感图像场景分类网络模型及其训练,提出了组合的损失函数,联合真-伪图做部件定位并提取复杂遥感图像场景的判别特征并分类,可以准确定位多个信息性部件并具有提高遥感图像场景分类效果的特点,进一步改善了分类效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中多成分GAN重建的遥感图像场景分类方法的整体框架图;
图2为本发明实施例中不同聚类个数定位结果图;
图3为本发明实施例中联合定位模块方法流程图;
图4为本发明实施例中真、伪图定位结果图;
图5为本发明实施例中利用T-SNE降维学习数据特征的可视化结果图;
图6为本发明实施例中NWPU-RESISC45数据集,训练比例为20%时分类精度图;
图7为本发明实施例中NWPU-RESISC45数据集,训练比例为10%时分类精度图。
具体实施方式
本发明的目的在于针对现有技术中由于对类内多样性和类间相似性的遥感图像场景特征表示的不足,造成部件定位不准确导致的分类效果不佳的技术问题,提供多成分GAN重建的遥感图像场景分类方法,从而达到提高分类准确性和分类效果的目的。
为了实现上述技术效果,本发明的主要构思如下:
提供一种多成分GAN重建的遥感图像场景分类方法,首先将场景数据集按比例随机划分成训练集和测试集;其次对数据集进行预处理,这些经过预处理之后的遥感场景图像数据即为真图;接着以随机初始化的方式获取多个潜在编码输入生成器网络以获得伪图;然后将真图、伪图联合输入到一个特征提取及联合定位模块,参与联合定位获得多个信息性部件;这些信息性部件用作多个潜在编码的更新接着利用全图特征和部件特征分别参与图像级分类和部件级分类,获得最优的分类模型;最后将测试集输入到最优定位网络和最优分类模型,获得最终的预测结果。本发明可以提高多个部件定位准确性和分类效果。
本发明提供的多成分GAN重建的遥感图像场景分类方法,由于联合真-伪图进行部件定位,可以准确定位到多个信息性部件,同时结合图像级分类以及部件级分类,在遥感图像场景分类上取得了更好的效果。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了多成分GAN重建的遥感图像场景分类方法,包括:
S1:将场景数据集按预设比例划分为训练集和测试集;
S2:对训练集中的图像进行预处理,预处理后的图像为真图;
S3:构建多成分GAN重建的遥感图像场景分类网络模型,模型包括多编码生成器网络、特征提取网络、联合定位模块和联合分类模块,其中,多编码生成器网络用于生成包含细节的伪图,特征提取网络用于根据输入的真图提取真图特征、根据输入的伪图提取伪图特征,提取的真图特征和伪图特征作为全局特征,联合定位模块用于根据提取的真图特征得到真图的信息性部件、根据提取的伪图特征得到伪图的信息性部件,联合分类模块用于根据全局特征得到全图分类结果、根据真图的信息性部件和伪图的信息性部件的组合得到部件级分类结果,再根据全图分类结果与部件级分类结果得到场景分类结果;
S4:将训练集中预处理后的图像输入多成分GAN重建的遥感图像场景分类网络模型,进行训练,以部件级分类损失以及部件级相似性度量损失的组合方式对网络进行微调,得到最优分类模型,作为训练好的多成分GAN重建的遥感图像场景分类网络模型;
S5:将测试集中的图像进行预处理后输入训练好的多成分GAN重建的遥感图像场景分类网络模型,进行场景分类。
具体来说,步骤S1中,场景数据集是指是某一个开源的图像场景数据集,该场景数据集中包含多个类别,每个类别包括多个图像。预设比例可以根据需要进行设置,例如1:9、2:8、3:7等等。
具体示例中以NWPU-RESISC45场景图像数据集为例子,该数据集包括45个场景类,每个类包含700个图像,共包含31500张图像,每张图像的大小为256×256个像素。
步骤S2:对场景数据集中的图像进行预处理,具体实施方式中,对场景数据集中的图像进行预处理,就是将场景数据集中的图像的格式和尺寸调整成CNN网络可以处理的形式。
步骤S3构建了多成分GAN重建的遥感图像场景分类网络模型。步骤S4是对模型的训练,步骤S5是对模型的测试与应用。
请参见图1,为本发明实施例中多成分GAN重建的遥感图像场景分类方法的整体框架图。主要包括三部分:生成器网络、部件联合定位以及联合部件分类。
在一种实施方式中,步骤S2包括:
S2.1:将数据集中的图像保存在对应的场景类别的文件夹中;
S2.2:将数据集中包含的图像统一使用双线性插值的方式重新设置图像分辨率。
在一种实施方式中,多编码生成器网络的生成过程包括:
设置生成器网络的学习参数,初始化网络权重,偏差参数;
随机初始化多潜在编码zn以及通道重要性权重αn
将多潜在编码zn以及通道重要性权重αn输入生成器网络,以像素级重构误差损失优化网络以及通道重要性权重αn,获得最优生成器模型,作为多编码生成器网络,其中,像素级重构误差损失的计算方式如下:
在式(1)中:Xreal表示经过预处理之后的数据集中的真图,Xfake表示生成器生成的伪图;表示。
具体来说,像素级重构误差损失即为均方误差损失,表示均方误差损失。网络的学习参数包括:批处理大小,学习率,动量,最大迭代次数,权重衰减率等;
在具体实施时,可以将批处理大小设置为64,学习率设置为0.001,动量设置为0.9,最大迭代次数设置为150,权重衰减速度为每30次迭代下降为原来的十分之一。
在本实施方式中,采用6个潜在编码重构原图,每个zi可以帮助重建出目标图像的特定区域,例如飞机,跑道,连接线等;同时通过生成器网络的中间层来合成潜在编码,即将多个潜在编码在生成器网络中间层得到的特征通过通道重要性权重合并成一个特征以方便后续的图像生成;具体地,生成器G(·)被划分为两个子网络,即/>和/>在这里,上标l表示特征合成所在层号,这里表示生成器网络的中间层,即第2层。通过这样的分离,可以提取每个zn相应的空间特征/>
每个zn可以预期恢复目标图像的某个区域,而生成器不同的通道负责产生不同的视觉概念,例如边缘和纹理等。因此,对于每个zn引入自适应通道重要性αn以帮助他们生成不同的语义。这里αn表示特征通道重要性,是一个1×128的向量,128是生成器G(·)在第2层的通道数。因此,图像的重构可以表示为:
在一种实施方式中,特征提取网络的生成过程包括:
设置特征提取网络学习参数;
加载预训练模型,初始化网络权重,偏差参数;
将进行数据预处理后的数据集中的图像输入特征提取网络,以交叉熵损失进行微调,获得最优特征提取模型,交叉熵损失公式如下:
在式(2)中:C表示样本类别数;x表示软最大化层的输出向量,形如[1,C];label表示样本对应的实际标签;x[label]表示样本的实际标签对应的预测概率值;x[i]表示样本属于第i类的预测概率值。
其中,预训练模型指预先训练好的特征提取网络,本实施方式中,在使用相同网络模型的情况下有学习好的网络参数,直接导入到当前网络中,然后进行微调就可以较好地拟合本数据集上的分类任务。
具体来说,特征提取网络的网络学习参数包括:批处理大小,学习率,动量,最大迭代次数,权重衰减率等。
在具体实施时,可以将批处理大小设置为64,学习率设置为0.0001,动量设置为0.9,最大迭代次数设置为150,权重衰减速度为每30次迭代下降为原来的十分之一,预训练模型为加载在ImageNet数据集上预训练好的对象检测网络模型。
在一种实施方式中,联合定位模块根据提取的真图特征得到真图的信息性部件,包括:
将特征提取网络的输出真图特征Freal输入联合定位模块,利用预测概率回传与特征图加权求和得到类激活图CAM,将该类激活图CAM分别进行最大池化和最小池化,得到若干波峰以及波谷坐标点:
利用K-means聚类算法将所有得到的波峰与波谷坐标点分别聚类成k组和m组,波峰聚类中心是携带前景信息以及上下文信息的语义位置,波谷聚类中心是有背景相关信息的语义位置,波峰信息进一步转化为真图的信息性部件Rreal
具体地,联合定位模块根据提取的真图特征提取的若干波峰以及波谷的坐标点如下:
[(x1,y1),(x2,y2),…,(xM,yM))]peak (13)
[(x1,y1),(x2,y2),…,(xN,yN))]trough (14)
M,N分别为波峰和波谷的数量。
特征提取网络得到的激活图CAM(特征图)的大小为512×8×8,而通过概率回传得到的CAM图大小为8×8,在此CAM图基础上分别做3×3最大池化以及最小池化可以得到波峰以及波谷点的坐标信息;最后通过K-means聚类得到信息性部件,在具体实施中,波谷的点被聚类成两类,表示与背景信息相关的图像区域;而对于波峰坐标点,针对遥感场景图像复杂程度的不同,有不同的设置:
1)对于背景相对简单的自然场景,如海滩和沙漠等,k=2;
2)对于有明显前景对象的场景,如机场和存储罐等,k=3;
3)对于复杂的人造场景,如学校和教堂等,k=4;
各个场景不同聚类个数的定位结果如图2所示。
在一种实施方式中,所述方法还包括:
将特征提取网络根据真图特征提取定位到的波峰以及波谷点的特征作为多个潜在编码的更新,并输入多编码生成器网络获取更加细节的伪图。
在一种实施方式中,联合定位模块根据提取的伪图特征得到伪图的信息性部件,包括:
将特征提取网络的输出伪图特征Ffake输入联合定位模块,利用预测概率回传与特征图加权求和得到类激活图CAM,将该类激活图CAM分别进行最大池化和最小池化,得到若干波峰以及波谷的坐标点;
利用K-means聚类算法将所有得到的波峰与波谷坐标点分别聚类成k组和m组,波峰聚类中心携带前景信息以及上下文信息的语义位置,波谷聚类中心具有背景相关信息的语义位置,波峰信息进一步转化为伪图的信息性部件Rfake
具体实施过程中,输入遥感场景图像X,对于特征提取输出的特征F,大小为512×8×8,该特征经过软最大化层后得到该特征映射到每个类(设类别数为45)的预测概率,假设当类别为c时,此预测概率最大,取出此时对应的权重wc,大小为512×1。将权重与特征F加权求和,即可得到类激活图CAM。在此基础上进行联合定位,联合定位细节模块如图3所示。
对于真图,经过联合定位模块得到的波峰聚类中心点和波谷聚类中心点可以用于更新步骤设计的多个潜在编码,以帮助生成器网络重构伪图。
在一种实施方式中,真图的信息性部件与伪图的信息性部件的组合形式包括:
RrUf=Rreal∪Rfake (3)
RrIf=Rreal∩Rfake (4)
RrUSf=Rreal∪(Rfake-Rreal) (5)
其中,Rreal表示真图的信息性部件,Rfake表示伪图的信息性部件,RrUf表示两者的并集,RrIf表示两者的交集,RrUSf表示真图中的部件与伪图中独有的部件做集合的并运算。
具体来说,联合分类模块包括全图分类网络和部件级分类网络,其中,全图分类网络的作用是根据提取的全局特征进行图像级的分类,得到全图分类结果,部件级分类网络的作用是根据输入的真图部件特征(真图的信息性部件)和伪图部件特征(伪图的信息性部件)进行部件级分类。
联合定位模块是基于伪图来辅助修正真图中的部件,使得对象定位更准确,再用于后续的分类任务。如果仅使用真图的定位结果,对对象的定位存在偏差,即不够准确;因而引入伪图来辅助定位,可以移除真图中的伪部件,从而帮助分类任务筛选准确的部件,也就是能够获取更为准确的部件特征,从而提高分类结果
本实施方式中,也使用了公式(3)~(5)所示的几种真图部件和伪图部件的组合来进一步检验各种定位效果。
在一种实施方式中,步骤S4中,组合的损失的计算方式为:
部件级分类损失的计算方式为:
部件级相似性度量损失的计算方式为:
k表示联合定位产生的前景信息部件的个数,即聚类得到的波峰个数;yi,n表示预测的第i幅图像中第n个部件的软最大化概率,yreal和yfake表示真图和伪图对应部件的预测概率;上标γ表示权重参数;D(RrealRfake)是成对的L2规范化向量之间的欧式距离,表示为:
Rreal表示真图的信息性部件,Rfake表示伪图的信息性部件。
真-伪图联合定位的结果如图4所示,由于真-伪图的定位结果有一定的互补性,能更准确地反映出复杂场景的不同语义,增强关键信息,提高分类精度。同时以部件级分类损失以及部件级相似性度量损失的组合方式对网络进行微调,得到最优分类模型,并且利用真伪图部件特征差异性调整联合定位模块使定位到的信息性部件更加准确。
步骤S4模型的具体训练过程如下:
(1)正向传递学习,计算在当前网络参数下,网络每一层的输出特征。正向传播过程如下:
al=τ(zl)=τ(al-1wl+bl) (15)
式(15)中:l表示第l层,wl表示第l层的权重,bl表示第l层的偏移值,τ(*)表示激活函数,一般是ReLU,zl表示卷积操作之后的输出,al表示第l层的输出。
(2)反向传播更新,采用修正自适应矩估计算法,每迭代一次从训练样本中随机抽取一组样本,通过网络获得类别输出,计算梯度,更新网络参数,网络权重和偏差参数更新公式如下:
式(16)中:L(w,b)表示损失函数,μ表示学习率,wl′表示更新后第l层的权重,bl′表示更新后第l层的偏移值。
(3)重复上面正向传递学习和反向传播更新两个步骤,直到达到最大迭代次数结束微调,得到训练好的模型。
在一种实施方式中,步骤S5包括:
S5.1:对测试集数据进行图像预处理;
S5.2:将数据预处理后的测试集图像输入特征提取网络得到图像特征并进行图像级分类,得到图像级预测概率;
S5.3:将特征提取网络得到的特征输入联合定位模块进行部件定位,得到多个信息性部件并进行部件级分类,得到部件级预测概率;
S5.4:将两个预测概率通过以下公式组合,得到最终的分类结果,组合公式入下:
其中,pimg表示图像级预测概率,ppart表示部件级预测概率,p为最终的概率,根据p能够得到最终的分类结果。
如图5所示,为具体实施例中利用T-SNE降维学习数据特征的可视化图;图6为具体实施例中NWPU-RESISC45数据集,训练比例为20%时分类精度图;图7为具体实施例中NWPU-RESISC45数据集,训练比例为10%时分类精度图。
现有技术中还有基于辅助分类器生成式对抗网络的图像分类方法,构建一种具有特殊结构的生成式对抗网络,在条件GAN的基础上进行扩展,通过给判别器网络增加辅助分类器使判别器不仅可以判别图像真假,还可以预测图像类别,同时组合判别损失和分类损失更新网络,可以提高GAN模型训练的稳定性,但是该网络仍然需要大量的训练样本,对于高分辨率的图像,判别器不能很好的学习到有判别性的类别信息,仅在图像类别数很少的情况下可以取得较好的分类效果。此外,还有基于注意力机制的多分支特征融合遥感图像场景分类方法,提出首先对遥感图像进行预处理,得到预处理后的遥感图像,再使用基于注意力机制的多分支特征融合卷积神经网络进行训练和分类。在基于像元的分类方法中利用像元的光谱信息、纹理信息、空间关联在内的信息对地物类别属性或者传统聚类方法进行分类,这种方法只能简单地获取一些细节信息,并不能足以获得地物类别语义信息,对于简单的图像场景反而增加了其复杂性,不能选择性地学习好的判别特征。
本发明采用多成分GAN重建的遥感图像场景分类方法,首先将场景数据集按比例随机划分成训练集和测试集;接着对数据集进行预处理;以随机初始化的方式获取多个潜在编码输入生成器网络,并以进行数据预处理后的图像数据作为优化指标以获得伪图;然后将真图、伪图联合输入到一个特征提取及联合定位模块,获得多个信息性部件;接着用这些信息性部件更新多个潜在编码以及参与分类,获得最优的分类模型;最后将测试集输入通过最优联合定位模块以及最优分类模型获得最终的预测结果,具有提高遥感图像场景分类效果的特点。
因此,本发明通过多成分GAN重建的遥感图像场景分类网络模型及其训练,提出了联合真-伪图进行信息性部件定位,可以准确定位到多个信息性部件,同时结合图像级分类以及部件级分类,具有提高遥感图像场景分类效果的特点。
为了验证本发明提出的遥感图像场景分类方法的优势,使用45类场景图像数据集(NWPU-RESISC45),将本实例算法与其他算法做分析和对比,如表1所示:
表1:不同算法的分类正确率比较
其中,ResNet算法参见He K等人发表的论文《图像识别中的深度残差学习》(IEEE计算机视觉和模式识别会议记录,pp.770-778,2016);VGG-VD16算法参见Cheng等人发表的论文《当深度学习结合度量学习:通过学习判别性CNN进行遥感图像场景分类》(IEEE国际地理科学与遥感学报,vol.56,no.5,pp.2811-2821,2018.);MIDC-Net算法参见Bi等人发表的论文《基于多示例密集连接卷积神经网络的遥感场景分类》(IEEE国际图像处理学报,vol.29,pp.4911-4926,2020.);IOR4+VGG-VD16算法参见Wang等发表的论文《IORN:一种有效的遥感图像场景分类框架》(IEEE地理科学与遥感快报,vol.15,no.11,pp.1695-1699,2018.);MI-ALexNet算法参见Li等人发表的论文《用于学习遥感场景鲁棒表示的深度多示例卷积神经网络》(IEEE国际地理科学与遥感学报,vol.58,no.5,pp.3685-3702,2020.)。由表1可知,在基于卷积神经网络算法中,本发明提出的多成分GAN重建的遥感图像场景分类方法具有更好的效果,进一步说明通过多成分GAN重建的遥感图像场景分类网络模型及其训练,提出了联合真-伪图进行部件定位,可以准确定位到多个信息性部件,同时结合图像级分类以及部件级分类,能够提高遥感图像场景分类效果。
为了进一步说明本实例算法各个分支的不同贡献,不同分支网络的分类结果如表2所示:
表2:本方法消融实验
由表2可知,在45类图像场景数据集上,三个单独分支的网络都达到了一定的效果,由此可见,本算法在每个分支上的有效性,并且通过三分支融合后分类结果有了进一步提升,说明了本算法中三个分支是具有互补性的,融合后的特征具有更加丰富的判别性。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.多成分GAN重建的遥感图像场景分类方法,其特征在于,包括:
S1:将场景数据集按预设比例划分为训练集和测试集;
S2:对训练集中的图像进行预处理,预处理后的图像为真图;
S3:构建多成分GAN重建的遥感图像场景分类网络模型,模型包括多编码生成器网络、特征提取网络、联合定位模块和联合分类模块,其中,多编码生成器网络用于生成包含细节的伪图,特征提取网络用于根据输入的真图提取真图特征、根据输入的伪图提取伪图特征,提取的真图特征和伪图特征作为全局特征,联合定位模块用于根据提取的真图特征得到真图的信息性部件、根据提取的伪图特征得到伪图的信息性部件,真图的信息性部件和伪图的信息性部件作为部件特征,联合分类模块用于根据全局特征得到全图分类结果,根据真图的信息性部件和伪图的信息性部件的组合得到部件级分类结果,再根据全图分类结果与部件级分类结果得到场景分类结果;
S4:将训练集中预处理后的图像输入多成分GAN重建的遥感图像场景分类网络模型,进行训练,以部件级分类损失以及部件级相似性度量损失的组合方式对网络进行微调,得到最优分类模型,作为训练好的多成分GAN重建的遥感图像场景分类网络模型;
S5:将测试集中的图像进行预处理后输入训练好的多成分GAN重建的遥感图像场景分类网络模型,进行场景分类;
其中,联合定位模块根据提取的真图特征得到真图的信息性部件,包括:
将特征提取网络提取的真图特征Freal输入联合定位模块,利用预测概率回传与特征图加权求和得到类激活图CAM,将该类激活图CAM分别进行最大池化和最小池化,得到若干波峰以及波谷坐标点:
利用K-means聚类算法将所有得到的波峰与波谷坐标点分别聚类成k组和m组,波峰聚类中心是携带前景信息以及上下文信息的语义位置,波谷聚类中心是有背景相关信息的语义位置,波峰信息进一步转化为真图的信息性部件Rreal
联合定位模块根据提取的伪图特征得到伪图的信息性部件,包括:
将特征提取网络提取的伪图特征Ffake输入联合定位模块,利用预测概率回传与特征图加权求和得到类激活图CAM,将该类激活图CAM分别进行最大池化和最小池化,得到若干波峰以及波谷的坐标点;
利用K-means聚类算法将所有得到的波峰与波谷坐标点分别聚类成k组和m组,波峰聚类中心携带前景信息以及上下文信息的语义位置,波谷聚类中心具有背景相关信息的语义位置,波峰信息进一步转化为伪图的信息性部件Rfake
2.如权利要求1所述的多成分GAN重建的遥感图像场景分类方法,其特征在于,步骤S2包括:
S2.1:将数据集中的图像保存在对应的场景类别的文件夹中;
S2.2:将数据集中包含的图像统一使用双线性插值的方式重新设置图像分辨率。
3.如权利要求1所述的遥感图像场景分类方法,其特征在于,多编码生成器网络的生成过程包括:
设置生成器网络的学习参数,初始化网络权重,偏差参数;
随机初始化多潜在编码zn以及通道重要性权重αn
将多潜在编码zn以及通道重要性权重αn输入生成器网络,以像素级重构误差损失优化网络以及通道重要性权重αn,获得最优生成器模型,作为多编码生成器网络,其中,像素级重构误差损失的计算方式如下:
在式(1)中:Xreal表示经过预处理之后的数据集中的真图,Xfake表示生成器生成的伪图。
4.如权利要求1所述的遥感图像场景分类方法,其特征在于,特征提取网络的生成过程包括:
设置特征提取网络学习参数;
加载预训练模型,初始化网络权重,偏差参数;
将进行数据预处理后的数据集中的图像输入特征提取网络,以交叉熵损失进行微调,获得最优特征提取模型,交叉熵损失公式如下:
在式(2)中:C表示样本类别数;x表示软最大化层的输出向量,形如[1,C];label表示样本对应的实际标签;x[label]表示样本的实际标签对应的预测概率值;x[i]表示样本属于第i类的预测概率值。
5.如权利要求1所述的遥感图像场景分类方法,其特征在于,所述方法还包括:
将特征提取网络根据真图特征提取定位到的波峰以及波谷点的特征作为多个潜在编码的更新,并输入多编码生成器网络获取更加细节的伪图。
6.如权利要求1所述的遥感图像场景分类方法,其特征在于,真图的信息性部件与伪图的信息性部件的组合形式包括:
RrUf=Rreal∪Rfake (3)
RrIf=Rreal∩Rfake (4)
RrUsf=Rreal∪(Rfake-Rreal) (5)
其中,Rreal表示真图的信息性部件,Rfake表示伪图的信息性部件,RrUf表示两者的并集,RrIf表示两者的交集,RrUSf表示真图中的部件与伪图中独有的部件做集合的并运算。
7.如权利要求1所述的遥感图像场景分类方法,其特征在于,步骤S4中,组合的损失的计算方式为:
部件级分类损失的计算方式为:
部件级相似性度量损失的计算方式为:
k表示联合定位产生的前景信息部件的个数,即聚类得到的波峰个数;yi,n表示预测的第i幅图像中第n个部件的软最大化概率,yreal和yfake表示真图和伪图对应部件的预测概率;上标γ表示权重参数;D(RrealRfake)是成对的L2规范化向量之间的欧式距离,表示为:
D(Rreal,Rfake)=||Rreal-Rfake||2 (9)
Rreal表示真图的信息性部件,Rfake表示伪图的信息性部件。
8.如权利要求1所述的遥感图像场景分类方法,其特征在于,步骤S5包括:
S5.1:对测试集数据进行图像预处理;
S5.2:将数据预处理后的测试集图像输入特征提取网络得到图像特征并进行图像级分类,得到图像级预测概率;
S5.3:将特征提取网络得到的特征输入联合定位模块进行部件定位,得到多个信息性部件并进行部件级分类,得到部件级预测概率;
S5.4:将两个预测概率通过以下公式组合,得到最终的分类结果,组合公式入下:
其中,pimg表示图像级预测概率,ppart表示部件级预测概率,p为最终的概率,根据p能够得到最终的分类结果。
CN202210350836.9A 2022-04-02 2022-04-02 多成分gan重建的遥感图像场景分类方法 Active CN114764880B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210350836.9A CN114764880B (zh) 2022-04-02 2022-04-02 多成分gan重建的遥感图像场景分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210350836.9A CN114764880B (zh) 2022-04-02 2022-04-02 多成分gan重建的遥感图像场景分类方法

Publications (2)

Publication Number Publication Date
CN114764880A CN114764880A (zh) 2022-07-19
CN114764880B true CN114764880B (zh) 2024-04-26

Family

ID=82364865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210350836.9A Active CN114764880B (zh) 2022-04-02 2022-04-02 多成分gan重建的遥感图像场景分类方法

Country Status (1)

Country Link
CN (1) CN114764880B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287800A (zh) * 2019-05-29 2019-09-27 河海大学 一种基于sgse-gan的遥感图像场景分类方法
CN110689086A (zh) * 2019-10-08 2020-01-14 郑州轻工业学院 基于生成式对抗网络的半监督高分遥感图像场景分类方法
CN111428758A (zh) * 2020-03-06 2020-07-17 重庆邮电大学 一种改进的基于无监督表征学习的遥感图像场景分类方法
CN113989612A (zh) * 2021-05-13 2022-01-28 中国地质大学(武汉) 基于注意力及生成对抗网络的遥感影像目标检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11373390B2 (en) * 2019-06-21 2022-06-28 Adobe Inc. Generating scene graphs from digital images using external knowledge and image reconstruction

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287800A (zh) * 2019-05-29 2019-09-27 河海大学 一种基于sgse-gan的遥感图像场景分类方法
CN110689086A (zh) * 2019-10-08 2020-01-14 郑州轻工业学院 基于生成式对抗网络的半监督高分遥感图像场景分类方法
CN111428758A (zh) * 2020-03-06 2020-07-17 重庆邮电大学 一种改进的基于无监督表征学习的遥感图像场景分类方法
CN113989612A (zh) * 2021-05-13 2022-01-28 中国地质大学(武汉) 基于注意力及生成对抗网络的遥感影像目标检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Self-Supervised GANs With Similarity Loss for Remote Sensing Image Scene Classification;Dongen Guo;《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing 》;20210203;2508 - 2521 *
基于小样本学习的高光谱遥感图像分类算法;张婧;袁细国;;聊城大学学报(自然科学版);20200804(06);全文 *
天宫一号高光谱遥感场景分类数据集及应用;刘康;周壮;李盛阳;刘云飞;万雪;刘志文;谭洪;张万峰;;遥感学报;20200916(09);全文 *

Also Published As

Publication number Publication date
CN114764880A (zh) 2022-07-19

Similar Documents

Publication Publication Date Title
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
CN111339903B (zh) 一种多人人体姿态估计方法
CN106909924B (zh) 一种基于深度显著性的遥感影像快速检索方法
CN111047548B (zh) 姿态变换数据处理方法、装置、计算机设备和存储介质
CN106355151B (zh) 一种基于深度置信网络的三维sar图像目标识别方法
Lin et al. Hyperspectral image denoising via matrix factorization and deep prior regularization
US9330336B2 (en) Systems, methods, and media for on-line boosting of a classifier
CN104077742B (zh) 基于Gabor特征的人脸素描合成方法及系统
CN112613350A (zh) 一种基于深度神经网络的高分辨率光学遥感图像飞机目标检测方法
CN110992366A (zh) 一种图像语义分割方法、装置及存储介质
CN106056141A (zh) 一种使用空间稀疏编码的目标识别与角度粗估计算法
CN112950780A (zh) 一种基于遥感影像的网络地图智能生成方法及系统
CN114565594A (zh) 基于软掩膜对比损失的图像异常检测方法
CN116310852A (zh) 双时相遥感影像无监督分类与变化检测方法及系统
CN113888399B (zh) 一种基于风格融合与域选结构的人脸年龄合成方法
CN107423771B (zh) 一种两时相遥感图像变化检测方法
CN117151990B (zh) 一种基于自注意力编码解码的图像去雾方法
CN111696167A (zh) 自范例学习引导的单张影像超分辨率重构方法
CN114764880B (zh) 多成分gan重建的遥感图像场景分类方法
CN114937154B (zh) 一种基于递归解码器的显著性检测方法
Feng et al. Improved deep fully convolutional network with superpixel-based conditional random fields for building extraction
Li et al. Subpixel change detection based on improved abundance values for remote sensing images
CN117095033B (zh) 一种基于图像与几何信息引导的多模态点云配准方法
CN117765297B (zh) 高光谱图像分类方法、装置、设备及存储介质
CN116503737B (zh) 基于空间光学图像的船舶检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant