CN116863247A - 一种融合全局和局部信息的多模态遥感数据分类方法 - Google Patents

一种融合全局和局部信息的多模态遥感数据分类方法 Download PDF

Info

Publication number
CN116863247A
CN116863247A CN202311056294.5A CN202311056294A CN116863247A CN 116863247 A CN116863247 A CN 116863247A CN 202311056294 A CN202311056294 A CN 202311056294A CN 116863247 A CN116863247 A CN 116863247A
Authority
CN
China
Prior art keywords
remote sensing
features
sensing data
low
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311056294.5A
Other languages
English (en)
Inventor
涂兵
任启
廖晓龙
叶井飞
曹兆楼
陈云云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202311056294.5A priority Critical patent/CN116863247A/zh
Publication of CN116863247A publication Critical patent/CN116863247A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种融合全局和局部信息的多模态遥感数据分类方法,属于高光谱图像处理技术领域,包括获取待分类的多模态遥感数据集,并输入至预先训练好的多模态遥感数据分类模型;所述多模态遥感数据分类模型基于所述待分类的多模态遥感数据集,输出多模态遥感数据分类结果。本发明解决了现有技术中多模态卷积的可解释性差,对于跨模态特征提取不够充分,且上下文独立的卷积结构难以捕获全局信息的问题,通过特征解耦的方式将多模态信息分解为共有信息和特有信息,实现多模态信息融合,充分挖掘多模态遥感数据的特征,大幅度降低了遥感图像领域中深度学习模型对于训练数据的需求,以此实现更准确的图像分类。

Description

一种融合全局和局部信息的多模态遥感数据分类方法
技术领域
本发明涉及高光谱图像处理技术领域,尤其涉及一种融合全局和局部信息的多模态遥感数据分类方法。
背景技术
高光谱图像能够反映地面物体丰富的空间和光谱细节信息,因此,高光谱在土地覆盖分类中的应用在地质勘探、城市发展规划、森林管理和精准农业等众多领域具有重要的指示作用。而LiDAR数据不仅可以记录观测对象的高程信息,而且具有不易受天气和遮挡等环境因素干扰的优点。由于成像机制的差异,高光谱和LiDAR数据可用于获得地面物体的不同方面,它们的互补信息有利于提高土地覆盖分类任务的性能。因此,高光谱和LiDAR数据的融合可以帮助实现更准确的图像分类,这成为一个热门的研究课题。然而,很难捕捉复杂的局部和全局空间-光谱关联;与此同时,如何在多模态数据之间建立有效的交互是另一个重要问题。
多模态图像融合分类主要是结合各个模态图像的特点实现遥感图像分类任务,如有物理含义的高亮区域和纹理区域。然而,目前多模态主要通过卷积提取特征,但卷积的可解释性差,难以控制,对于跨模态特征提取不够充分,难以提取到模态特有的特征;且上下文独立的卷积结构只能在相对小的感受野内提取到局部信息,难以捕获全局信息;同时网络的前向传播会造成高频信息丢失。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种融合全局和局部信息的多模态遥感数据分类方法,解决现有技术中多模态卷积的可解释性差,难以控制,对于跨模态特征提取不够充分,且上下文独立的卷积结构难以捕获全局信息的问题。
为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种融合全局和局部信息的多模态遥感数据分类方法,包括:
获取待分类的多模态遥感数据集,并输入至预先训练好的多模态遥感数据分类模型;
所述多模态遥感数据分类模型基于所述待分类的多模态遥感数据集,输出多模态遥感数据分类结果;
所述多模态遥感数据分类模型的训练方法包括:
获取原始高光谱遥感数据和LiDAR数据,对原始高光谱遥感数据进行降维处理,获取低维高光谱特征;
根据确定的训练样本数目,从低维高光谱特征和LiDAR数据中随机筛选出训练集和测试集,搭建初始多模态遥感数据分类模型,并设置多模态遥感数据分类模型的迭代次数和参数;
将低维高光谱特征和LiDAR数据进行多尺度信息融合,获取低维高光谱浅层特征和LiDAR数据浅层特征;
通过双分支Transformer-CNN特征提取器,将低维高光谱浅层特征和LiDAR数据浅层特征分别进行全局信息提取和局部信息提取,获取低维高光谱的低频全局特征和高频局部特征以及LiDAR数据的低频全局特征和高频局部特征;
通过ECA模块融合低维高光谱的低频全局特征和高频局部特征以及LiDAR数据的低频全局特征和高频局部特征,利用训练集循环训练初始多模态遥感数据分类模型;当达到最大迭代次数时,获取最终的多模态遥感数据分类模型。
结合第一方面,进一步的,所述双分支Transformer-CNN特征提取器包括SIM-Transformer模块和INN模块,其中,SIM-Transformer模块用于利用结构信息建模学习处理低频全局特征,INN模块用于提取高频局部特征。
结合第一方面,进一步的,所述将低维高光谱特征和LiDAR数据进行多尺度信息融合,获取低维高光谱浅层特征和LiDAR数据浅层特征,包括:
将高光谱遥感图像H和LiDAR L分别通过3×3、5×5和7×7卷积操作,获取多尺度信息H3×3、H5×5、H7×7、L3×3、L5×5和L7×7;按通道维度,融合三个尺度特征,叠加输入相对应的第j维度,获得叠加特征公式为:
式中,Fc为多尺度空谱特征,k为特征维数,Concat为通道叠加,i为多尺度操作,为叠加特征,j为维度数;
的通道维度执行元素相加、元素平均和元素最大化,以生成表示不同处理方法和属性的三个特征图/>和/>公式为:
式中,为对/>的通道维度执行元素最大化生成的特征图,/>为对/>的通道维度执行元素平均生成的特征图,/>为对/>的通道维度执行元素相加生成的特征图;
和/>叠加,进一步通过3×3卷积融合多尺度特征,公式为:
式中,Fj为将和/>叠加并通过卷积融合的特征;
将基于多尺度的三个尺度的k组的特征图级联,以获得最终的具有维度k的低维浅层特征,公式为:
式中,H1为具有维度k的低维高光谱浅层特征。
结合第一方面,进一步的,所述通过双分支Transformer-CNN特征提取器,将低维高光谱浅层特征和LiDAR数据浅层特征分别进行全局信息提取和局部信息提取,获取低维高光谱的低频全局特征和高频局部特征以及LiDAR数据的低频全局特征和高频局部特征,包括:
将获取到的浅层特征通过线性映射投影到D维嵌入中,引入可学习的cls嵌入令牌,并将其放在输入序列嵌入的开始,将位置信息嵌入添加到输入序列嵌入,以获得第一层SIM-Transformer的输入,则:
式中,z0为第一层SIM-Transformer的输入,xcls为可学习的cls嵌入令牌,F(·)为线性映射,Ep为位置信息嵌入,为浅层特征H1中patch的第N个位置令牌,N是patch数;
则第l个SIM-Transformer的公式为:
z′l=LN(MSA(zl-1)+zl-1)
zl=LN(FFN(z′l)+z′l);
式中,LN(·)为层归一化,FFN为前馈神经网络,MSA为多头注意力机制,zl为第l个SIM-Transformer,z′l为第l个SIM-Transformer的中间特征。
引入结构信息学习,将对象空间上下文信息纳入Transformer中,假设Transformer层有H层,Q和K是D维所有令牌的维度查询和密钥向量,具体公式如下:
式中,h=1,2,...,H和N=NH×NW是patch数,D为维度,Q是D维所有令牌的维度查询,K是D维所有令牌的密钥向量,softmax(.)为激活函数,归一化令牌,KT表示为K的转置;
提取patch到令牌和每个头部的cls令牌之间的注意力权重,表示为相应的总注意力权重计算为:
式中,A为相应的总注意力权重,为patch到令牌和每个头部的cls令牌之间的注意力权重;
对于不重要patch进行过滤,设置为阈值,新的注意力权重为:
式中,为新的注意力权重,A(x,y)为在(x,y)位置的patch令牌和cls令牌之间的关系权重,/>为阈值。
具有最高关注权重的patch视为最具判别力的patch,设置为参考patch,给定参考和水平参考方向,patchPx,y的极坐标定义为:
式中,ρx,y是P0与Px,y的相对距离,θx,y是相对于水平方向的归一化极角,NH为patch的长,NW为patch的宽,(x0,y0)是NH×NW平面的索引,x为NH×NW平面的横坐标位置,y为NH×NW平面的纵坐标位置;
因此,结构特征通过两层图卷积获得:
S=σ(Adj×σ(Adj×X×W1)×W2);
式中,S为结构特征,W1和W2为可学习参数,σ为Sigmod激活函数,Adj=Anew×(Anew)T为基于Anew的节点之间的边权重,X为patch节点特征;
用INN搭配Afiine Coupling层,每个可逆层的变化为:
式中,⊙为Hadamard乘积,为第k个可逆层的输入特征的第1到第c个通道,k=1,...,K,ψi是任意映射函数,不影响可逆层的无损信息传输,i=1,...,3,C为局部特征的通道数。
结合第一方面,进一步的,所述通过ECA模块融合低维高光谱的低频全局特征和高频局部特征以及LiDAR数据的低频全局特征和高频局部特征,包括:
通过ECA模块融合高光谱遥感图像的高频局部特征Hh和LiDAR的高频局部特征Lh,得到高频融合特征Fh
融合高光谱遥感图像的低频全局特征Hl和LiDAR的低频全局特征Ll,得到低频融合特征Fl
将高频融合特征Fh与低频融合特征Fl融合为最终特征Fend
通过ECA模块使最终特征Fend实现高频-低频信息跨通道交互融合。
结合第一方面,进一步的,所述最终特征Fend的公式为:
Fend=Concat(Fh,Fl);
式中,Fh为高频融合特征,Fl为低频融合特征,Fend为高频融合特征Fh与低频融合特征Fl融合后的最终特征;
所述通过ECA模块使最终特征Fend实现高频-低频信息跨通道交互融合的公式为:
ω=ρ(C1Dk(Fend));
式中,ω为高频-低频融合特征,ρ为Sigmod激活函数,C1D为1D卷积。
第二方面,本发明提供一种融合全局和局部信息的多模态遥感数据分类装置,包括:
获取数据模块,用于获取待分类的多模态遥感数据集,并输入至预先训练好的多模态遥感数据分类模型;
输出结果模块,用于所述多模态遥感数据分类模型基于所述待分类的多模态遥感数据集,输出多模态遥感数据分类结果;
所述多模态遥感数据分类模型的训练方法包括:
获取原始高光谱遥感数据和LiDAR数据,对原始高光谱遥感数据进行降维处理,获取低维高光谱特征;
根据确定的训练样本数目,从低维高光谱特征和LiDAR数据中随机筛选出训练集和测试集,搭建初始多模态遥感数据分类模型,并设置多模态遥感数据分类模型的迭代次数和参数;
将低维高光谱特征和LiDAR数据进行多尺度信息融合,获取低维高光谱浅层特征和LiDAR数据浅层特征;
通过双分支Transformer-CNN特征提取器,将低维高光谱浅层特征和LiDAR数据浅层特征分别进行全局信息提取和局部信息提取,获取低维高光谱的低频全局特征和高频局部特征以及LiDAR数据的低频全局特征和高频局部特征;
通过ECA模块融合低维高光谱的低频全局特征和高频局部特征以及LiDAR数据的低频全局特征和高频局部特征,利用训练集循环训练初始多模态遥感数据分类模型;当达到最大迭代次数时,获取最终的多模态遥感数据分类模型。
第三方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如第一方面任一项所述的融合全局和局部信息的多模态遥感数据分类方法。
第四方面,本发明提供一种设备,包括:
存储器,用于存储指令;
处理器,用于执行所述指令,使得所述设备执行实现如第一方面任一项所述的融合全局和局部信息的多模态遥感数据分类方法的操作。
与现有技术相比,本发明所达到的有益效果:
本发明公开了一种融合全局和局部信息的多模态遥感数据分类方法,通过特征解耦的方式将多模态信息分解为共有信息和特有信息,实现多模态信息融合,充分挖掘多模态遥感数据的特征,训练最优多模态遥感数据分类模型,再将获取的待分类多模态遥感数据集输入至预先训练好的多模态遥感数据分类模型;所述多模态遥感数据分类模型基于所述待分类多模态遥感数据集,输出多模态遥感数据分类结果,为深度学习的分类模型提供有效特征支持,并以此实现更准确的图像分类。
附图说明
图1是本发明实施例一提供的一种融合全局和局部信息的多模态遥感数据分类方法的流程图一;
图2是本发明实施例一提供的一种融合全局和局部信息的多模态遥感数据分类方法的流程图二;
图3是本发明实施例二提供的Houston2013高光谱图像;
图4是本发明实施例二提供的Houston2013 LiDAR图像;
图5是本发明实施例二提供的Houston2013高光谱图像真实地物类型示意图;
图6是本发明实施例二提供的对比例HRWN选取的样本下模型的分类结果示意图;
图7是本发明实施例二提供的对比例EndNet选取的样本下模型的分类结果示意图;
图8是本发明实施例二提供的对比例AM3Net选取的样本下模型的分类结果示意图;
图9是本发明实施例二提供的对比例MFT选取的样本下模型的分类结果示意图;
图10是本发明实施例二提供的对比例MAHiDFNet选取的样本下模型的分类结果示意图;
图11是本发明实施例二提供的对比例CGLFN选取的样本下模型的分类结果示意图。
具体实施方式
下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符"/",一般表示前后关联对象是一种“或”的关系。
实施例一:
如图1~图2所示,本实施例提供了一种融合全局和局部信息的多模态遥感数据分类方法,包括如下步骤:
步骤一:获取原始高光谱遥感数据和LiDAR数据,利用PCA对原始高光谱遥感数据进行降维处理,获取低维高光谱特征;
步骤二:根据确定的训练样本数目和高光谱遥感图像的地面真值,从低维高光谱特征和LiDAR数据中随机筛选出训练集X和测试集Y,搭建初始多模态遥感数据分类模型,并设置多模态遥感数据分类模型的最大迭代次数λ和参数σ;
步骤三:将低维高光谱特征H和LiDARL分别利用多尺度融合模块进行多尺度信息融合,以此获取获得低维高光谱浅层特征H1和LiDAR数据浅层特征L1
将高光谱遥感图像H和LiDAR L分别通过3×3、5×5和7×7卷积操作,获取多尺度信息H3×3、H5×5、H7×7、L3×3、L5×5和L7×7。同时,特征相邻通道存在相似性,以及光谱维度是连续的。以高光谱遥感图像H为例,按通道维度,融合三个尺度特征,叠加输入相对应的第j维度,获得叠加特征公式为:
式中,Fc为多尺度空谱特征,k为特征维数,Concat为通道叠加,i为多尺度操作,为叠加特征,j为维度数。
的通道维度执行元素相加、元素平均和元素最大化,以生成表示不同处理方法和属性的三个特征图/>和/>通过这种方式,进一步强调通道特征,具体公式如下:
式中,为对/>的通道维度执行元素最大化生成的特征图,/>为对/>的通道维度执行元素平均生成的特征图,/>为对/>的通道维度执行元素相加生成的特征图。
和/>叠加,进一步通过3×3卷积融合多尺度特征,具体公式如下:
式中,Fj为将和/>叠加并通过卷积融合的特征。
将基于多尺度的三个尺度的k组的特征图级联,以获得最终的具有维度k的低维浅层特征H1,具体公式为:
式中,H1为具有维度k的低维高光谱浅层特征。
同理,按上述过程获取具有维度k的低维LiDAR浅层特征L1
步骤四:通过双分支Transformer-CNN特征提取器,将低维高光谱浅层特征H1和LiDAR数据浅层特征L1同时输入至SIM-Transformer模块和Invertible Neural Network(INN)模块学习,分别进行全局信息提取和局部信息提取,得到高光谱遥感图像的高频局部特征Hh和低频全局特征Hl,以及LiDAR的高频局部特征Lh和低频全局特征Ll
具体步骤包括:
将获取到的浅层特征H1通过线性映射F(·)投影到D维嵌入中。引入可学习的cls嵌入令牌xcls,并将其放在输入序列嵌入的开始。同时,将位置信息嵌入Ep添加到输入序列嵌入,以获得z0作为第一层SIM-Transformer的输入,则:
式中,z0为第一层SIM-Transformer的输入,xcls为可学习的cls嵌入令牌,F(·)为线性映射,Ep为位置信息嵌入,为浅层特征H1中patch的第N个位置令牌,N是patch数。
SIM-Transformer特征提取器具有L层SIM-Transformer,每层SIM-Transformer由一个多头自注意模块和一个全连接层的前馈神经网络构成。第l个SIM-Transformer计算如下:
z′l=LN(MSA(zl-1)+zl-1)
zl=LN(FFN(z′l)+z′l);
式中,LN(·)为层归一化,FFN为前馈神经网络,MSA为多头注意力机制,z′l为第l个SIM-Transformer的中间特征,zl为第l个SIM-Transformer。
虽然Transformer能够实现较好的分类结果,因其利用自注意力机制拥有全局感受野,但容易忽视patch之间的空间关系,这不利于获取具有判别性的pach。因此,引入结构信息学习,将对象空间上下文信息纳入Transformer中,假设Transformer层有H层,Q和K是D维所有令牌的维度查询和密钥向量,具体公式如下:
式中,h=1,2,...,H和N=NH×NW是patch数,D为维度,Q是D维所有令牌的维度查询,K是D维所有令牌的密钥向量,softmax(.)为激活函数,归一化令牌,KT表示为K的转置。
提取patch到令牌和每个头部的cls令牌之间的注意力权重,表示为相应的总注意力权重计算如下:
式中,A为相应的总注意力权重,为patch到令牌和每个头部的cls令牌之间的注意力权重。
权重是在(x,y)位置的patch令牌和cls令牌之间关系,表示为A(x,y)。对于不重要patch进行过滤,设置为阈值,新的注意力权重如下:
式中,为新的注意力权重,A(x,y)为在(x,y)位置的patch令牌和cls令牌之间的关系权重,/>为阈值。
具有最高关注权重的patch视为最具判别力的patch,设置为参考patch。给定参考和水平参考方向,其中(x0,y0)是NH×NW平面的索引,patchPx,y的极坐标定义为:
式中,ρx,y是P0与Px,y的相对距离,θx,y是相对于水平方向的归一化极角,NH为patch的长,NW为patch的宽,(x0,y0)为NH×NW平面的索引,x为NH×NW平面的横坐标位置,y为NH×NW平面的纵坐标位置。
因此,结构特征通过两层图卷积获得:
S=σ(Adj×σ(Adj×X×W1)×W2);
式中,S为结构特征,W1和W2为可学习参数,σ为Sigmod激活函数,Adj=Anew×(Anew)T为基于Anew的节点之间的边权重,X为patch节点特征。
与SIM-Transformer相反,考虑到边缘纹理信息在分类任务中也很重要。
因此,INN通过输入和输出能相互生成来确保输入信息被尽可能保留,具体过程为用INN搭配Afiine Coupling层,每个可逆层的变化如下:
式中,⊙为Hadamard乘积,为第k个可逆层的输入特征的第1到第c个通道,k=1,...,K,ψi是任意映射函数,不影响可逆层的无损信息传输,i=1,...,3,C为局部特征的通道数。
考虑到计算消耗和特征提取能力之间的权衡,使用bottleneck residual block(BRB)作为ψi
步骤五:通过ECA(Efficient Channel Attention)模块融合高光谱遥感图像的高频局部特征Hh和LiDAR的高频局部特征Lh,得到高频融合特征Fh,同时融合高光谱遥感图像的低频全局特征Hl和LiDAR的低频全局特征Ll,得到低频融合特征Fl,再通过ECA模块,将高频-低频信息跨通道交互融合;
在本步骤中,将高频融合特征Fh与低频融合特征Fl融合为最终特征Fend,具体公式为:
Fend=Concat(Fh,Fl);
式中,Fend为高频融合特征Fh与低频融合特征Fl融合后的最终特征。
最终特征Fend通过ECA模块实现高频-低频信息跨通道交互,具体公式为:
ω=ρ(C1Dk(Fend));
式中,ω为高频-低频融合特征,ρ为Sigmod激活函数,C1D为1D卷积。
步骤六:重复步骤三~步骤五,更新多模态遥感数据分类模型与多模态遥感数据分类模型的参数;
步骤七:利用训练集X循环训练初始多模态遥感数据分类模型,当迭代次数为I次时,获取最终的多模态遥感数据分类模型,并通过最终的多模态遥感数据分类模型对待分类的多模态遥感数据集进行最终分类,得到分类结果。
实施例二:
本实施例采用Houston2013数据集由国家机载激光测图中心于2012年6月在休斯顿大学校园和附近市区拍摄,获取该地区的高光谱和基于DSM的LiDSM,作为2013年GRSS数据融合大赛的数据集。图3展示了Houston2013数据集的高光谱图像,波段范围为0.38到1.05纳米的144个波段。图4展示了Houston2013数据集的基于DSM的LiDAR,空间尺寸为349×1905个像素,地面采样距离为2.5米。图5展示了真实地物类型,包含15个地物类别,标注15029个样本作为地面真值。多模态融合分类对比实验分别采用分层随机游动网络(HRWN),EndNet,自适应互学习网络(AM3Net),多模态融合Transformer(MFT),多注意层次融合网络(MAHiDFNet)和本发明的采样方法(CGLFN)对实施例中Houston2013数据集的高光谱和LiDAR数据融合进行图像分类。
网络学习设置如下:从15类中每类选取20个样本作为训练集Dtr,剩下的样本作为测试集Dte。迭代次数I设置为80。在此条件下,进行了10次重复实验,计算求取平均值,其分类准确率如表1所示。
表1Houston2013数据集图像分类准确率对比
Houton2013数据集包含15种类型的地面物体,一些区域被云和雾遮挡,导致场景复杂度很高。从表1可知,注意力机制对特征级融合有积极影响,如MAHiDFNet和MFT比决策级融合方法表现更好。合适的决策级融合策略优于仅提取一种深度特征EndNet,这表明更多目标特征提取的重要性。相比之下,本发明取得了最好的分类结果。本发明主要通过分层提取各个模态的特征信息,如有物理含义的高亮区域和纹理细节,以及全局语义信息,有效筛选出信息丰富的模态特征,并将提取到的多模态特征进行交互融合,为深度学习分类模型提供高质量的样本特征,从而提高分类性能。
为了可视化分类结果,图6~图10分别展示了HRWN、EndNet、AM3Net、MFT和MAHiDFNet的分类结果图,图11展示了本发明的分类结果图。可以直观看出,在本发明的选取多模态数据的共有特征和独有特征下,分类模型能够精确识别样本所属的地物类别。
以上证实了本发明在多模态数据融合分类上的可行性。本发明大幅度降低了遥感图像领域中深度学习模型对于训练数据的需求,使得在少量训练数据条件下,深度学习模型提取多模态数据的共有特征和独有特征也能发挥出优秀的性能,有效提升高光谱图像分类准确率。
实施例三:
与实施例一基于相同的发明构思,本实施例介绍一种融合全局和局部信息的多模态遥感数据分类装置,包括:
获取数据模块,用于获取待分类的多模态遥感数据集,并输入至预先训练好的多模态遥感数据分类模型;
输出结果模块,用于所述多模态遥感数据分类模型基于所述待分类的多模态遥感数据集,输出多模态遥感数据分类结果;
所述多模态遥感数据分类模型的训练方法包括:
获取原始高光谱遥感数据和LiDAR数据,对原始高光谱遥感数据进行降维处理,获取低维高光谱特征;
根据确定的训练样本数目,从低维高光谱特征和LiDAR数据中随机筛选出训练集和测试集,搭建初始多模态遥感数据分类模型,并设置多模态遥感数据分类模型的迭代次数和参数;
将低维高光谱特征和LiDAR数据进行多尺度信息融合,获取低维高光谱浅层特征和LiDAR数据浅层特征;
通过双分支Transformer-CNN特征提取器,将低维高光谱浅层特征和LiDAR数据浅层特征分别进行全局信息提取和局部信息提取,获取低维高光谱的低频全局特征和高频局部特征以及LiDAR数据的低频全局特征和高频局部特征;
通过ECA模块融合低维高光谱的低频全局特征和高频局部特征以及LiDAR数据的低频全局特征和高频局部特征,利用训练集循环训练初始多模态遥感数据分类模型;当达到最大迭代次数时,获取最终的多模态遥感数据分类模型。
上述各模块的具体功能实现参考实施例一方法中的相关内容,不予赘述。
实施例四:
与其它实施例基于相同的发明构思,本实施例介绍一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如实施例一中任一所述的融合全局和局部信息的多模态遥感数据分类方法。
实施例五:
与其它实施例基于相同的发明构思,本实施例介绍一种设备,包括:
存储器,用于存储指令;
处理器,用于执行所述指令,使得所述设备执行实现如实施例一任一项所述的融合全局和局部信息的多模态遥感数据分类方法的操作。
综上实施例,本发明提供了一种融合全局和局部信息的多模态遥感数据分类方法,通过构建分类模型得到融合多模态数据的空谱特征表示,通过设计多模态特征分解和特征融合结构,挖掘多模态数据之间的关系,为深度学习的分类模型提供有效特征支持。本发明通过特征解耦的方式将多模态信息分解为共有信息和特有信息,实现多模态信息融合,充分挖掘多模态遥感数据的特征,以此实现更准确的图像分类,多模态数据分类结果准确率可达到95.76%。并且在实施例二中的实验结果表明,在公开的高光谱分类数据集上,随机选取每类20个标记样本,分类模型的总体精度为95.32%。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (9)

1.一种融合全局和局部信息的多模态遥感数据分类方法,其特征在于,包括:
获取待分类的多模态遥感数据集,并输入至预先训练好的多模态遥感数据分类模型;
所述多模态遥感数据分类模型基于所述待分类的多模态遥感数据集,输出多模态遥感数据分类结果;
所述多模态遥感数据分类模型的训练方法包括:
获取原始高光谱遥感数据和LiDAR数据,对原始高光谱遥感数据进行降维处理,获取低维高光谱特征;
根据确定的训练样本数目,从低维高光谱特征和LiDAR数据中随机筛选出训练集和测试集,搭建初始多模态遥感数据分类模型,并设置多模态遥感数据分类模型的迭代次数和参数;
将低维高光谱特征和LiDAR数据进行多尺度信息融合,获取低维高光谱浅层特征和LiDAR数据浅层特征;
通过双分支Transformer-CNN特征提取器,将低维高光谱浅层特征和LiDAR数据浅层特征分别进行全局信息提取和局部信息提取,获取低维高光谱的低频全局特征和高频局部特征以及LiDAR数据的低频全局特征和高频局部特征;
通过ECA模块融合低维高光谱的低频全局特征和高频局部特征以及LiDAR数据的低频全局特征和高频局部特征,利用训练集循环训练初始多模态遥感数据分类模型;当达到最大迭代次数时,获取最终的多模态遥感数据分类模型。
2.根据权利要求1所述的融合全局和局部信息的多模态遥感数据分类方法,其特征在于,所述双分支Transformer-CNN特征提取器包括SIM-Transformer模块和INN模块,其中,SIM-Transformer模块用于利用结构信息建模学习处理低频全局特征,INN模块用于提取高频局部特征。
3.根据权利要求2所述的融合全局和局部信息的多模态遥感数据分类方法,其特征在于,所述将低维高光谱特征和LiDAR数据进行多尺度信息融合,获取低维高光谱浅层特征和LiDAR数据浅层特征,包括:
将高光谱遥感图像H和LiDAR L分别通过3×3、5×5和7×7卷积操作,获取多尺度信息H3×3、H5×5、H7×7、L3×3、L5×5和L7×7;按通道维度,融合三个尺度特征,叠加输入相对应的第j维度,获得叠加特征公式为:
式中,Fc为多尺度空谱特征,k为特征维数,Concat为通道叠加,i为多尺度操作,为叠加特征,j为维度数;
的通道维度执行元素相加、元素平均和元素最大化,以生成表示不同处理方法和属性的三个特征图/>和/>公式为:
式中,为对/>的通道维度执行元素最大化生成的特征图,/>为对/>的通道维度执行元素平均生成的特征图,/>为对/>的通道维度执行元素相加生成的特征图;
和/>叠加,进一步通过3×3卷积融合多尺度特征,公式为:
式中,Fj为将和/>叠加并通过卷积融合的特征;
将基于多尺度的三个尺度的k组的特征图级联,以获得最终的具有维度k的低维浅层特征,公式为:
式中,H1为具有维度k的低维高光谱浅层特征。
4.根据权利要求3所述的融合全局和局部信息的多模态遥感数据分类方法,其特征在于,所述通过双分支Transformer-CNN特征提取器,将低维高光谱浅层特征和LiDAR数据浅层特征分别进行全局信息提取和局部信息提取,获取低维高光谱的低频全局特征和高频局部特征以及LiDAR数据的低频全局特征和高频局部特征,包括:
将获取到的浅层特征通过线性映射投影到D维嵌入中,引入可学习的cls嵌入令牌,并将其放在输入序列嵌入的开始,将位置信息嵌入添加到输入序列嵌入,以获得第一层SIM-Transformer的输入,则:
式中,z0为第一层SIM-Transformer的输入,xcls为可学习的cls嵌入令牌,F(·)为线性映射,Ep为位置信息嵌入, 为浅层特征H1中patch的第N个位置令牌,N是patch数;
则第l个SIM-Transformer的公式为:
z′l=LN(MSA(zl-1)+zl-1)
zl=LN(FFN(zl)+z′l);
式中,LN(·)为层归一化,FFN为前馈神经网络,MSA为多头注意力机制,zl为第l个SIM-Transformer的全局特征,z;l为第l个SIM-Transformer的中间特征。
引入结构信息学习,将对象空间上下文信息纳入Transformer中,假设Transformer层有H层,Q和K是D维所有令牌的维度查询和密钥向量,具体公式如下:
式中,和N=NH×NW是patch数,D为维度,Q是D维所有令牌的维度查询,K是D维所有令牌的密钥向量,softmax(.)为激活函数,归一化令牌,KT表示为K的转置;
提取patch到令牌和每个头部的cls令牌之间的注意力权重,表示为相应的总注意力权重计算为:
式中,A为相应的总注意力权重,为patch到令牌和每个头部的cls令牌之间的注意力权重;
对于不重要patch进行过滤,设置为阈值,新的注意力权重为:
式中,为新的注意力权重,A(x,y)为在(x,y)位置的patch令牌和cls令牌之间的关系权重,/>为阈值。
具有最高关注权重的patch视为最具判别力的patch,设置为参考patch,给定参考patch P0=Px0,y0和水平参考方向,patchPx,y的极坐标定义为:
式中,ρx,y是P0与Px,y的相对距离,θx,y是相对于水平方向的归一化极角,NH为patch的长,NW为patch的高,(x0,y0)是NH×NW平面的索引,x为NH×NW平面的横坐标位置,.y为NH×NW平面的纵坐标位置;
因此,结构特征通过两层图卷积获得:
S=σ(Adj×σ(Adj×X×W1)×W2);
式中,S为结构特征,W1和W2为可学习参数,σ为激活函数,Adj=Anew×(Anew)T为基于Anew的节点之间的边权重,X为patch节点特征;
用INN搭配Afiine Coupling层,每个可逆层的变化为:
式中,⊙为Hadamard乘积,为第k个可逆层的输入特征的第1到第c个通道,k=1,...,K,ψi是任意映射函数,不影响可逆层的无损信息传输,i=1,...,3,C为局部特征的通道数。
5.根据权利要求4所述的融合全局和局部信息的多模态遥感数据分类方法,其特征在于,所述通过ECA模块融合低维高光谱的低频全局特征和高频局部特征以及LiDAR数据的低频全局特征和高频局部特征,包括:
通过ECA模块融合高光谱遥感图像的高频局部特征Hh和LiDAR的高频局部特征Lh,得到高频融合特征Fh
融合高光谱遥感图像的低频全局特征Hl和LiDAR的低频全局特征Ll,得到低频融合特征Fl
将高频融合特征Fh与低频融合特征Fl融合为最终特征Fend
通过ECA模块使最终特征Fend实现高频-低频信息跨通道交互融合。
6.根据权利要求5所述的融合全局和局部信息的多模态遥感数据分类方法,其特征在于,所述最终特征Fend的公式为:
Fend=Concat(Fh,Fl);
式中,Fh为高频融合特征,Fl为低频融合特征,Fend为高频融合特征Fh与低频融合特征Fl融合后的最终特征;
所述通过ECA模块使最终特征Fend实现高频-低频信息跨通道交互融合的公式为:
ω=ρ(C1Dk(Fend));
式中,ω为高频-低频融合特征,ρ为Sigmod激活函数,C1D为1D卷积。
7.一种融合全局和局部信息的多模态遥感数据分类装置,其特征在于,包括:
获取数据模块,用于获取待分类的多模态遥感数据集,并输入至预先训练好的多模态遥感数据分类模型;
输出结果模块,用于所述多模态遥感数据分类模型基于所述待分类的多模态遥感数据集,输出多模态遥感数据分类结果;
所述多模态遥感数据分类模型的训练方法包括:
获取原始高光谱遥感数据和LiDAR数据,对原始高光谱遥感数据进行降维处理,获取低维高光谱特征;
根据确定的训练样本数目,从低维高光谱特征和LiDAR数据中随机筛选出训练集和测试集,搭建初始多模态遥感数据分类模型,并设置多模态遥感数据分类模型的迭代次数和参数;
将低维高光谱特征和LiDAR数据进行多尺度信息融合,获取低维高光谱浅层特征和LiDAR数据浅层特征;
通过双分支Transformer-CNN特征提取器,将低维高光谱浅层特征和LiDAR数据浅层特征分别进行全局信息提取和局部信息提取,获取低维高光谱的低频全局特征和高频局部特征以及LiDAR数据的低频全局特征和高频局部特征;
通过ECA模块融合低维高光谱的低频全局特征和高频局部特征以及LiDAR数据的低频全局特征和高频局部特征,利用训练集循环训练初始多模态遥感数据分类模型;当达到最大迭代次数时,获取最终的多模态遥感数据分类模型。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现如权利要求1-6中任一项所述的融合全局和局部信息的多模态遥感数据分类方法。
9.一种设备,其特征在于,包括:
存储器,用于存储指令;
处理器,用于执行所述指令,使得所述设备执行实现如权利要求1-6任一项所述的融合全局和局部信息的多模态遥感数据分类方法的操作。
CN202311056294.5A 2023-08-22 2023-08-22 一种融合全局和局部信息的多模态遥感数据分类方法 Pending CN116863247A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311056294.5A CN116863247A (zh) 2023-08-22 2023-08-22 一种融合全局和局部信息的多模态遥感数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311056294.5A CN116863247A (zh) 2023-08-22 2023-08-22 一种融合全局和局部信息的多模态遥感数据分类方法

Publications (1)

Publication Number Publication Date
CN116863247A true CN116863247A (zh) 2023-10-10

Family

ID=88227126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311056294.5A Pending CN116863247A (zh) 2023-08-22 2023-08-22 一种融合全局和局部信息的多模态遥感数据分类方法

Country Status (1)

Country Link
CN (1) CN116863247A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117876890A (zh) * 2024-03-11 2024-04-12 成都信息工程大学 一种基于多级特征融合的多源遥感图像分类方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117876890A (zh) * 2024-03-11 2024-04-12 成都信息工程大学 一种基于多级特征融合的多源遥感图像分类方法
CN117876890B (zh) * 2024-03-11 2024-05-07 成都信息工程大学 一种基于多级特征融合的多源遥感图像分类方法

Similar Documents

Publication Publication Date Title
Zhu et al. Deep learning meets SAR: Concepts, models, pitfalls, and perspectives
Zhang et al. Artificial intelligence for remote sensing data analysis: A review of challenges and opportunities
CN110348399B (zh) 基于原型学习机制和多维残差网络的高光谱智能分类方法
WO2018010434A1 (zh) 一种图像分类方法及装置
CN107145836B (zh) 基于栈式边界辨别自编码器的高光谱图像分类方法
CN102750385B (zh) 基于标签检索的相关性—质量排序图像检索方法
CN109766858A (zh) 结合双边滤波的三维卷积神经网络高光谱影像分类方法
Lv et al. Deep learning model of image classification using machine learning
Liu et al. Adaptive deep pyramid matching for remote sensing scene classification
Ünsalan et al. Multispectral satellite image understanding: from land classification to building and road detection
CN115205590A (zh) 一种基于互补集成Transformer网络的高光谱图像分类方法
CN116863247A (zh) 一种融合全局和局部信息的多模态遥感数据分类方法
Diakite et al. Hyperspectral image classification using 3D 2D CNN
CN117315381B (zh) 一种基于二阶有偏随机游走的高光谱图像分类方法
CN111639697B (zh) 基于非重复采样与原型网络的高光谱图像分类方法
Yuan et al. Few-shot scene classification with multi-attention deepemd network in remote sensing
Chen et al. Image classification based on convolutional denoising sparse autoencoder
CN113935433B (zh) 基于深度光谱空间倒残差网络的高光谱图像分类方法
CN115861076A (zh) 基于矩阵分解网络的无监督高光谱图像超分辨率方法
CN111680579A (zh) 一种自适应权重多视角度量学习的遥感图像分类方法
CN108460326A (zh) 一种基于稀疏表达图的高光谱图像半监督分类方法
Wang et al. Spectral-spatial global graph reasoning for hyperspectral image classification
Li et al. Adaptive mask sampling and manifold to Euclidean subspace learning with distance covariance representation for hyperspectral image classification
CN117292274B (zh) 基于深度语义字典零次学习的高光谱湿地图像分类方法
Wang Remote sensing image semantic segmentation algorithm based on improved ENet network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination