CN105046286A - 基于自动视图生成和联合l1,2范数最小化的监督多视图特征选择方法 - Google Patents

基于自动视图生成和联合l1,2范数最小化的监督多视图特征选择方法 Download PDF

Info

Publication number
CN105046286A
CN105046286A CN201510546954.7A CN201510546954A CN105046286A CN 105046286 A CN105046286 A CN 105046286A CN 201510546954 A CN201510546954 A CN 201510546954A CN 105046286 A CN105046286 A CN 105046286A
Authority
CN
China
Prior art keywords
feature
multi views
vector
remote sensing
view
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510546954.7A
Other languages
English (en)
Other versions
CN105046286B (zh
Inventor
陈曦
张钧萍
张晔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201510546954.7A priority Critical patent/CN105046286B/zh
Publication of CN105046286A publication Critical patent/CN105046286A/zh
Application granted granted Critical
Publication of CN105046286B publication Critical patent/CN105046286B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

基于自动视图生成和联合l1,2范数最小化的监督多视图特征选择方法,属于遥感图像数据处理技术领域。本发明是为了解决高分辨率遥感图像在特征选择过程中存在的信息丢失的问题。它包括三个步骤:一、采集遥感图像数据,对遥感图像数据进行预处理;然后进行特征提取,获得特征向量集合;再将特征向量集合中所有特征向量归一化,获得原始特征向量集合;二、采用affinity?propagation算法将步骤一中获得的原始特征向量集合生成特征多视图;三、基于l1,2范数对步骤二中生成的特征多视图进行监督多视图特征选择。本发明为一种监督多视图特征选择方法。

Description

基于自动视图生成和联合l1,2范数最小化的监督多视图特征选择方法
技术领域
本发明涉及基于自动视图生成和联合l1,2范数最小化的监督多视图特征选择方法,属于遥感图像数据处理技术领域。
背景技术
随着成像技术的发展,遥感图像应用越来越广泛,例如灾害和环境等的勘察与检测、基础地理数据的更新等很多的领域。这些遥感图像可提取的特征很多,高维特征给遥感图像的应用带来两大挑战:第一个是高维特征将引发维数灾难。该问题可以用特征选择方法解决,该方法也受到越来越多的关注。随机森林将特征选择和分类绑定在一起,可以用于滑坡制图。局部加权判别投影可以处理类别不平衡问题对分类和特征选择的潜在威胁。这些特征选择方法是面向高分辨率遥感影像的,取得了较好的效果。相对于面向高光谱影像的方法,面向高分辨率遥感影像的特征选择方法数量较少。
第二个问题是特征空间实际上由异质的特征子空间组成。该异质性增加了探索特征空间的复杂性。该特征空间的异质性未知,且常常被现有的特征选择方法所忽略。在其他领域,如超光谱图像处理中可以采用多视图学习方法探索异质的特征空间。多视图方法比传统的单视图方法更好。其原因是可以在不同的视图中利用互补性的信息。
为了在降维的同时探索异质的特征空间,有必要发展多视图特征选择方法。目前,模型遥感图像的多视图特征选择方法不多。无监督多视图特征选择方法(Unsupervisedmultiviewfeatureselection,MVFS)面向社交媒体数据,定义了面向多视图数据的特征选择方法。还可以基于分布式编码方法,提出面向多视图图像数据集的识别和索引任务的无监督特征选择方法。自适应无监督多视图特征选择AdaptiveUnsupervisedMulti-viewFeatureSelection(AUMFS)基于l2,1范数惩罚项,将数据聚类空间、数据相似性和不同视图之间的相关性联合起来选择特征。基于张量的多视图特征选择方法Tensor-basedmulti-viewfeatureselection(DUAL-TMFS)是一个针对大脑疾病的封装器模型,该模型基于SVM-RFE在张量空间中求解一个整数二次规划问题。面向多视图迁移学习的判别式特征选择方法DIscriminativefeatureSelectionforMUlti-ViewTransferlEarning(DISMUTE)基于l2,1范数,利用数据的多视图信息的同时,提取代表性的跨领域特征以增强无监督学习的性能。这些方法中,特征的结构相对简单,或者特征视图天然可用。
这些方法可能不适于高分辨率遥感图像,因为高分辨率遥感图像的特征非常复杂。例如,谱特征的均值与灰度共生矩阵GrayLevelCo-occurrenceMatrix(GLCM)纹理特征中的均值很相似,与光谱特征中的方差不相似。实际上,特征基于它们的定义相似,而不是基于它们的简单分类,如光谱、纹理和形状。该例子还告诉我们两个教训:1)特征复杂关联;2)特征的不同视图表达了不同的信息,可能在不同方向起作用。因此,1)视图应该自适应地产生;2)为了用尽可能少的特征保留信息,应该在每个视图中都保留少数特征。有三种方法可以用于第一点的视图生成。第一是随机子空间方法。该方法难以产生满意的结果。第二是重构和分解原始的单视图成多视图,如矩阵分解和核函数法。第三是特征集合自动分割。第三种方法一般与固定分类器或者视图数量的先验知识有关。
第二点与几个最新的方法有关。组套索Grouplasso采用l2,1范数正则化在组层面而不是个体层面上稀疏。稀疏组套索Sparsegrouplasso在grouplasso上加了一个l1范数最小化,使得组和个体层面上都稀疏。相对于l2,1范数,l1,2范数能带来组内稀疏。因此,l1,2范数更适合多视图问题。在有序子空间聚类OrderedSubspaceClustering中,在视频数据的重构误差项上加上l1,2约束,其他项采用Frobenius范数或者1范数。排他式组套索Exclusivegrouplasso在正则化项上采用l1,2最小化,在损失函数上l2范数最小化。采用l2范数或者Frobenius范数最小化的项容易受噪声干扰。
2、特征空间的复杂性增加了算法应用的难度。第一个问题可以通过特征选择方法自动选择特征解决,如ReliefF和mRMR等。最近兴起的基于l2,1范数正则化的最优化特征选择方法,如mcLogisticC产生了比传统特征选择方法更好的性能。第二个问题在算法应用中常常提及,但是很少针对性地探索特征空间的同质性和异质性,并充分利用该特性选择特征。
发明内容
本发明目的是为了解决高分辨率遥感图像在特征选择过程中存在的信息丢失的问题,提供了一种基于自动视图生成和联合l1,2范数最小化的监督多视图特征选择方法。
本发明所述基于自动视图生成和联合l1,2范数最小化的监督多视图特征选择方法,它包括以下步骤:
步骤一:采集遥感图像数据,对遥感图像数据进行预处理;然后进行特征提取,获得特征向量集合;再将特征向量集合中所有特征向量归一化,获得原始特征向量集合;
步骤二:采用affinitypropagation算法将步骤一中获得的原始特征向量集合生成特征多视图;
步骤三:基于l1,2范数对步骤二中生成的特征多视图进行监督多视图特征选择。
步骤一中所述对遥感图像数据进行预处理包括对遥感图像数据依次进行几何精校正与图像配准、图像镶嵌与裁剪、大气校正和坏带去除。
步骤一中所述获得特征向量集合的具体方法为:提取预处理后的遥感图像数据的特征值获得特征数据,所有特征数据由m维特征空间中的n个样本xi组成,特征数据记为其中样本yi是xi的标记,yi∈{1,...,c},c是类别数量;将n个样本xi的行向量记为样本集X:样本集X对应的标记向量为y,将n个样本xi的列向量形成的m个特征向量记为X=[f1,f2,...,fm],且
步骤一中获得原始特征向量集合的方法为:将特征数据中所有特征值映射到[0-1]之间,获得原始特征向量集合。
步骤二中生成特征多视图的方法为:利用affinitypropagation算法,度量特征向量fi和fj之间的相似性S(i,j):S(i,j)=-‖fi-fj2,其中j=1,2,3……n;
再根据fi和fj之间的相似性S(i,j)计算获得自相似性S(t,t):
S ( t , t ) = Σ i , j = 1 , i ≠ j n S ( i , j ) n × ( n - 1 ) ,
其中1≤t≤n;
特征向量fi发送响应r(i,j)给fj,fj发送可用性a(i,j)给fi,其中r(i,j)为:
r ( i , j ) = s ( i , j ) - max j ′ ≠ j { a ( i , j ′ ) + s ( i , j ′ ) } , j'=1,2,3……n;
a(i,j)为:
a ( i , j ) ← min { 0 , r ( j , j ) + Σ i ′ ≠ i , j max { 0 , r ( i ′ , j ) } } , i ≠ j Σ i ′ ≠ i max { 0 , r ( i ′ , j ) } , i = j ,
由响应r(i,j)和可用性a(i,j)获得特征值聚类中心:
arg max k { r ( i , k ) + a ( i , k ) } ,
式中k=1,2,3……n;
根据特征值聚类中心对原始特征向量集合中所有特征向量进行聚类生成特征多视图,该多视图包括L个特征子集,令Fl为第l个特征子集,其中每个视图对应一个特征子集,每个特征子集对应不同的数据特点,l=1,2,3……L。
步骤三中进行监督多视图特征选择的具体方法为:
确定监督多视图特征选择的目标函数为:
式中特征选择的系数矢量β为:β=[β12,...,βL],βl为特征子集Fl所对应的系数矢量,λ1为正则化参数,
令E=y-Xβ,使则监督多视图特征选择的问题变形为:
m i n | | β | | 1 , 2 2 + | | E | | 1 , 2 2 s . t . y - X β = λ 1 E ,
再将上式变形为:
m i n | | β | | 1 , 2 2 + | | E | | 1 , 2 2 s . t . X λ 1 I β E = y ,
U = β E , A=[Xλ1I],其中I是单位阵,则获得:
min U | | U | | 1 , 2 2 s . t . A U = y ;
令V是一个各元素都为正数的矢量,则获得: min U Σ l = 1 L | | Σ i V l i | | 2 2 s . t . A U = y U ≤ V - U ≤ V ;
再对上式进行变形获得最终的监督多视图特征选择的目标函数及其约束为:
s . t . A U V = y 0
V≥0
式中,1是一个各个元素都为1的矩阵,其下标表示特征视图的序号;取U的前m行作为多视图特征所对应的系数矢量β,根据β的大小选择遥感图像数据多视图的最佳特征。
本发明的优点:本发明涉及到遥感图像特征空间的同质性和异质性构成,并通过深入分析特征空间的构成选择少量互补性强的特征。它针对遥感图像特征空间的同质性和异质性,提出了基于l1,2范数最小化的监督多视图特征选择方法,将特征空间自动分解为多个不独立相交但有物理意义的异质特征子空间,即特征视图,然后在每个视图中选择最能代表该视图的少量同质特征,以在降低特征冗余性的同时克服可能引起信息丢失的弊端,使不同子空间选出的特征互补性强,最好地表征原始特征空间的特性。
本发明通过近邻传播affinitypropagation算法生成多个不独立相交但有物理意义的异质子空间或特征视图,在保证特征空间显著特点的同时,提升了整体性能。
附图说明
图1是本发明方法的流程图;
图2是基于监督多视图特征选择的特征空间同质性和异质性分析方法原理框图;
图3a为针对悉尼图像采用SVM时的总体分类精度随特征数量的变化曲线;
图3b为针对悉尼图像采用SVM时的Kappa系数随特征数量的变化曲线;
图3c为针对悉尼图像采用Bayes分类器时的总体分类精度随特征数量的变化曲线;
图3d为针对悉尼图像采用Bayes分类器时Kappa系数随特征数量的变化曲线;
图4a为针对旧金山图像采用SVM时的总体分类精度随特征数量的变化曲线;
图4b为针对旧金山图像采用SVM时的Kappa系数随特征数量的变化曲线;
图4c为针对旧金山图像采用Bayes分类器时的总体分类精度随特征数量的变化曲线;
图4d为针对旧金山图像采用Bayes分类器时Kappa系数随特征数量的变化曲线;
图5a为针对深圳图像采用SVM时的总体分类精度随特征数量的变化曲线;
图5b为针对深圳图像采用SVM时的Kappa系数随特征数量的变化曲线;
图5c为针对深圳图像采用Bayes分类器时的总体分类精度随特征数量的变化曲线;
图5d为针对深圳图像采用Bayes分类器时Kappa系数随特征数量的变化曲线;
图6a为针对圣克莱门特图像采用SVM时的总体分类精度随特征数量的变化曲线;
图6b为针对圣克莱门特图像采用SVM时的Kappa系数随特征数量的变化曲线;
图6c为针对圣克莱门特图像采用Bayes分类器时的总体分类精度随特征数量的变化曲线;
图6d为针对圣克莱门特图像采用Bayes分类器时Kappa系数随特征数量的变化曲线。
图3-6中的对比方法是最小冗余最大相关性准则(minimal-redundancy-maximal-relevancecriterionwithdifference,缩写为mdRMR),散度(Divergence),谱特征选择(spectralfeatureselectionφ2,缩写为SPEC),这些方法是常用的特征选择方法。基于l2,0范数的最好的k个特征选择方法(top-kfeatureselectionvial2,0-normconstraint,缩写为L2,0)。该方法是最新的组套索特征选择方法。singleviewFS是SMFS的单视图版本,其目标函数最终演化为
具体实施方式
具体实施方式一:下面结合图1和图2说明本实施方式,本实施方式所述基于自动视图生成和联合l1,2范数最小化的监督多视图特征选择方法,它包括以下步骤:
步骤一:采集遥感图像数据,对遥感图像数据进行预处理;然后进行特征提取,获得特征向量集合;再将特征向量集合中所有特征向量归一化,获得原始特征向量集合;
步骤二:采用affinitypropagation算法将步骤一中获得的原始特征向量集合生成特征多视图;
步骤三:基于l1,2范数对步骤二中生成的特征多视图进行监督多视图特征选择。
本实施方式分为三个步骤,一为数据准备;二为视图生成viewgeneration;三为基于l1,2范数最小化的特征选择。具体的步骤如图1所示。
具体实施方式二:下面结合图1和图2说明本实施方式,本实施方式对实施方式一作进一步说明,步骤一中所述对遥感图像数据进行预处理包括对遥感图像数据依次进行几何精校正与图像配准、图像镶嵌与裁剪、大气校正和坏带去除。
本实施方式中主要包括坏带去除和数据变形重组。预处理是遥感应用中非常重要的一步。
具体实施方式三:下面结合图1和图2说明本实施方式,本实施方式对实施方式一或二作进一步说明,步骤一中所述获得特征向量集合的具体方法为:提取预处理后的遥感图像数据的特征值获得特征数据,所有特征数据由m维特征空间中的n个样本xi组成,特征数据记为其中样本yi是xi的标记,yi∈{1,...,c},c是类别数量;将n个样本xi的行向量记为样本集X:样本集X对应的标记向量为y,将n个样本xi的列向量形成的m个特征向量记为X=[f1,f2,...,fm],且
步骤一中获得原始特征向量集合的方法为:将特征数据中所有特征值映射到[0-1]之间,获得原始特征向量集合。
本实施方式中的特征提取是后续处理的基础,不同的遥感图像特征获取方式不同。如高分辨率遥感图像需要先分割图像得到对象,然后提取每个对象的特征值;而高光谱图像的每个波段就可以直接看作特征。最后,所有对象的特征值形成集合样本集也可以写为其对应的类别标记写为y。
特征归一化:不同特征往往具有不同的量纲,量纲的差异会影响数据分析的结果。为了消除量纲影响,需要归一化数据,如将所有特征都映射到[0-1]之间。
具体实施方式四:下面结合图1和图2说明本实施方式,本实施方式对实施方式三作进一步说明,步骤二中生成特征多视图的方法为:利用affinitypropagation算法,度量特征向量fi和fj之间的相似性S(i,j):S(i,j)=-‖fi-fj2其中j=1,2,3……n;
再根据fi和fj之间的相似性S(i,j)计算获得自相似性S(t,t):
S ( t , t ) = Σ i , j = 1 , i ≠ j n S ( i , j ) n × ( n - 1 ) ,
其中1≤t≤n;
特征向量fi发送响应r(i,j)给fj,fj发送可用性a(i,j)给fi,其中r(i,j)为:
r ( i , j ) = s ( i , j ) - max j ′ ≠ j { a ( i , j ′ ) + s ( i , j ′ ) } , j'=1,2,3……n;
a(i,j)为:
a ( i , j ) ← min { 0 , r ( j , j ) + Σ i ′ ≠ i , j max { 0 , r ( i ′ , j ) } } , i ≠ j Σ i ′ ≠ i max { 0 , r ( i ′ , j ) } , i = j ,
由响应r(i,j)和可用性a(i,j)获得特征值聚类中心:
arg max k { r ( i , k ) + a ( i , k ) } ,
式中k=1,2,3……n;
根据特征值聚类中心对原始特征向量集合中所有特征向量进行聚类生成特征多视图,该多视图包括L个特征子集,令Fl为第l个特征子集,其中每个视图对应一个特征子集,每个特征子集对应不同的数据特点,l=1,2,3……L。
基于监督多视图特征选择的特征空间同质性和异质性分析方法主要包括两部分:利用affinitypropagation算法生成多视图;监督多视图特征选择。
视图生成即将原始特征集合分解成多个不连续的组,每个可以看作一个视图。
本实施方式用affinitypropagation算法将遥感图像特征空间自动分解为多个不独立不相交但有物理意义的异质特征子空间,各子空间内部是同质的,由同质特征构成。数据点xi发送响应r(i,j)给xj,反映了xj在多大程度上能代表xi。xj发给xi可用性a(i,j),反映了xi选择xj作为聚类中心的合适程度。视图生成通过对特征向量的聚类生成多个视图,每个视图对应着不同的数据特点。
具体实施方式五:下面结合图1至图6说明本实施方式,本实施方式对实施方式四作进一步说明,步骤三中进行监督多视图特征选择的具体方法为:
确定监督多视图特征选择的目标函数为:
式中特征选择的系数矢量β为:β=[β12,...,βL],βl为特征子集Fl所对应的系数矢量,λ1为正则化参数,
令E=y-Xβ,使则监督多视图特征选择的问题变形为:
m i n | | β | | 1 , 2 2 + | | E | | 1 , 2 2 s . t . y - X β = λ 1 E ,
再将上式变形为:
m i n | | β | | 1 , 2 2 + | | E | | 1 , 2 2 s . t . X λ 1 I β E = y ,
U = β E , A=[Xλ1I]其中I是单位阵,则获得:
min U | | U | | 1 , 2 2 s . t . A U = y ;
令V是一个各元素都为正数的矢量,则获得: min U Σ l = 1 L | | Σ i V l i | | 2 2 s . t . A U = y U ≤ V - U ≤ V ;
再对上式进行变形获得最终的监督多视图特征选择的目标函数及其约束为:
s . t . A U V = y 0
V≥0
式中,1是一个各个元素都为1的矩阵,其下标表示特征视图的序号;
取U的前m行作为多视图特征所对应的系数矢量β,根据β的大小选择遥感图像数据多视图的最佳特征。
令A为一个任意矢量或者矩阵,它的2范数和1范数分别是‖A‖2和‖A‖1,l1,2范数定义为:
| | A | | 1 , 2 2 = Σ i = 1 n ( Σ j ∈ G p | A i j | 2 ) ;
其中,Gp是第p个特征组的索引。在l1,2范数中,l2用在不同的组上,l1范数用来组内特征加和。l1,2范数将迫使大多数类间特征对应的系数为零。
在损失函数和正则化项上都施加l1,2范数可以减少噪声干扰,使得目标函数对噪声不敏感。
上面获得的最终的监督多视图特征选择的目标函数是一个典型的二次规划问题,可以用现有的大多数优化工具箱求解,例如用IBMILOGCPLEXOptimizationStudio求解U。
实验验证:获取四幅图像数据,对其进行实验,对四幅图像采用软件eCognitionDelveloper8中的多尺度分割方法获取图像的对象;其中,参数形状设定为0.1、紧致度设定为0.5和尺度参数在10~100中调节。这些参数可以产生内部一致的对象。
下表1是由四幅图像数据中获取的图像对象中提取的特征及其数量。所有特征归一化到[0,1]中。在0°、45°、90°和135°方向上提取出灰度共生矩阵gray-levelco-occurrencematrix,GLCM特征和灰度差分矢量gray-leveldivergencevector,GLDV特征;所有矩阵加起来取平均以获得特征方向不变性的对象纹理特征矩阵。为了评估MVFS的可靠性,将它与mdRMR、ReliefF、Divergence、SPEC和L2,0相比较,为了评估多视图的有用性,还将它与单视图方法singleViewFS相比较。该方法将监督多视图特征选择的目标函数中的l1,2范数变为Frobenius范数或者2范数。
表1
特征选择方法的性能可以用2种经典的分类器Bayes和支持向量机分类器评估。其中,SVM采用公开代码的默认参数:采用径向基函数的C-SVC,γ=1,ε=0.0001,c=1。实验采用5折交叉验证。分类性能用总体精度(overallaccuracies,OA)和Kappa系数(KappaIndexofAgreement,KIA)来衡量。
第一幅图像数据是Worldview-2于2012年8月拍摄的澳大利亚悉尼8波段1.8米空间分辨率遥感图像,像素大小为2543×2543,包括船、建筑用地、草地、铁路、桥梁或公路、树木和水体。它们的样本数分别为864,5751,280,11,458,1661和462。悉尼图像的结果如图3a、b、c、d所示。对于大多数方法而言,分类精度随着特征数量增加而增加。当选择20个特征时,大多数方法都能产生和选择所有特征时差不多的效果。采用贝叶斯分类器时,SMFS使用35个特征就取得了最高的总体精度和最高的Kappa系数。使用支持向量机时,各方法的性能在40个特征后就没有大的变化。该结果表明即使当特征数量相对少的时候也能取得一个可用的性能。
SMFS使用35个特征就取得了最高的总体精度77%和最高的Kappa系数65.6%,比其他方法的至少分别高出8%和7%。使用支持向量机时,SMFS的性能比其他方法至少高出2%。总的来说,SMFS明显比其他方法好。
第二幅图像数据是一幅Quickbird-2于2012年8月在美国加州旧金山拍摄的海岸地区的图像。该图像大小为8192×8192,4波段2.5米分辨率,7个类别:裸地或海滩、建筑用地、草地、公路、林地和水体。样本数量分别为632,335,11606,2392,3842,6109和16264。
总体精度和Kappa系数随着特征数量的变化如图图4a、b、c、d所示。采用贝叶斯分类器时,SMFS使用10个特征就取得了与采用所有特征差不多的总体精度和最高的Kappa系数。使用支持向量机时,各方法的性能在24个特征后缓慢提升。该结果表明即使当特征数量相对少的时候也能取得一个可用的性能。
SMFS使用35个特征就取得了最高的总体精度76%和最高的Kappa系数68.3%,比其他方法的至少分别高出3%和4%,比使用所有特征高分别4%和5%。基于支持向量机使用24个特征时,SMFS的性能比其他方法至少高出2%。总的来说,SMFS明显比其他方法好。
第三幅图像数据是一幅深圳市城区的Quickbird-2遥感图,2012年8月拍摄。该图大小为8501×8500,包含4波段2.5米分辨率,5个类别:建筑用地、林地、草地、公路和水体。样本数分别为11565,7160,1766,1906和1265。总体精度和Kappa系数随着特征数量的变化如图5a、b、c、d所示。采用贝叶斯分类器时,SMFS使用18个特征就取得了与采用所有特征差不多的总体精度和最高的Kappa系数。使用支持向量机时,各方法的性能在24个特征后缓慢提升。该结果表明即使当特征数量相对少的时候也能取得一个可用的性能。SMFS使用18个特征就取得了最高的总体精度77.5%和最高的Kappa系数68%,比其他方法的至少分别高出8%和4%,比使用所有特征高分别3.5%和4%。基于支持向量机使用18个特征时,SMFS的性能比其他方法至少高出1%。
第四幅图像数据是一幅美国加州圣克莱门特海岸地区的Worldview-2图像,摄于2012年9月。该图像大小为3101×2086,8波段1.8米分辨率,包含六个类别:建筑用地、林地、草地、公路、裸地和水体,其样本数量分别为5818,330,179,1043,621和786。
总体精度和Kappa系数随着特征数量的变化如图6a、b、c、d所示。采用贝叶斯分类器时,SMFS使用30个特征就取得了与采用所有特征差不多的总体精度和最高的Kappa系数。使用支持向量机时,各方法的性能在24个特征后缓慢提升。该结果表明即使当特征数量相对少的时候也能取得一个可用的性能。
SMFS使用30个特征就取得了最高的总体精度85%和最高的Kappa系数72%,比其他方法的至少分别高出8%和10%,比使用所有特征高分别10%和9%。基于支持向量机使用18个特征时,SMFS的性能比其他方法至少高出2%。
针对遥感图像,分析并选择高分辨率遥感图像的特征很有用但是很大程度上还未解决。现有的大多数特征选择方法都是单视图方法。这种方法无法探究并利用潜在特征子空间的一致性和互补性。另一方面,大多数多视图方法受到一些限制,如需要视图数量这一先验知识。本发明方法不需要任何先验知识,直接采用affinitypropagation方法将特征自动分解成多个不连续的有意义的特征组。同质性的特征构成了一个特征组,每个组描述一种数据特性。不同的特征组对应着异质的特征视图,不同的视图描述了不同的数据特性。然后在损失函数和正则项上采用l1,2联合最小化评估并选择特征。对比流行的l2,1范数方法,l1,2联合范数最小化方法取得视图内的稀疏性,而不是视图间的稀疏性。同时,该方法还对噪声更鲁棒。结果,每个视图中少数几个代表性特征就可以表达该视图,所有的代表性特征就可以表达特征空间的异质构成。在四个高分辨率遥感图像上的实验结果表明了本发明方法的有效性和实用性。

Claims (5)

1.一种基于自动视图生成和联合l1,2范数最小化的监督多视图特征选择方法,其特征在于,它包括以下步骤:
步骤一:采集遥感图像数据,对遥感图像数据进行预处理;然后进行特征提取,获得特征向量集合;再将特征向量集合中所有特征向量归一化,获得原始特征向量集合;
步骤二:采用affinitypropagation算法将步骤一中获得的原始特征向量集合生成特征多视图;
步骤三:基于l1,2范数对步骤二中生成的特征多视图进行监督多视图特征选择。
2.根据权利要求1所述的基于自动视图生成和联合l1,2范数最小化的监督多视图特征选择方法,其特征在于,
步骤一中所述对遥感图像数据进行预处理包括对遥感图像数据依次进行几何精校正与图像配准、图像镶嵌与裁剪、大气校正和坏带去除。
3.根据权利要求1或2所述的基于自动视图生成和联合l1,2范数最小化的监督多视图特征选择方法,其特征在于,
步骤一中所述获得特征向量集合的具体方法为:提取预处理后的遥感图像数据的特征值获得特征数据,所有特征数据由m维特征空间中的n个样本xi组成,特征数据记为其中样本yi是xi的标记,yi∈{1,...,c},c是类别数量;将n个样本xi的行向量记为样本集X:样本集X对应的标记向量为y,将n个样本xi的列向量形成的m个特征向量记为X=[f1,f2,...,fm],且
步骤一中获得原始特征向量集合的方法为:将特征数据中所有特征值映射到[0-1]之间,获得原始特征向量集合。
4.根据权利要求3所述的基于自动视图生成和联合l1,2范数最小化的监督多视图特征选择方法,其特征在于,
步骤二中生成特征多视图的方法为:利用affinitypropagation算法,度量特征向量fi和fj之间的相似性S(i,j):S(i,j)=-||fi-fj||2,其中j=1,2,3……n;
再根据fi和fj之间的相似性S(i,j)计算获得自相似性S(t,t):
S ( t , t ) = Σ i , j = 1 , i ≠ j n S ( i , j ) n × ( n - 1 ) ,
其中1≤t≤n;
特征向量fi发送响应r(i,j)给fj,fj发送可用性a(i,j)给fi,其中r(i,j)为:
r ( i , j ) = s ( i , j ) - max j ′ ≠ j { a ( i , j ′ ) + s ( i , j ′ ) } , j ′ = 1 , 2 , 3 ... ... n ;
a(i,j)为:
a ( i , j ) ← min { 0 , r ( j , j ) + Σ i ′ ≠ i , j max { 0 , r ( i ′ , j ) } } , i ≠ j Σ i ′ ≠ i max { 0 , r ( i ′ , j ) } , i = j ,
由响应r(i,j)和可用性a(i,j)获得特征值聚类中心:
式中k=1,2,3……n;
根据特征值聚类中心对原始特征向量集合中所有特征向量进行聚类生成特征多视图,该多视图包括L个特征子集,令Fl为第l个特征子集,其中每个视图对应一个特征子集,每个特征子集对应不同的数据特点,l=1,2,3……L。
5.根据权利要求4所述的基于自动视图生成和联合l1,2范数最小化的监督多视图特选择方法,其特征在于,
步骤三中进行监督多视图特征选择的具体方法为:
确定监督多视图特征选择的目标函数为:
式中特征选择的系数矢量β为:β=[β12,...,βL],βl为特征子集Fl所对应的系数矢量,λ1为正则化参数,
令E=y-Xβ,使则监督多视图特征选择的问题变形为:
m i n | | β | | 1 , 2 2 + | | E | | 1 , 2 2 s . t . y - X β = λ 1 E ,
再将上式变形为:
m i n | | β | | 1 , 2 2 + | | E | | 1 , 2 2 s . t . X λ 1 I β E = y ,
U = β E , A=[Xλ1I],其中I是单位阵,则获得:
min U | | U | | 1 , 2 2 s . t . A U = y ;
令V是一个各元素都为正数的矢量,则获得: min U Σ l = 1 L | | Σ i V l i | | 2 2 s . t . A U = y U ≤ V - U ≤ V ;
再对上式进行变形获得最终的监督多视图特征选择的目标函数及其约束为:
s . t . A U V = y 0
V≥0
式中,1是一个各个元素都为1的矩阵,其下标表示特征视图的序号;
取U的前m行作为多视图特征所对应的系数矢量β,根据β的大小选择遥感图像数据多视图的最佳特征。
CN201510546954.7A 2015-08-31 2015-08-31 基于自动视图生成和联合l1,2范数最小化的监督多视图特征选择方法 Active CN105046286B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510546954.7A CN105046286B (zh) 2015-08-31 2015-08-31 基于自动视图生成和联合l1,2范数最小化的监督多视图特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510546954.7A CN105046286B (zh) 2015-08-31 2015-08-31 基于自动视图生成和联合l1,2范数最小化的监督多视图特征选择方法

Publications (2)

Publication Number Publication Date
CN105046286A true CN105046286A (zh) 2015-11-11
CN105046286B CN105046286B (zh) 2018-11-02

Family

ID=54452815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510546954.7A Active CN105046286B (zh) 2015-08-31 2015-08-31 基于自动视图生成和联合l1,2范数最小化的监督多视图特征选择方法

Country Status (1)

Country Link
CN (1) CN105046286B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740917A (zh) * 2016-03-21 2016-07-06 哈尔滨工业大学 带有标签学习的高分遥感图像的半监督多视图特征选择方法
CN106815643A (zh) * 2017-01-18 2017-06-09 中北大学 基于随机森林迁移学习的红外光谱模型传递方法
CN108734187A (zh) * 2017-04-20 2018-11-02 中山大学 一种基于张量奇异值分解的多视图谱聚类算法
CN112348115A (zh) * 2020-11-30 2021-02-09 福州大学 一种用于解决生物学数据分类的特征选择方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894267A (zh) * 2010-07-06 2010-11-24 清华大学 一种三维对象特征视图选取方法
CN103530316A (zh) * 2013-09-12 2014-01-22 浙江大学 一种基于多视图学习的科学主题提取方法
CN103577841A (zh) * 2013-11-11 2014-02-12 浙江大学 一种无监督多视图特征选择的人体行为识别方法
CN104680169A (zh) * 2015-03-18 2015-06-03 哈尔滨工业大学 一种面向高空间分辨率遥感图像专题信息提取的半监督诊断性特征选择方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894267A (zh) * 2010-07-06 2010-11-24 清华大学 一种三维对象特征视图选取方法
CN103530316A (zh) * 2013-09-12 2014-01-22 浙江大学 一种基于多视图学习的科学主题提取方法
CN103577841A (zh) * 2013-11-11 2014-02-12 浙江大学 一种无监督多视图特征选择的人体行为识别方法
CN104680169A (zh) * 2015-03-18 2015-06-03 哈尔滨工业大学 一种面向高空间分辨率遥感图像专题信息提取的半监督诊断性特征选择方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
FREY J B等: "Clustering by passing messages between data points", 《SCIENCE》 *
ZENG FANG等: "Discriminative feature selection for multi-view cross-domain learning", 《ACM》 *
冯晓磊: "近邻传播聚类算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
孟军等: "基于近邻传播聚类的集成特征选择方法", 《计算机科学》 *
杨传慧等: "AP算法在图像聚类中的应用研究", 《计算机与数字工程》 *
林书亮: "联合L2,1范数正则约束的特征选择方法", 《科技专论》 *
简彩仁等: "局部和稀疏保持无监督特征选择法", 《华侨大学学报(自然科学版)》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740917A (zh) * 2016-03-21 2016-07-06 哈尔滨工业大学 带有标签学习的高分遥感图像的半监督多视图特征选择方法
CN105740917B (zh) * 2016-03-21 2019-02-19 哈尔滨工业大学 带有标签学习的遥感图像的半监督多视图特征选择方法
CN106815643A (zh) * 2017-01-18 2017-06-09 中北大学 基于随机森林迁移学习的红外光谱模型传递方法
CN106815643B (zh) * 2017-01-18 2019-04-02 中北大学 基于随机森林迁移学习的红外光谱模型传递方法
CN108734187A (zh) * 2017-04-20 2018-11-02 中山大学 一种基于张量奇异值分解的多视图谱聚类算法
CN108734187B (zh) * 2017-04-20 2021-09-28 中山大学 一种基于张量奇异值分解的多视图谱聚类算法
CN112348115A (zh) * 2020-11-30 2021-02-09 福州大学 一种用于解决生物学数据分类的特征选择方法

Also Published As

Publication number Publication date
CN105046286B (zh) 2018-11-02

Similar Documents

Publication Publication Date Title
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
CN113011499B (zh) 一种基于双注意力机制的高光谱遥感图像分类方法
Zhu et al. Bag-of-visual-words scene classifier with local and global features for high spatial resolution remote sensing imagery
Gosselin et al. Revisiting the fisher vector for fine-grained classification
Van der Maaten et al. Visualizing data using t-SNE.
Wu et al. An error-bound-regularized sparse coding for spatiotemporal reflectance fusion
Lu et al. Bidirectional adaptive feature fusion for remote sensing scene classification
CN113627482B (zh) 一种基于音频—触觉信号融合的跨模态图像生成方法及装置
CN107145836B (zh) 基于栈式边界辨别自编码器的高光谱图像分类方法
CN107194378B (zh) 一种基于混合字典学习的人脸识别方法及装置
CN104915676A (zh) 基于深层特征学习和分水岭的sar图像分类
JP2015052832A (ja) 重み設定装置および方法
CN107590515A (zh) 基于熵率超像素分割的自编码器的高光谱图像分类方法
CN106980848A (zh) 基于曲波变换和稀疏学习的人脸表情识别方法
CN103714148B (zh) 基于稀疏编码分类的sar图像检索方法
CN101540047A (zh) 基于独立高斯混合模型的纹理图像分割方法
CN104252625A (zh) 样本自适应多特征加权的遥感图像分类方法
CN105469063A (zh) 鲁棒的人脸图像主成分特征提取方法及识别装置
Pham The semi-variogram and spectral distortion measures for image texture retrieval
CN104881684A (zh) 一种立体图像质量客观评价方法
CN103646256A (zh) 一种基于图像特征稀疏重构的图像分类方法
CN105046286A (zh) 基于自动视图生成和联合l1,2范数最小化的监督多视图特征选择方法
CN104298999A (zh) 基于递归自动编码的高光谱特征学习方法
CN106446935A (zh) 基于核稀疏表示和空间约束的极化sar图像分类方法
CN110543916A (zh) 一种缺失多视图数据的分类方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant