CN102930275B - 基于Cramer’s V指数的遥感影像特征选择方法 - Google Patents

基于Cramer’s V指数的遥感影像特征选择方法 Download PDF

Info

Publication number
CN102930275B
CN102930275B CN201210419609.3A CN201210419609A CN102930275B CN 102930275 B CN102930275 B CN 102930275B CN 201210419609 A CN201210419609 A CN 201210419609A CN 102930275 B CN102930275 B CN 102930275B
Authority
CN
China
Prior art keywords
feature
cramer
value
node
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210419609.3A
Other languages
English (en)
Other versions
CN102930275A (zh
Inventor
吴波
曹森茂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201210419609.3A priority Critical patent/CN102930275B/zh
Publication of CN102930275A publication Critical patent/CN102930275A/zh
Application granted granted Critical
Publication of CN102930275B publication Critical patent/CN102930275B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及一种基于Cramer’s V指数的高分辨遥感影像特征选择方法,包括以下步骤:1)对获取的遥感影像进行预处理以及影像特征提取;2)基于Cramer’s V关联指数的连续特征离散化并行处理;3)并行处理获取两两特征间的列联表;4)基于Cramer’s V关联指数的特征选择。该方法特征选择效果好,效率高,适用性强,能够有效提高遥感影像的分类精度。本方法不仅限于遥感影像处理,可以广泛应用于各种高维度和复杂类型数据集(如文本、图像,医学诊断和基因数据等)的模式分类,数据挖掘和可视化等问题。

Description

基于Cramer’s V指数的遥感影像特征选择方法
技术领域
本发明涉及一种基于Cramer’s V指数的高分辨遥感影像特征选择方法。
背景技术
由于高空间分辨影像能够快速精确地获取地物的景观结构、几何形状、纹理等细节信息,在较小的空间尺度上观察地表的细节变化,因而高分辨率影像已经广泛应用于地表的精确监测和各种地类信息的获取,在土地利用更新、自然资源和环境调查、国防、管线、电信、城市规划管理、自然灾害监测、海岸带和海洋制图等各个方面已开展了广泛的应用。然而,尽管高分辨率遥感影像的空间分辨率很高,成像光谱通道却很少,这导致影像中光谱信息具有很大的不确定性。主要表现在:地物的光谱分布变化大,不同地物的光谱相互重叠,地物信息呈现高度细节化,同类地物的光谱差异变大,异类目标的光谱相互重叠。为了精度地获取地表信息,人们普遍从以下两方面进行改进:(1)采用面向对象的遥感影像处理技术,对影像进行多尺度的对象分割,并从分割斑块中提取各种光谱、形状和纹理等的对象解译特征;(2)增加辅助数据或专家经验知识以弥补遥感数据解译过程中光谱信息的模糊性和不确定性。这两个过程一方面导致待处理的数据维数大量增加,另一方面导致数据类型的复杂化,使得解译的数据包含连续型数据、离散型数据和语义型数据等混合类型。那么如何从高维复杂的特征数据中自动、快速、有效地获取最优特征子集是遥感数据处理的一个关键问题,目前这个过程通常采用人工选取的模式,由专家根据相关经验或可视化显示,人工判读地选取相关特征子集。这种作业方式费时费力,既不能保证选择的特征子集是特征的优化组合,也不利于影像的自动化解译,无法满足大规模批量影像处理的实际需求。
由于遥感信息处理具有以下特点:(1)特征维数高,遥感数据兼具光谱、形状、纹理、时空信息等多种特征;(2)数据类型复杂,可能包括连续变量、离散变量、语义变量等多种类型数据;(3)特征冗余大,由于空间相关和异质性,遥感的影像特征冗余度一般很高;(4)数据量大,遥感处理的数据通常是TB级的海量数据;(5)地学规律,地学分析通常需要结合相关领域的专家知识。这些特点导致目前的特征选择方法不能在特性选择的效率与精度,特性选择的稳定性与冗余剔除、融合和处理语义数据的简便性等方面满足遥感数据处理的要求。因而,表明发展适合遥感数据特点的特征选择技术和方法仍然是遥感信息处理的关键问题。
特征选择是指从一组已知特征集中按照某种准则选择出最有效的特征子集,以实现特征空间维数的压缩、计算资源的节省以及分类效果的稳定。特征选择可以表述为:从已获得的                                                个原始特征中选出特征,使可分性判据的值满足=,其中个原始特征中的任意选择的个特征。
一般地,特征选择分为基于滤波器(filter-based)、基于包容器(wrapper-based)和基于嵌入式(embeded-based)三种类型。基于滤波器的特征选择方法通常不依赖特定的分类器,具有计算简单,速度快和可解释性等特点,非常适合于地学相关应用。目前,常用的滤波器特征选择标准有基于特征方差最大化标准、基于特征空间点的几何距离标准、以及基于特征信息熵(信息互熵)标准等。采用方差最大标准是保留数据集中方差较大的特征,而舍弃方差较小特征的思想。这类方法计算简单,但由于仅利用了数据的方差信息,没有顾及到类别信息,在复杂数据集上获取的特征子集并不有效。基于特征空间中点的几何距离标准(如Fisher分数方法),选择有效特征的思路是选择类内相似性较大,而类间相似性较小的那组特征。虽然Fisher分数综合利用了类别的信息,实验表明该方法对于多峰性数据和离群数据处理效果较差。此外,还容易受数据中噪声干扰,不适用于那些包含“哑变量”或语义变量的数据集。基于特征信息熵标准利用信息互熵描述两个变量间的统计相关性,具有较好的理论基础,但该类方法需要特征的联合概率密度分布信息,而联合概率密度通常难以有效估计,在特征维数很大时难以计算。近年来,基于概率统计标准,如卡方检验(Chi2)和相关函数特征选择(CFS)等广泛应用在遥感特征提取与选择中。Chi2方法通过检测特征的独立性来选择特征,虽然计算较为简单,但独立性检验结果容易受样本数量大小影响。一个通过卡方检验为显著性的依存关系的两个特征可能是由于样本数目,而不是特征本身的特性引起的。CFS方法的特点在于利用特征间的相关系数来构造一个特征选择指标,选择特征计算效率很高,但实验表明它处理复杂数据时剔除冗余特征的能力不强。最近,本人提出一种最大与最小关联指数的特征子集选择方法,利用Cramer’s V的关联性来选取那些同时满足与目标属性具有最大关联性而特征子集内部具有最小关联性的特征。相关试验测试结果表明该方法具有很好效果。但目前该方法在计算Cramer’s V值时,采用等区间划分来获取连续特征的离散值,没有顾及目标属性的信息。这导致了离散结果很容易受数据分布和“离群数据”影响,一定程度上降低了特征选择的效果。在离散化过程中引入目标信息将大大地改善离散化和特征选择的结果。此外,由于该方法在特征选择中需要大量地计算特征间的列联表,导致计算效率不高。以高性能并行计算技术来增强现有搜索算法将极大地增强现有算法的计算效率。
发明内容
本发明的目的在于提供一种基于Cramer’s V关联指数的高分辨遥感影像特征选择方法,该方法特征选择效果好,能够有效提高遥感影像的分类精度。
为实现上述目的,本发明的技术方案是:一种基于Cramer’s V关联指数的高分辨遥感影像特征选择方法,包括以下步骤:
步骤1:对获取的遥感影像进行预处理以及影像特征提取;
步骤2:基于Cramer’s V关联指数的连续特征离散化并行处理;
步骤3:并行处理获取两两特征间的列联表;
步骤4:基于Cramer’s V关联指数的特征选择。
在本发明一实施例中,遥感影像预处理过程包括以下步骤:
步骤1.1:根据获取的遥感影像数据源的影像质量,进行相应的预处理,包括几何与辐射校正、影像拼接与裁剪、影像复原与去噪或影像增强与融合;
步骤1.2:提取影像特征:在eCognition平台下对遥感影像进行多尺度分割,或采用模式识别或数据挖掘技术对遥感影像进行分割,从分割斑块中提取影像的光谱、形状和纹理特征,结合地理数据(如规划数据、位置数据),并对非栅格数据进行栅格化处理后,共同组成一个维特征的影像数据;
步骤1.3:根据影像中地物实际的分布和分类类别,利用样区工具选择N个训练样本,确认出样区的类别标示,建立这N个样本数据与类别标示的一一对应关系,形成N维的样本数组,作为特征选择的输入数据;其中维特征的样本数据,的第维特征,上标为矢量转置,为类别标示,表示类别数;建立一个由N个输入特征波段组成的待处理数据集合,所述待处理数据集合包含有N个输入属性和一个目标属性
在本发明一实施例中,基于Cramer’s V的连续特征离散化并行处理过程包括以下步骤:
步骤2.1:对的每一维连续型的特征,把分成由分割点定义的个离散区间 ,方法是在删除中可能的重复值后,按从小到大顺序排列,,则分割点B的可能取值为以及, 中剔除重复值后剩余的元素数目;
步骤2.2:初始化离散化划分,设置一个全局变量GCVD=0,的最大分割区间数,并设置初始分割区间数 k=1;
步骤2.3:从B中取出一个分割点,加入到划分中并计算该划分对应的Cramer’s V离散化值,即CVD值;按以上方法分别将B中的每一个可能的分割点加入到划分中,以分别计算出每一种划分对应的CVD值;
计算CVD值时,需要建立特征在每种可能的分割条件下与目标属性的列联表;所述列联表的建立方法为:在MPICH2平台下采用并行计算,按如下步骤实现:
步骤2.3.1:获取并行处理系统中处理器的节点数目、各节点的处理时间和CPU处理速度,并对处理器进行编码
步骤2.3.2:估计各处理器的处理时间:所需处理时间的近似估计方法是保证各计算节点的负载平衡,即分配给各节点的计算量与计算速度近似一致,也就是近似相等,
步骤2.3.3:根据节点的负载平衡,按照B中个可能的分割点进行任务划分,并发送到各处理节点;
步骤2.3.4:每个节点产生一个大小为的数组,并按各自分割点取值情况对离散化,形成各自的列联表;
步骤2.3.5:在各节点利用列联表计算在该分割情况下与类别标示的CVD值,计算方法为:
其中,表示在离散化条件下计算特征与类别标示的Cramer’s V值;表示训练样本总数, 表示类别数,的计算公式为表示特征的实际离散化数目,为类别标示为为数目,表示位于第个离散化区间内的样本数目;
步骤2.4:当完成B中全部可能的分割点所对应的CVD值计算后,收集器收集各处理节点计算的值,为B中分割点数目;
步骤2.5:扫描值, 确定出CVD最大值所对应的划分,记为, 方法是如果 CVD()>GCVD或者k<,则用划分 替代,并设置GCVD = CVD(),设置 k=k+1,否则选择的最佳划分,存储与类别标示的GCVD值以备后用,即在最佳分割与目标类别的Cramer‘s V的值;
步骤2.6:重复步骤2.1~2.5,循环对其它的特征进行离散化;
步骤2.7:完成对全部特征的离散化后,存储全部连续数据的CVD最终离散化结果,以备后续步骤使用。
在本发明一实施例中,两两特征间的列联表的获取方式为:基于存储的离散化数据,在MPICH2平台下采用分布式并行计算,按如下步骤实现:
步骤3.1:获取并行处理系统中处理器的节点数目以及各节点的处理时间和CPU处理速度,并对处理器进行编码
步骤3.2:估计各处理器的处理时间;处理时间的方法是保证各计算节点的负载平衡,即分配给各节点的计算量与计算速度近似一致,也就是近似相等,
步骤3.3:根据节点的负载平衡,按照特征维数与样本数目对输入数据进行任务划分,并发送到各处理节点;
步骤3.4:每个节点产生一个大小为的数组,并各自统计交叉分类的频数分布表,形成各节点的列联表;
步骤3.5:收集器累加各处理节点产生的列联表,得出输入数据的全体列联表;对全体列联表行和列的合计栏进行扫描,如果合计栏中某元素为零,则删除列联表中对应的行或列。
在本发明一实施例中,Cramer’s V关联系数定义为,基于Cramer’s V指数的特征选择按如下步骤进行:
步骤4.1:建立一个空集合,用于存放从集合中选择的特征,置表示集合中元素个数为零;
步骤4.2:利用存储的GCVD值来评估各特征与目标属性的关联系数,即选出GVCD值最大所对应的那个特征,记为,置,并从集合中删除已选特征,置;目标属性与各特征的最大关联表达为,其中是集合中的元素个数,是目标属性与特征的Cramer’s V关联系数值;
步骤4.3:以并行处理方式获取集合中的每个特征与集合中其它特征的列联表,总共产生个列联表;
步骤4.4:根据所生成的列联表,计算两两特征间的Cramer’s V关联系数值,并分别求出集合中的每个特征与集合中特征之间的平均Cramer’s V值,则特征与特征的最小关联表达为,其中是特征的Cramer’s V统计值;
步骤4.5:根据Cramer’s V关联指数模型,选择指数模型中最大值所对应的那个特征,置;选择Cramer’s V关联指数模型为商值模型或差值模型,分别表示为 或 ,其中为惩罚参数;
步骤4.6:从的候选集合中删除特征,已选特征个数
步骤4.7:重复以上步骤4.3~4.6,使用增量方式顺序从候选特征集中选出指定个数的特征,或者对全部特征按照重要性从大到小排序。
与现有技术相比,本发明的有益效果是:
1、适合于混合特征数据类型,特征选择效果好,鲁棒性强。该方法具有很好的特征选择效果,显著优于现有的同类特征选择方法mRMR,ReliefF,CFS等选择效果。由于特征关联指标采用CVD离散化变量,并利用频率值或累计值为计算依据,特征中包含的噪声或者离群数据对特征选择结果不会造成明显影响。此外,Cramer’s V统计值不受样本数量大小的影响,适合各种计算场合。
2、能够处理复杂的影像输入特征,适用性强。该方法只需要获取样本中某事件出现的频率表,此外对输入的特征数据类型没有任何限制,适用于连续型数据,离散型数据以及语义型数据的混合数据。该方法属于滤波型特征选择方法,特征选择的标准与过程与具体的分类器无关,适用于所有分类器,方便后续图像处理与应用。
3、具有很强的冗余特征剔除能力。由于Cramer’s V关联指数特征选择方法综合了特征与目标以及特征之间的关联性,所选择的特征满足特征与类别目标的关联性尽可能大,而特征之间的关联性尽可能小。这等效于对冗余特征具有很强的惩罚效果,因而特征子集中的特征冗余度很低。
4、采用并行化计算模式,特征选择效率高。该方法采用增量式的特征选择方式,计算效率很高,适用于高维数据处理。实现过程中,耗时最大的连续特征离散化与特征间的列联表计算过程或步骤均采用简单的分布式并行计算策略,极大地提高了计算效率。
5、应用范围广。本方法不仅限于遥感影像处理,可以广泛应用于各种高维度和复杂类型数据集(如文本、图像,医学诊断和基因数据等)的模式分类,数据挖掘和可视化等问题。
6、CVD离散化结果提供了对原始数据的紧凑表达,有利于领域知识规则的发现和提取,便于专家对地学规则的理解和解释,并且离散化的数据能够显著提高分类器(如Naive Bayer)的分类精度。
附图说明
图1是本发明的实现流程图。
图2是本发明基于Cramer’s V 的连续特征离散化的实现流程图。
图3是本发明采用并行计算方式获取列联表的实现流程图。
图4是本发明特征选择步骤的实现流程图。
具体实施方式
本发明基于Cramer’s V关联指数的高分辨遥感影像特征选择方法,如图1所示,包括以下步骤:
步骤1:对获取的遥感影像进行预处理以及影像特征提取;
步骤2:基于Cramer’s V关联指数的连续特征离散化并行处理;
步骤3:并行处理获取两两特征间的列联表;
步骤4:基于Cramer’s V关联指数的特征选择。
在步骤1中,遥感影像预处理过程包括以下步骤:
步骤1.1:根据获取的光学遥感影像数据源的影像质量,进行相应的预处理,包括几何与辐射校正、影像拼接与裁剪、影像复原与去噪或影像增强与融合等过程;
步骤1.2:提取影像特征:在eCognition平台下对遥感影像进行多尺度分割,或采用模式识别或数据挖掘技术(如中值漂移分割等)对遥感影像进行分割,从分割斑块中提取影像的光谱、形状和纹理等特征,结合其他地理辅助数据(如规划数据、位置数据),并对非栅格数据进行栅格化处理后,共同组成一个维特征的影像数据;
步骤1.3:根据影像中地物实际的分布和分类类别,利用样区工具选择N个训练样本,确认出样区的类别标示,建立这N个样本数据与类别标示的一一对应关系,形成N维的样本数组,作为特征选择的输入数据;其中维特征的样本数据,的第维特征,上标为矢量转置,为类别标示,表示类别数;建立一个由N个输入特征波段组成的待处理数据集合,所述待处理数据集合包含有N个输入特征和一个目标属性
本方法采用Cramers’ V进行连续数据离散化(CVD),以实现离散化结果与目标属性具有最大的关联性。通常采用列联表来计算Cramers’ V值,本方法所指的列联表是由两个以上的变量进行交叉分类的频数分布表。假设个随机实验的结果依据两个特征AB进行分类,。属于类的个体有个。则一个大小为的列联表为
  合计
合计
则本方法提出的基于Cramers’ V的连续特征离散化准则定义为
其中 , 的计算公式为。使用除于是基于以下两个考虑:1)避免离散化过程中过度训练,加快离散化的计算速度;2)减弱离散区间数目对离散化结果的影响,便于获取最小化的离散区间数目。由于CVD考虑了所有特征的分布情况,刻画了每个分布情况对整体特征的影响,因而CVD具有良好的离散化特性。
如图2所示,在步骤2中,基于Cramer’s V的连续特征离散化过程包括以下步骤:
步骤2.1:对的每一维连续型的特征,把分成由分割点定义的个离散区间 ,方法是在删除中可能的重复值后,按从小到大顺序排列,则分割点B的可能取值为以及, 中剔除重复值后剩余的元素数目;
步骤2.2:初始化离散化划分,设置一个全局变量GCVD=0,的最大分割区间数,并设置初始分割区间数 k=1;
步骤2.3:从B中取出一个分割点,加入到划分中并计算该划分对应的Cramer’s V离散化值,即CVD值;按以上方法分别将B中的每一个可能的分割点加入到划分中,以分别计算出每一种划分对应的CVD值;
计算CVD值时,需要建立特征在每种可能的分割条件下与目标属性的列联表;由于这个计算过程耗时相对较大,因而采用并行处理技术。所述列联表的建立方法为:在MPICH2平台下采用并行计算,按如下步骤实现:
步骤2.3.1:获取并行处理系统中处理器的节点数目、各节点的处理时间和CPU处理速度,并对处理器进行编码
步骤2.3.2:估计各处理器的处理时间:所需处理时间的近似估计方法是保证各计算节点的负载平衡,即分配给各节点的计算量与计算速度近似一致,也就是近似相等,
步骤2.3.3:根据节点的负载平衡,按照B中个可能的分割点进行任务划分,并发送到各处理节点;
步骤2.3.4:每个节点产生一个大小为的数组,并按各自分割点取值情况对离散化,形成各自的列联表;
步骤2.3.5:在各节点利用列联表计算在该分割情况下与类别标示的CVD值,计算方法为:
其中,表示在离散化条件下计算特征与类别标示的Cramer’s V值;表示训练样本总数, 表示类别数,的计算公式为表示特征的实际离散化数目,为类别标示为为数目,表示位于第个离散化区间内的样本数目;
步骤2.4:当完成B中全部可能的分割点所对应的CVD值计算后,收集器收集各处理节点计算的值,为B中分割点数目;
步骤2.5:扫描值, 确定出CVD最大值所对应的划分,记为, 方法是如果 CVD()>GCVD或者k<,则用划分 替代,并设置GCVD = CVD(),设置 k=k+1,否则选择的最佳划分,存储与类别标示的GCVD值以备后用,即在最佳分割与目标类别的Cramer‘s V的值;
步骤2.6:重复步骤2.1~2.5,循环对其它的特征进行离散化;
步骤2.7:完成对全部特征的离散化后,存储全部连续数据的CVD最终离散化结果,以备后续步骤使用。
对每一个特征,CVD离散化算法复杂度的估计值为为并行处理的接点数。由于遥感影像中的特征划分区间数目不大于2倍的类别数目,远远小于样本数目,因而离散化计算速度比较快。由于该算法是独立地对特征的可能分割点进行离散化,可以方便地采用并行处理技术。
如图3所示,在步骤3中,两两特征间的列联表的获取方式为:基于存储的离散和数据,在MPICH2平台下采用分布式并行计算,按如下步骤实现:
步骤3.1:获取并行处理系统中处理器的节点数目以及各节点的处理时间和CPU处理速度,并对处理器进行编码
步骤3.2:估计各处理器的处理时间;处理时间的方法是保证各计算节点的负载平衡,即分配给各节点的计算量与计算速度近似一致,也就是近似相等,
步骤3.3:根据节点的负载平衡,按照特征维数与样本数目对输入数据进行任务划分,并发送到各处理节点;
步骤3.4:每个节点产生一个大小为的数组,并各自统计交叉分类的频数分布表,形成各节点的列联表;
步骤3.5:收集器累加各处理节点产生的列联表,得出输入数据的全体列联表;对全体列联表行和列的合计栏进行扫描,如果合计栏中某元素为零,则删除列联表中对应的行或列。
如图4所示,在步骤4中,Cramer’s V关联系数定义为,基于Cramer’s V指数的特征选择按如下步骤进行:
步骤4.1:建立一个空集合,用于存放从集合中选择的特征,置表示集合中元素个数为零;
步骤4.2:利用存储的GCVD值来评估各特征与目标属性的关联系数,即选出GVCD值最大所对应的那个特征,记为,置,并从集合中删除已选特征,置;目标属性与各特征的最大关联表达为,其中是集合中的元素个数,是目标属性与特征的Cramer’s V关联系数值;
步骤4.3:以并行处理方式获取集合中的每个特征与集合中其它特征的列联表,总共产生个列联表;
步骤4.4:根据所生成的列联表,计算两两特征间的Cramer’s V关联系数值,并分别求出集合中的每个特征与集合中两两特征之间的平均Cramer’s V值,则特征与特征的最小关联表达为,其中是特征的Cramer’s V统计值;
步骤4.5:根据Cramer’s V关联指数模型,选择指数模型中最大值所对应的那个特征,置;Cramer’s V关联指数模型可以选择商值或差值模型,它们分别表示为 或 ,其中为惩罚参数,其目的在于平衡特征与目标属性与特征冗余之间的关系;其特点是较大值所选择的特征子集中包含冗余特征的可能性越大,反之较小的值包含冗余特征的可能性越大;
步骤4.6:从的候选集合中删除特征,已选特征个数
步骤4.7:重复以上步骤4.3~4.6,使用增量方式顺序从候选特征集中选出指定个数的特征,或者对全部特征按照重要性从大到小排序。
选用Cramer’s V关联系数值,而不是卡方检验值来表示列联表中变量关联性是由于它不受样本数量大小的影响,其值能够更加客观反映变量之间真实的关联关系;而卡方独立性检验易受样本大小影响。具有两个优势:第一,Cramers’ V的取值与样本数量无关,解决了卡方检验对样本数目比较敏感的问题;第二,Cramers’ V的值在[0,1]之间取值,有利于通过简单的阈值来判断特征间的关联性是否显著。如果Cramers’ V大于0.1,则该两个特征为显著关联。
本产品的用途主要在于:从高维复杂的特征中挖掘和提取出少量“诊断性”的特征作为遥感数据分析(分类)的输入特征,为海量遥感数据信息自动快速处理提供技术基础,可以成为eConginition平台的插件使用,也可以单独使用。直接的用途是改善遥感影像的可视化分析,解决监督分类中面临的“Hugh”现象,提高影像分类的精度和效率。
Cramer’s V关联指数特征选择可以结合Econgition,REDAS IMAGINE和ENVI等专业软件应用。可以通过标准C++语言在MPCHI2平台下实现。结合eCongition影像分类软件的实现过程如下:
第一步,影像预处理与数据准备阶段。首先,对感影像进行必要的几何、辐射(或融合)后,在Ecognition支持下对遥感影像进行多尺度分割。从分割斑块中提取影像的光谱、形状和纹理等特征。多尺度分割过程可以参考Ecognition用户手册。通过人工解译或实地调查方式确认部分像元(样本数据)的分类情况(个),建立特征与类别目标值的一一对应关系后,通过Import功能导出作为Cramer’s V关联指数特征选择的输入数据。
第二步,为了获取Cramer’s V值,对输入特征为连续的数据进行离散化划分,将连续分为个离散区间。离散区间的个数可以根据数据自适应地确定,设置离散化的最大区间数:。其中为类别个数,为特征维数,为样本数目。数据离散化的方式采用CVD方法进行自适应离散化。离散化后的特征集合记为
第三步,建立一个空集合,用于存放从集合中选择的特征,已选特征个数。对上述离散化集合中的每个特征,获取每个与类别的列联表,计算各特征与目标属性的Cramer’s V值来评估各特征的关联性。选择出关联性最大的那个特征,记为,置,已选特征个数,并从集合中删除已选特征。目标属性与各特征的最大关联表达为,其中是集合中的元素数目,是目标属性与特征的Cramer’s V统计值。
第四步,以并行化计算方式获取集合中的每个特征与集合中其它特征的列联表,计算集合中的每个特征与集合中特征之间的平均Cramer’s V值。各特征的平均Cramer’s V值表达为,其中是特征的Cramer’s V统计值。
第五步,根据Cramer’s V关联指数模型的值,选择Cramer’s V关联指数中最大值对应的那个特征,置。从集合中删除特征,已选特征个数。Cramer’s V关联指数可以选择商值或差值模型,分别表示为 或 ,其中为惩罚参数,其目的在于平衡特征与目标属性与特征冗余之间的关系。其特点是较大值所选择的特征子集中包含冗余特征的可能性越大,反之较小的值包含冗余特征的可能性越大,建议取值为[0.5,2]。选择Cramer’s V关联指数中最大值对应的那个特征。置
第六步,重复以上第四步、第五步,使用增量方式顺序从候选特征集中选出指定个数的特征,或者对全部特征按照重要性从大到小排序。
第七步,根据特征排序或选择情况,本技术可以选择原始特征数据,也可以选择离散化后的特征数据进行影像处理的后续工作。一般情况下离散化的数据能够显著改善原始数据的性能,取得更好的分类和识别效果。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (1)

1.基于Cramer’s V指数的高分辨遥感影像特征选择方法,其特征在于:包括以下步骤:
步骤1:对获取的遥感影像进行预处理以及影像特征提取;
步骤2:基于Cramer’s V关联指数的连续特征离散化并行处理;
步骤3:并行处理获取两两特征间的列联表;
步骤4:基于Cramer’s V关联指数的特征选择;
在步骤1中,遥感影像预处理过程包括以下步骤:
步骤1.1:根据获取的遥感影像数据源的影像质量,进行相应的预处理,包括几何与辐射校正、影像拼接与裁剪、影像复原与去噪或影像增强与融合;
步骤1.2:提取影像特征:在eCognition平台下对遥感影像进行多尺度分割,或采用模式识别或数据挖掘技术对遥感影像进行分割,从分割斑块中提取影像的光谱、形状和纹理特征,结合地理数据,并对非栅格数据进行栅格化处理后,共同组成一个 d维特征的影像数据;
步骤1.3:根据影像中地物实际的分布和分类类别,利用样区工具选择N个训练样本,确认出样区的类别标示,建立这N个样本数据与类别标示的一一对应关系,形成Nd+1维的样本数组                                                ,作为特征选择的输入数据;其中d维特征的样本数据,X的第i维特征,上标T为矢量转置,为目标属性,c表示类别数;
在步骤2中,基于Cramer’s V的连续特征离散化并行处理过程包括以下步骤:
步骤2.1:对X的每一维连续型的特征x i ,把x i 分成由分割点d j 定义的n个离散区间 ,方法是在删除x i 中可能的重复值后,按从小到大顺序排列x i ,则分割点B的可能取值为以及, mx i 中剔除重复值后剩余的元素数目;
步骤2.2:初始化离散化划分,设置一个全局变量GCVD=0,x i 的最大分割区间数r,并设置初始分割区间数 k=1;
步骤2.3:从B中取出一个分割点,加入到划分D 0中并计算该划分对应的Cramer’s V离散化值,即CVD值;按以上方法分别将B中的每一个可能的分割点加入到划分D 0中,以分别计算出每一种划分对应的CVD值;
计算CVD值时,需要建立特征x i 在每种可能的分割条件下与目标属性C的列联表;所述列联表的建立方法为:在MPICH2平台下采用并行计算,按如下步骤实现:
步骤2.3.1:获取并行处理系统中处理器的节点数目P、各处理器的处理时间和CPU处理速度w i ,并对处理器进行编码
步骤2.3.2:估计各处理器的处理时间:所需处理时间的近似估计方法是保证各计算节点的负载平衡,即分配给各节点的计算量与计算速度近似一致,也就是近似相等,
步骤2.3.3:根据节点的负载平衡,按照B中m个可能的分割点进行任务划分,并发送到各处理节点;
步骤2.3.4:每个节点产生一个大小为的数组,并按各自分割点取值情况对x i 离散化,形成各自的列联表;
步骤2.3.5:在各节点利用列联表计算x i 在该分割情况下与类别标示C的CVD值,计算方法为:
其中,表示在离散化D条件下计算特征x i 与类别标示C的Cramer’s V值;N表示训练样本总数,c表示类别数,的计算公式为n表示特征x i 的实际离散化数目,m j 为类别标示为c j 为数目,n i 表示位于第i个离散化区间内的样本数目,n ij 表示属于A j B i 类的个体数目;
步骤2.4:当完成B中全部可能的分割点所对应的CVD值计算后,收集器收集各处理节点计算的值,m为B中分割点数目;
步骤2.5:扫描值, 确定出CVD最大值所对应的划分,记为D *, 方法是如果 CVD(D *)>GCVD或者k<r,则用划分D * 替代D,并设置GCVD = CVD(D *),设置 k=k+1,否则选择Dx i 的最佳划分,存储x i 与类别标示C的GCVD值以备后用,即在最佳分割Dx i 与目标类别的Cramer‘s V的值;
步骤2.6:重复步骤2.1~2.5,循环对其它的特征x j 进行离散化;
步骤2.7:完成对全部特征的离散化后,存储全部连续数据的CVD最终离散化结果,以备后续步骤使用;
在步骤3中,两两特征间的列联表的获取方式为:在MPICH2平台下采用分布式并行计算,按如下步骤实现:
步骤3.1:获取并行处理系统中处理器的节点数目P以及各处理器的处理时间和CPU处理速度w i ,并对处理器进行编码
步骤3.2:估计各处理器的处理时间;处理时间的方法是保证各计算节点的负载平衡,即分配给各节点的计算量与计算速度近似一致,也就是近似相等,
步骤3.3:根据节点的负载平衡,按照特征维数与样本数目对输入数据进行任务划分,并发送到各处理节点;
步骤3.4:每个节点产生一个大小为r×r的数组,并各自统计交叉分类的频数分布表,形成各节点的列联表;
步骤3.5:收集器累加各处理节点产生的列联表,得出输入数据的全体列联表;对全体列联表行和列的合计栏进行扫描,如果合计栏中某元素为零,则删除列联表中对应的行或列;
在步骤4中,Cramer’s V关联系数定义为,基于Cramer’s V指数的特征选择按如下步骤进行:
步骤4.1:建立一个空集合S,用于存放从集合X中选择的特征,置t=0表示集合S中元素个数为零;
步骤4.2:利用存储的GCVD值来评估各特征与目标属性C的关联系数,即选出GVCD值最大所对应的那个特征,记为x j ,置,并从集合X中删除已选特征x j ,置t=1;目标属性C与各特征的最大关联表达为,其中是集合S中的元素个数,是目标属性C与特征x i 的Cramer’s V关联系数值;
步骤4.3:以并行处理方式获取集合S中的每个特征x j 与集合{X-S}中其它特征的列联表,总共产生个列联表;
步骤4.4:根据所生成的列联表,计算两两特征间的Cramer’s V关联系数值,并分别求出集合S中的每个特征x i 与集合{X-S}中特征x j 之间的平均Cramer’s V值,则特征x i 与特征x j 的最小关联表达为,其中是特征x i x j 的Cramer’s V统计值;
步骤4.5:根据Cramer’s V关联指数模型,选择指数模型中最大值所对应的那个特征,置;选择Cramer’s V关联指数模型为商值模型或差值模型,分别表示为 或 ,其中λ为惩罚参数;
步骤4.6:从{X-S}的候选集合中删除特征x k ,已选特征个数
步骤4.7:重复以上步骤4.3~4.6,使用增量方式顺序从候选特征集中选出指定个数的特征,或者对全部特征按照重要性从大到小排序。
CN201210419609.3A 2012-10-29 2012-10-29 基于Cramer’s V指数的遥感影像特征选择方法 Expired - Fee Related CN102930275B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210419609.3A CN102930275B (zh) 2012-10-29 2012-10-29 基于Cramer’s V指数的遥感影像特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210419609.3A CN102930275B (zh) 2012-10-29 2012-10-29 基于Cramer’s V指数的遥感影像特征选择方法

Publications (2)

Publication Number Publication Date
CN102930275A CN102930275A (zh) 2013-02-13
CN102930275B true CN102930275B (zh) 2015-08-12

Family

ID=47645072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210419609.3A Expired - Fee Related CN102930275B (zh) 2012-10-29 2012-10-29 基于Cramer’s V指数的遥感影像特征选择方法

Country Status (1)

Country Link
CN (1) CN102930275B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463229B (zh) * 2014-12-30 2017-06-27 哈尔滨工业大学 基于相关系数冗余度的高光谱数据有监督分类方法
CN104794496A (zh) * 2015-05-05 2015-07-22 中国科学院遥感与数字地球研究所 一种改进mRMR算法的遥感特征优选算法
CN105320963B (zh) * 2015-10-21 2018-10-02 哈尔滨工业大学 面向高分遥感图像的大尺度半监督特征选择方法
CN106844519B (zh) * 2016-12-29 2019-07-26 中国科学院电子学研究所苏州研究院 基于三维数字地球的遥感专题产品可视化方法
CN107909062B (zh) * 2017-12-11 2021-05-07 海南大学 一种基于信息熵的遥感影像特征离散化方法及系统
CN112113544B (zh) * 2019-06-20 2022-03-08 四川轻化工大学 一种基于无人机影像的遥感数据处理方法及系统
CN112488871A (zh) * 2020-10-23 2021-03-12 广西电网有限责任公司电力科学研究院 一种电网原始输入特征冗余数据剔除方法及系统
TWI780670B (zh) * 2021-04-19 2022-10-11 科智企業股份有限公司 產生人因特徵的方法與系統以及產生動作識別模組的方法與系統
CN117476231A (zh) * 2023-11-09 2024-01-30 中山大学孙逸仙纪念医院 基于机器学习的药物性肝损伤风险预测方法、系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1040876A (zh) * 1989-10-25 1990-03-28 中国科学院南京土壤研究所 资源卫星数据信息提取技术及其应用

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120051583A1 (en) * 2010-08-26 2012-03-01 International Business Machines Corporation Soft error verification in hardware designs

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1040876A (zh) * 1989-10-25 1990-03-28 中国科学院南京土壤研究所 资源卫星数据信息提取技术及其应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Feature selection based on max-min-associated indices for classification of remotely sensed imagery;Wu, Bo etc.;《INTERNATIONAL JOURNAL OF REMOTE SENSING》;20120910;第33卷(第17期);第5492-5512页 *

Also Published As

Publication number Publication date
CN102930275A (zh) 2013-02-13

Similar Documents

Publication Publication Date Title
CN102930275B (zh) 基于Cramer’s V指数的遥感影像特征选择方法
CN110321963B (zh) 基于融合多尺度多维空谱特征的高光谱图像分类方法
Seyedmohammadi et al. Application of SAW, TOPSIS and fuzzy TOPSIS models in cultivation priority planning for maize, rapeseed and soybean crops
CN103839261B (zh) 基于分解进化多目标优化和fcm的sar图像分割方法
CN103440505B (zh) 空间邻域信息加权的高光谱遥感图像分类方法
CN103413151B (zh) 基于图正则低秩表示维数约简的高光谱图像分类方法
CN112668400A (zh) 一种植被识别方法及应用
CN103208011B (zh) 基于均值漂移和组稀疏编码的高光谱图像空谱域分类方法
CN103914705B (zh) 一种基于多目标免疫克隆的高光谱图像分类和波段选择的方法
CN109657610A (zh) 一种高分辨率多源遥感影像的土地利用变化检测方法
CN103488968A (zh) 遥感图像的混合像素物质构成精细化分解装置及方法
CN106846322B (zh) 基于曲线波滤波器和卷积结构学习的sar图像分割方法
CN103208001A (zh) 结合形状自适应邻域和纹理特征提取的遥感图像处理方法
CN108154094A (zh) 基于子区间划分的高光谱图像非监督波段选择方法
CN103336801A (zh) 基于多特征lsh索引组合的遥感图像检索方法
Shahi et al. Road condition assessment by OBIA and feature selection techniques using very high-resolution WorldView-2 imagery
CN106228130A (zh) 基于模糊自编码网络的遥感影像云检测方法
CN106844739A (zh) 一种基于神经网络协同训练的遥感图像变化信息检索方法
Chen et al. Agricultural remote sensing image cultivated land extraction technology based on deep learning
San Miguel-Ayanz et al. An iterative classification approach for mapping natural resources from satellite imagery
CN110276746A (zh) 一种鲁棒性遥感图像变化检测方法
CN107909062A (zh) 一种基于信息熵的遥感影像特征离散化方法及系统
AlAfandy et al. Artificial neural networks optimization and convolution neural networks to classifying images in remote sensing: A review
Förster et al. Significance analysis of different types of ancillary geodata utilized in a multisource classification process for forest identification in Germany
Mitrakis et al. A novel self‐organizing neuro‐fuzzy multilayered classifier for land cover classification of a VHR image

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150812

Termination date: 20181029