CN102930275A - 基于Cramer’s V指数的遥感影像特征选择方法 - Google Patents

基于Cramer’s V指数的遥感影像特征选择方法 Download PDF

Info

Publication number
CN102930275A
CN102930275A CN2012104196093A CN201210419609A CN102930275A CN 102930275 A CN102930275 A CN 102930275A CN 2012104196093 A CN2012104196093 A CN 2012104196093A CN 201210419609 A CN201210419609 A CN 201210419609A CN 102930275 A CN102930275 A CN 102930275A
Authority
CN
China
Prior art keywords
feature
cramer
value
node
remote sensing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012104196093A
Other languages
English (en)
Other versions
CN102930275B (zh
Inventor
吴波
曹森茂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201210419609.3A priority Critical patent/CN102930275B/zh
Publication of CN102930275A publication Critical patent/CN102930275A/zh
Application granted granted Critical
Publication of CN102930275B publication Critical patent/CN102930275B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及一种基于Cramer’sV指数的高分辨遥感影像特征选择方法,包括以下步骤:1)对获取的遥感影像进行预处理以及影像特征提取;2)基于Cramer’sV关联指数的连续特征离散化并行处理;3)并行处理获取两两特征间的列联表;4)基于Cramer’sV关联指数的特征选择。该方法特征选择效果好,效率高,适用性强,能够有效提高遥感影像的分类精度。本方法不仅限于遥感影像处理,可以广泛应用于各种高维度和复杂类型数据集(如文本、图像,医学诊断和基因数据等)的模式分类,数据挖掘和可视化等问题。

Description

基于Cramer’s V指数的遥感影像特征选择方法
技术领域
本发明涉及一种基于Cramer’s V指数的高分辨遥感影像特征选择方法。
背景技术
由于高空间分辨影像能够快速精确地获取地物的景观结构、几何形状、纹理等细节信息,在较小的空间尺度上观察地表的细节变化,因而高分辨率影像已经广泛应用于地表的精确监测和各种地类信息的获取,在土地利用更新、自然资源和环境调查、国防、管线、电信、城市规划管理、自然灾害监测、海岸带和海洋制图等各个方面已开展了广泛的应用。然而,尽管高分辨率遥感影像的空间分辨率很高,成像光谱通道却很少,这导致影像中光谱信息具有很大的不确定性。主要表现在:地物的光谱分布变化大,不同地物的光谱相互重叠,地物信息呈现高度细节化,同类地物的光谱差异变大,异类目标的光谱相互重叠。为了精度地获取地表信息,人们普遍从以下两方面进行改进:(1)采用面向对象的遥感影像处理技术,对影像进行多尺度的对象分割,并从分割斑块中提取各种光谱、形状和纹理等的对象解译特征;(2)增加辅助数据或专家经验知识以弥补遥感数据解译过程中光谱信息的模糊性和不确定性。这两个过程一方面导致待处理的数据维数大量增加,另一方面导致数据类型的复杂化,使得解译的数据包含连续型数据、离散型数据和语义型数据等混合类型。那么如何从高维复杂的特征数据中自动、快速、有效地获取最优特征子集是遥感数据处理的一个关键问题,目前这个过程通常采用人工选取的模式,由专家根据相关经验或可视化显示,人工判读地选取相关特征子集。这种作业方式费时费力,既不能保证选择的特征子集是特征的优化组合,也不利于影像的自动化解译,无法满足大规模批量影像处理的实际需求。
由于遥感信息处理具有以下特点:(1)特征维数高,遥感数据兼具光谱、形状、纹理、时空信息等多种特征;(2)数据类型复杂,可能包括连续变量、离散变量、语义变量等多种类型数据;(3)特征冗余大,由于空间相关和异质性,遥感的影像特征冗余度一般很高;(4)数据量大,遥感处理的数据通常是TB级的海量数据;(5)地学规律,地学分析通常需要结合相关领域的专家知识。这些特点导致目前的特征选择方法不能在特性选择的效率与精度,特性选择的稳定性与冗余剔除、融合和处理语义数据的简便性等方面满足遥感数据处理的要求。因而,表明发展适合遥感数据特点的特征选择技术和方法仍然是遥感信息处理的关键问题。
特征选择是指从一组已知特征集中按照某种准则选择出最有效的特征子集,以实现特征空间维数的压缩、计算资源的节省以及分类效果的稳定。特征选择可以表述为:从已获得的                                                
Figure 288433DEST_PATH_IMAGE001
个原始特征中选出
Figure 2012104196093100002DEST_PATH_IMAGE002
Figure 831672DEST_PATH_IMAGE003
特征
Figure 2012104196093100002DEST_PATH_IMAGE004
,使可分性判据的值满足=,其中
Figure 2012104196093100002DEST_PATH_IMAGE008
Figure 755744DEST_PATH_IMAGE001
个原始特征中的任意选择的
Figure 141989DEST_PATH_IMAGE002
个特征。
一般地,特征选择分为基于滤波器(filter-based)、基于包容器(wrapper-based)和基于嵌入式(embeded-based)三种类型。基于滤波器的特征选择方法通常不依赖特定的分类器,具有计算简单,速度快和可解释性等特点,非常适合于地学相关应用。目前,常用的滤波器特征选择标准有基于特征方差最大化标准、基于特征空间点的几何距离标准、以及基于特征信息熵(信息互熵)标准等。采用方差最大标准是保留数据集中方差较大的特征,而舍弃方差较小特征的思想。这类方法计算简单,但由于仅利用了数据的方差信息,没有顾及到类别信息,在复杂数据集上获取的特征子集并不有效。基于特征空间中点的几何距离标准(如Fisher分数方法),选择有效特征的思路是选择类内相似性较大,而类间相似性较小的那组特征。虽然Fisher分数综合利用了类别的信息,实验表明该方法对于多峰性数据和离群数据处理效果较差。此外,还容易受数据中噪声干扰,不适用于那些包含“哑变量”或语义变量的数据集。基于特征信息熵标准利用信息互熵描述两个变量间的统计相关性,具有较好的理论基础,但该类方法需要特征的联合概率密度分布信息,而联合概率密度通常难以有效估计,在特征维数很大时难以计算。近年来,基于概率统计标准,如卡方检验(Chi2)和相关函数特征选择(CFS)等广泛应用在遥感特征提取与选择中。Chi2方法通过检测特征的独立性来选择特征,虽然计算较为简单,但独立性检验结果容易受样本数量大小影响。一个通过卡方检验为显著性的依存关系的两个特征可能是由于样本数目,而不是特征本身的特性引起的。CFS方法的特点在于利用特征间的相关系数来构造一个特征选择指标,选择特征计算效率很高,但实验表明它处理复杂数据时剔除冗余特征的能力不强。最近,本人提出一种最大与最小关联指数的特征子集选择方法,利用Cramer’s V的关联性来选取那些同时满足与目标属性具有最大关联性而特征子集内部具有最小关联性的特征。相关试验测试结果表明该方法具有很好效果。但目前该方法在计算Cramer’s V值时,采用等区间划分来获取连续特征的离散值,没有顾及目标属性的信息。这导致了离散结果很容易受数据分布和“离群数据”影响,一定程度上降低了特征选择的效果。在离散化过程中引入目标信息将大大地改善离散化和特征选择的结果。此外,由于该方法在特征选择中需要大量地计算特征间的列联表,导致计算效率不高。以高性能并行计算技术来增强现有搜索算法将极大地增强现有算法的计算效率。
发明内容
本发明的目的在于提供一种基于Cramer’s V关联指数的高分辨遥感影像特征选择方法,该方法特征选择效果好,能够有效提高遥感影像的分类精度。
为实现上述目的,本发明的技术方案是:一种基于Cramer’s V关联指数的高分辨遥感影像特征选择方法,包括以下步骤:
步骤1:对获取的遥感影像进行预处理以及影像特征提取;
步骤2:基于Cramer’s V关联指数的连续特征离散化并行处理;
步骤3:并行处理获取两两特征间的列联表;
步骤4:基于Cramer’s V关联指数的特征选择。
在本发明一实施例中,遥感影像预处理过程包括以下步骤:
步骤1.1:根据获取的遥感影像数据源的影像质量,进行相应的预处理,包括几何与辐射校正、影像拼接与裁剪、影像复原与去噪或影像增强与融合;
步骤1.2:提取影像特征:在eCognition平台下对遥感影像进行多尺度分割,或采用模式识别或数据挖掘技术对遥感影像进行分割,从分割斑块中提取影像的光谱、形状和纹理特征,结合地理数据(如规划数据、位置数据),并对非栅格数据进行栅格化处理后,共同组成一个
Figure 471339DEST_PATH_IMAGE001
维特征的影像数据;
步骤1.3:根据影像中地物实际的分布和分类类别,利用样区工具选择N个训练样本,确认出样区的类别标示,建立这N个样本数据与类别标示的一一对应关系,形成N
Figure 2012104196093100002DEST_PATH_IMAGE009
维的样本数组,作为特征选择的输入数据;其中
Figure 2012104196093100002DEST_PATH_IMAGE011
Figure 248120DEST_PATH_IMAGE001
维特征的样本数据,
Figure 2012104196093100002DEST_PATH_IMAGE012
Figure 2012104196093100002DEST_PATH_IMAGE013
的第
Figure 605414DEST_PATH_IMAGE014
维特征,上标
Figure 2012104196093100002DEST_PATH_IMAGE015
为矢量转置,
Figure 2012104196093100002DEST_PATH_IMAGE016
为类别标示,
Figure 2012104196093100002DEST_PATH_IMAGE017
Figure 408898DEST_PATH_IMAGE018
表示类别数;建立一个由N个输入特征波段组成的待处理数据集合
Figure 2012104196093100002DEST_PATH_IMAGE019
,所述待处理数据集合
Figure 287861DEST_PATH_IMAGE019
包含有N个输入属性和一个目标属性
在本发明一实施例中,基于Cramer’s V的连续特征离散化并行处理过程包括以下步骤:
步骤2.1:对
Figure 174356DEST_PATH_IMAGE013
的每一维连续型的特征,把
Figure 728835DEST_PATH_IMAGE021
分成由分割点
Figure 537171DEST_PATH_IMAGE022
定义的
Figure 2012104196093100002DEST_PATH_IMAGE023
个离散区间
Figure 936929DEST_PATH_IMAGE024
Figure 2012104196093100002DEST_PATH_IMAGE025
,方法是在删除
Figure 206498DEST_PATH_IMAGE021
中可能的重复值后,按从小到大顺序排列
Figure 666299DEST_PATH_IMAGE021
,
Figure 457537DEST_PATH_IMAGE026
,则分割点B的可能取值为
Figure 2012104196093100002DEST_PATH_IMAGE027
Figure 159520DEST_PATH_IMAGE028
以及, 
Figure 782132DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE031
Figure 242194DEST_PATH_IMAGE021
中剔除重复值后剩余的元素数目;
步骤2.2:初始化离散化划分
Figure 255149DEST_PATH_IMAGE032
,设置一个全局变量GCVD=0,
Figure 692647DEST_PATH_IMAGE021
的最大分割区间数
Figure DEST_PATH_IMAGE033
,并设置初始分割区间数 k=1;
步骤2.3:从B中取出一个分割点,加入到划分
Figure 169765DEST_PATH_IMAGE034
中并计算该划分对应的Cramer’s V离散化值,即CVD值;按以上方法分别将B中的每一个可能的分割点加入到划分
Figure 174630DEST_PATH_IMAGE034
中,以分别计算出每一种划分对应的CVD值;
计算CVD值时,需要建立特征
Figure 176347DEST_PATH_IMAGE021
在每种可能的分割条件下与目标属性
Figure 659281DEST_PATH_IMAGE020
的列联表;所述列联表的建立方法为:在MPICH2平台下采用并行计算,按如下步骤实现:
步骤2.3.1:获取并行处理系统中处理器的节点数目
Figure DEST_PATH_IMAGE035
、各节点的处理时间
Figure 256484DEST_PATH_IMAGE036
和CPU处理速度
Figure DEST_PATH_IMAGE037
,并对处理器进行编码
步骤2.3.2:估计各处理器的处理时间:所需处理时间的近似估计方法是保证各计算节点的负载平衡,即分配给各节点的计算量与计算速度近似一致,也就是
Figure DEST_PATH_IMAGE039
近似相等,
步骤2.3.3:根据节点的负载平衡,按照B中
Figure 17187DEST_PATH_IMAGE031
个可能的分割点进行任务划分,并发送到各处理节点;
步骤2.3.4:每个节点产生一个大小为
Figure DEST_PATH_IMAGE041
的数组,并按各自分割点取值情况对
Figure 930566DEST_PATH_IMAGE021
离散化,形成各自的列联表;
步骤2.3.5:在各节点利用列联表计算
Figure 405410DEST_PATH_IMAGE021
在该分割情况下与类别标示
Figure 495726DEST_PATH_IMAGE020
的CVD值,计算方法为:
Figure 739625DEST_PATH_IMAGE042
其中,
Figure DEST_PATH_IMAGE043
表示在离散化
Figure 555397DEST_PATH_IMAGE044
条件下计算特征
Figure 517537DEST_PATH_IMAGE021
与类别标示
Figure 145964DEST_PATH_IMAGE020
的Cramer’s V值;
Figure DEST_PATH_IMAGE045
表示训练样本总数, 
Figure 133118DEST_PATH_IMAGE018
表示类别数,
Figure 556009DEST_PATH_IMAGE046
的计算公式为
Figure 569227DEST_PATH_IMAGE048
Figure 1345DEST_PATH_IMAGE023
表示特征
Figure 954258DEST_PATH_IMAGE021
的实际离散化数目,
Figure DEST_PATH_IMAGE049
为类别标示为
Figure 454377DEST_PATH_IMAGE050
为数目,
Figure DEST_PATH_IMAGE051
表示位于第
Figure 689311DEST_PATH_IMAGE014
个离散化区间内的样本数目;
步骤2.4:当完成B中全部可能的分割点所对应的CVD值计算后,收集器收集各处理节点计算的
Figure DEST_PATH_IMAGE053
值,
Figure 60435DEST_PATH_IMAGE031
为B中分割点数目;
步骤2.5:扫描
Figure 589244DEST_PATH_IMAGE054
值, 确定出CVD最大值所对应的划分,记为
Figure DEST_PATH_IMAGE055
, 方法是如果 CVD(
Figure 810009DEST_PATH_IMAGE056
)>GCVD或者k<
Figure 583930DEST_PATH_IMAGE033
,则用划分
Figure 12900DEST_PATH_IMAGE056
 替代,并设置GCVD = CVD(),设置 k=k+1,否则选择
Figure 786153DEST_PATH_IMAGE021
的最佳划分,存储
Figure 158229DEST_PATH_IMAGE021
与类别标示
Figure 291270DEST_PATH_IMAGE020
的GCVD值以备后用,即在最佳分割
Figure 908458DEST_PATH_IMAGE044
Figure 810555DEST_PATH_IMAGE021
与目标类别的Cramer‘s V的值;
步骤2.6:重复步骤2.1~2.5,循环对其它的特征
Figure DEST_PATH_IMAGE057
进行离散化;
步骤2.7:完成对全部特征的离散化后,存储全部连续数据的CVD最终离散化结果,以备后续步骤使用。
在本发明一实施例中,两两特征间的列联表的获取方式为:基于存储的离散化数据,在MPICH2平台下采用分布式并行计算,按如下步骤实现:
步骤3.1:获取并行处理系统中处理器的节点数目
Figure 269142DEST_PATH_IMAGE035
以及各节点的处理时间
Figure 188557DEST_PATH_IMAGE036
和CPU处理速度,并对处理器进行编码
Figure 659038DEST_PATH_IMAGE038
步骤3.2:估计各处理器的处理时间
Figure 268136DEST_PATH_IMAGE036
;处理时间的方法是保证各计算节点的负载平衡,即分配给各节点的计算量与计算速度近似一致,也就是
Figure 725662DEST_PATH_IMAGE039
近似相等,
Figure 336772DEST_PATH_IMAGE040
步骤3.3:根据节点的负载平衡,按照特征维数与样本数目对输入数据进行任务划分,并发送到各处理节点;
步骤3.4:每个节点产生一个大小为
Figure DEST_PATH_IMAGE059
的数组,并各自统计交叉分类的频数分布表,形成各节点的列联表;
步骤3.5:收集器累加各处理节点产生的列联表,得出输入数据的全体列联表;对全体列联表行和列的合计栏进行扫描,如果合计栏中某元素为零,则删除列联表中对应的行或列。
在本发明一实施例中,Cramer’s V关联系数定义为
Figure 104441DEST_PATH_IMAGE060
,基于Cramer’s V指数的特征选择按如下步骤进行:
步骤4.1:建立一个空集合
Figure DEST_PATH_IMAGE061
,用于存放从集合
Figure 496108DEST_PATH_IMAGE013
中选择的特征,置
Figure 258790DEST_PATH_IMAGE062
表示集合中元素个数为零;
步骤4.2:利用存储的GCVD值来评估各特征
Figure DEST_PATH_IMAGE063
与目标属性的关联系数,即选出GVCD值最大所对应的那个特征,记为
Figure 423164DEST_PATH_IMAGE057
,置
Figure 222493DEST_PATH_IMAGE064
,并从集合
Figure DEST_PATH_IMAGE065
中删除已选特征
Figure 870512DEST_PATH_IMAGE057
,置
Figure 864138DEST_PATH_IMAGE066
;目标属性
Figure 902501DEST_PATH_IMAGE020
与各特征
Figure 505521DEST_PATH_IMAGE058
的最大关联表达为
Figure DEST_PATH_IMAGE067
,其中
Figure 840337DEST_PATH_IMAGE068
是集合
Figure 237820DEST_PATH_IMAGE061
中的元素个数,
Figure DEST_PATH_IMAGE069
是目标属性与特征
Figure 733972DEST_PATH_IMAGE021
的Cramer’s V关联系数值;
步骤4.3:以并行处理方式获取集合
Figure 294266DEST_PATH_IMAGE061
中的每个特征
Figure 862651DEST_PATH_IMAGE057
与集合
Figure 639720DEST_PATH_IMAGE070
中其它特征
Figure DEST_PATH_IMAGE071
的列联表,总共产生
Figure 646860DEST_PATH_IMAGE072
个列联表;
步骤4.4:根据所生成的列联表,计算两两特征间的Cramer’s V关联系数值,并分别求出集合
Figure 625442DEST_PATH_IMAGE061
中的每个特征
Figure 630307DEST_PATH_IMAGE021
与集合
Figure DEST_PATH_IMAGE073
中特征
Figure 192876DEST_PATH_IMAGE057
之间的平均Cramer’s V值,则特征
Figure 191923DEST_PATH_IMAGE021
与特征
Figure 726809DEST_PATH_IMAGE057
的最小关联表达为
Figure 636997DEST_PATH_IMAGE074
,其中
Figure DEST_PATH_IMAGE075
是特征
Figure 188326DEST_PATH_IMAGE021
Figure 474951DEST_PATH_IMAGE057
的Cramer’s V统计值;
步骤4.5:根据Cramer’s V关联指数模型,选择指数模型中最大值所对应的那个特征
Figure 926661DEST_PATH_IMAGE076
,置
Figure DEST_PATH_IMAGE077
;选择Cramer’s V关联指数模型为商值模型或差值模型,分别表示为
Figure 834180DEST_PATH_IMAGE078
 或 
Figure DEST_PATH_IMAGE079
,其中
Figure 371341DEST_PATH_IMAGE080
为惩罚参数;
步骤4.6:从
Figure DEST_PATH_IMAGE081
的候选集合中删除特征
Figure 759859DEST_PATH_IMAGE082
,已选特征个数
Figure DEST_PATH_IMAGE083
步骤4.7:重复以上步骤4.3~4.6,使用增量方式顺序从候选特征集中选出指定个数的特征,或者对全部特征按照重要性从大到小排序。
与现有技术相比,本发明的有益效果是:
1、适合于混合特征数据类型,特征选择效果好,鲁棒性强。该方法具有很好的特征选择效果,显著优于现有的同类特征选择方法mRMR,ReliefF,CFS等选择效果。由于特征关联指标采用CVD离散化变量,并利用频率值或累计值为计算依据,特征中包含的噪声或者离群数据对特征选择结果不会造成明显影响。此外,Cramer’s V统计值不受样本数量大小的影响,适合各种计算场合。
2、能够处理复杂的影像输入特征,适用性强。该方法只需要获取样本中某事件出现的频率表,此外对输入的特征数据类型没有任何限制,适用于连续型数据,离散型数据以及语义型数据的混合数据。该方法属于滤波型特征选择方法,特征选择的标准与过程与具体的分类器无关,适用于所有分类器,方便后续图像处理与应用。
3、具有很强的冗余特征剔除能力。由于Cramer’s V关联指数特征选择方法综合了特征与目标以及特征之间的关联性,所选择的特征满足特征与类别目标的关联性尽可能大,而特征之间的关联性尽可能小。这等效于对冗余特征具有很强的惩罚效果,因而特征子集中的特征冗余度很低。
4、采用并行化计算模式,特征选择效率高。该方法采用增量式的特征选择方式,计算效率很高,适用于高维数据处理。实现过程中,耗时最大的连续特征离散化与特征间的列联表计算过程或步骤均采用简单的分布式并行计算策略,极大地提高了计算效率。
5、应用范围广。本方法不仅限于遥感影像处理,可以广泛应用于各种高维度和复杂类型数据集(如文本、图像,医学诊断和基因数据等)的模式分类,数据挖掘和可视化等问题。
6、CVD离散化结果提供了对原始数据的紧凑表达,有利于领域知识规则的发现和提取,便于专家对地学规则的理解和解释,并且离散化的数据能够显著提高分类器(如Naive Bayer)的分类精度。
附图说明
图1是本发明的实现流程图。
图2是本发明基于Cramer’s V 的连续特征离散化的实现流程图。
图3是本发明采用并行计算方式获取列联表的实现流程图。
图4是本发明特征选择步骤的实现流程图。
具体实施方式
本发明基于Cramer’s V关联指数的高分辨遥感影像特征选择方法,如图1所示,包括以下步骤:
步骤1:对获取的遥感影像进行预处理以及影像特征提取;
步骤2:基于Cramer’s V关联指数的连续特征离散化并行处理;
步骤3:并行处理获取两两特征间的列联表;
步骤4:基于Cramer’s V关联指数的特征选择。
在步骤1中,遥感影像预处理过程包括以下步骤:
步骤1.1:根据获取的光学遥感影像数据源的影像质量,进行相应的预处理,包括几何与辐射校正、影像拼接与裁剪、影像复原与去噪或影像增强与融合等过程;
步骤1.2:提取影像特征:在eCognition平台下对遥感影像进行多尺度分割,或采用模式识别或数据挖掘技术(如中值漂移分割等)对遥感影像进行分割,从分割斑块中提取影像的光谱、形状和纹理等特征,结合其他地理辅助数据(如规划数据、位置数据),并对非栅格数据进行栅格化处理后,共同组成一个
Figure DEST_PATH_IMAGE085
维特征的影像数据;
步骤1.3:根据影像中地物实际的分布和分类类别,利用样区工具选择N个训练样本,确认出样区的类别标示,建立这N个样本数据与类别标示的一一对应关系,形成N维的样本数组,作为特征选择的输入数据;其中
Figure DEST_PATH_IMAGE091
Figure 819738DEST_PATH_IMAGE085
维特征的样本数据,
Figure DEST_PATH_IMAGE093
Figure DEST_PATH_IMAGE095
的第
Figure DEST_PATH_IMAGE097
维特征,上标
Figure DEST_PATH_IMAGE099
为矢量转置,为类别标示,
Figure DEST_PATH_IMAGE105
表示类别数;建立一个由N个输入特征波段组成的待处理数据集合
Figure DEST_PATH_IMAGE107
,所述待处理数据集合
Figure 399624DEST_PATH_IMAGE107
包含有N个输入特征和一个目标属性
Figure DEST_PATH_IMAGE109
本方法采用Cramers’ V进行连续数据离散化(CVD),以实现离散化结果与目标属性具有最大的关联性。通常采用列联表来计算Cramers’ V值,本方法所指的列联表是由两个以上的变量进行交叉分类的频数分布表。假设
Figure DEST_PATH_IMAGE111
个随机实验的结果依据两个特征AB进行分类,
Figure DEST_PATH_IMAGE113
Figure DEST_PATH_IMAGE115
。属于
Figure DEST_PATH_IMAGE117
Figure DEST_PATH_IMAGE119
类的个体有
Figure DEST_PATH_IMAGE121
个。则一个大小为
Figure DEST_PATH_IMAGE123
的列联表为
 
Figure DEST_PATH_IMAGE125
Figure DEST_PATH_IMAGE127
合计
Figure DEST_PATH_IMAGE129
Figure DEST_PATH_IMAGE131
Figure DEST_PATH_IMAGE133
Figure DEST_PATH_IMAGE135
Figure DEST_PATH_IMAGE137
Figure 415291DEST_PATH_IMAGE141
Figure 548113DEST_PATH_IMAGE143
合计
Figure 646519DEST_PATH_IMAGE145
Figure 784426DEST_PATH_IMAGE111
则本方法提出的基于Cramers’ V的连续特征离散化准则定义为
Figure 452430DEST_PATH_IMAGE149
其中 
Figure 670921DEST_PATH_IMAGE151
, 
Figure 592610DEST_PATH_IMAGE153
的计算公式为。使用
Figure 998107DEST_PATH_IMAGE153
除于
Figure 71105DEST_PATH_IMAGE157
是基于以下两个考虑:1)避免离散化过程中过度训练,加快离散化的计算速度;2)减弱离散区间数目
Figure 101378DEST_PATH_IMAGE159
对离散化结果的影响,便于获取最小化的离散区间数目。由于CVD考虑了所有特征的分布情况,刻画了每个分布情况对整体特征的影响,因而CVD具有良好的离散化特性。
如图2所示,在步骤2中,基于Cramer’s V的连续特征离散化过程包括以下步骤:
步骤2.1:对
Figure 761292DEST_PATH_IMAGE095
的每一维连续型的特征
Figure 269634DEST_PATH_IMAGE161
,把
Figure 462717DEST_PATH_IMAGE161
分成由分割点
Figure 663892DEST_PATH_IMAGE163
定义的
Figure 825750DEST_PATH_IMAGE159
个离散区间
Figure 137783DEST_PATH_IMAGE165
Figure 185373DEST_PATH_IMAGE167
,方法是在删除
Figure 557449DEST_PATH_IMAGE161
中可能的重复值后,按从小到大顺序排列
Figure 55481DEST_PATH_IMAGE169
,则分割点B的可能取值为
Figure 957578DEST_PATH_IMAGE171
Figure 500554DEST_PATH_IMAGE173
以及
Figure 356777DEST_PATH_IMAGE175
, 
Figure 276192DEST_PATH_IMAGE177
Figure 32795DEST_PATH_IMAGE179
Figure 746673DEST_PATH_IMAGE161
中剔除重复值后剩余的元素数目;
步骤2.2:初始化离散化划分
Figure 358701DEST_PATH_IMAGE181
,设置一个全局变量GCVD=0,
Figure 816227DEST_PATH_IMAGE161
的最大分割区间数
Figure 489654DEST_PATH_IMAGE183
,并设置初始分割区间数 k=1;
步骤2.3:从B中取出一个分割点,加入到划分
Figure 141477DEST_PATH_IMAGE185
中并计算该划分对应的Cramer’s V离散化值,即CVD值;按以上方法分别将B中的每一个可能的分割点加入到划分
Figure 470828DEST_PATH_IMAGE185
中,以分别计算出每一种划分对应的CVD值;
计算CVD值时,需要建立特征
Figure 466465DEST_PATH_IMAGE161
在每种可能的分割条件下与目标属性的列联表;由于这个计算过程耗时相对较大,因而采用并行处理技术。所述列联表的建立方法为:在MPICH2平台下采用并行计算,按如下步骤实现:
步骤2.3.1:获取并行处理系统中处理器的节点数目
Figure 17456DEST_PATH_IMAGE187
、各节点的处理时间
Figure 568523DEST_PATH_IMAGE189
和CPU处理速度,并对处理器进行编码
Figure 219133DEST_PATH_IMAGE193
步骤2.3.2:估计各处理器的处理时间
Figure 947180DEST_PATH_IMAGE189
:所需处理时间的近似估计方法是保证各计算节点的负载平衡,即分配给各节点的计算量与计算速度近似一致,也就是
Figure 251123DEST_PATH_IMAGE195
近似相等,
Figure 854142DEST_PATH_IMAGE197
步骤2.3.3:根据节点的负载平衡,按照B中
Figure 849343DEST_PATH_IMAGE179
个可能的分割点进行任务划分,并发送到各处理节点;
步骤2.3.4:每个节点产生一个大小为
Figure 512406DEST_PATH_IMAGE123
的数组,并按各自分割点取值情况对
Figure 38065DEST_PATH_IMAGE161
离散化,形成各自的列联表;
步骤2.3.5:在各节点利用列联表计算
Figure 444776DEST_PATH_IMAGE161
在该分割情况下与类别标示
Figure 506535DEST_PATH_IMAGE109
的CVD值,计算方法为:
Figure 74920DEST_PATH_IMAGE199
其中,
Figure 353454DEST_PATH_IMAGE201
表示在离散化
Figure 298276DEST_PATH_IMAGE203
条件下计算特征
Figure 211612DEST_PATH_IMAGE161
与类别标示的Cramer’s V值;表示训练样本总数, 
Figure 199663DEST_PATH_IMAGE105
表示类别数,
Figure 970435DEST_PATH_IMAGE205
Figure 146201DEST_PATH_IMAGE153
的计算公式为
Figure 133749DEST_PATH_IMAGE207
Figure 420374DEST_PATH_IMAGE159
表示特征
Figure 376478DEST_PATH_IMAGE161
的实际离散化数目,
Figure 723146DEST_PATH_IMAGE209
为类别标示为
Figure 932411DEST_PATH_IMAGE211
为数目,
Figure 524191DEST_PATH_IMAGE213
表示位于第个离散化区间
Figure 285660DEST_PATH_IMAGE215
内的样本数目;
步骤2.4:当完成B中全部可能的分割点所对应的CVD值计算后,收集器收集各处理节点计算的
Figure 247799DEST_PATH_IMAGE217
值,
Figure 374762DEST_PATH_IMAGE179
为B中分割点数目;
步骤2.5:扫描
Figure 473168DEST_PATH_IMAGE219
值, 确定出CVD最大值所对应的划分,记为
Figure 161638DEST_PATH_IMAGE221
, 方法是如果 CVD(
Figure 345495DEST_PATH_IMAGE223
)>GCVD或者k<
Figure 279078DEST_PATH_IMAGE183
,则用划分
Figure 497570DEST_PATH_IMAGE223
 替代
Figure 419258DEST_PATH_IMAGE203
,并设置GCVD = CVD(
Figure 606525DEST_PATH_IMAGE223
),设置 k=k+1,否则选择
Figure 639071DEST_PATH_IMAGE203
Figure 712070DEST_PATH_IMAGE161
的最佳划分,存储
Figure 243807DEST_PATH_IMAGE161
与类别标示
Figure 402256DEST_PATH_IMAGE109
的GCVD值以备后用,即在最佳分割
Figure 176177DEST_PATH_IMAGE203
Figure 369261DEST_PATH_IMAGE161
与目标类别的Cramer‘s V的值;
步骤2.6:重复步骤2.1~2.5,循环对其它的特征
Figure 68971DEST_PATH_IMAGE225
进行离散化;
步骤2.7:完成对全部特征
Figure 449136DEST_PATH_IMAGE227
的离散化后,存储全部连续数据的CVD最终离散化结果,以备后续步骤使用。
对每一个特征,CVD离散化算法复杂度的估计值为
Figure 26748DEST_PATH_IMAGE229
Figure 74339DEST_PATH_IMAGE187
为并行处理的接点数。由于遥感影像中的特征划分区间数目不大于2倍的类别数目,远远小于样本数目,因而离散化计算速度比较快。由于该算法是独立地对特征的可能分割点进行离散化,可以方便地采用并行处理技术。
如图3所示,在步骤3中,两两特征间的列联表的获取方式为:基于存储的离散和数据,在MPICH2平台下采用分布式并行计算,按如下步骤实现:
步骤3.1:获取并行处理系统中处理器的节点数目
Figure 815341DEST_PATH_IMAGE187
以及各节点的处理时间
Figure 931064DEST_PATH_IMAGE189
和CPU处理速度
Figure 833161DEST_PATH_IMAGE191
,并对处理器进行编码
Figure 942850DEST_PATH_IMAGE193
步骤3.2:估计各处理器的处理时间
Figure 563187DEST_PATH_IMAGE189
;处理时间的方法是保证各计算节点的负载平衡,即分配给各节点的计算量与计算速度近似一致,也就是近似相等,
Figure 740669DEST_PATH_IMAGE197
步骤3.3:根据节点的负载平衡,按照特征维数与样本数目对输入数据进行任务划分,并发送到各处理节点;
步骤3.4:每个节点产生一个大小为
Figure 454548DEST_PATH_IMAGE231
的数组,并各自统计交叉分类的频数分布表,形成各节点的列联表;
步骤3.5:收集器累加各处理节点产生的列联表,得出输入数据的全体列联表;对全体列联表行和列的合计栏进行扫描,如果合计栏中某元素为零,则删除列联表中对应的行或列。
如图4所示,在步骤4中,Cramer’s V关联系数定义为
Figure 296602DEST_PATH_IMAGE233
,基于Cramer’s V指数的特征选择按如下步骤进行:
步骤4.1:建立一个空集合,用于存放从集合
Figure 129352DEST_PATH_IMAGE095
中选择的特征,置
Figure 14131DEST_PATH_IMAGE237
表示集合
Figure 343482DEST_PATH_IMAGE235
中元素个数为零;
步骤4.2:利用存储的GCVD值来评估各特征
Figure 604699DEST_PATH_IMAGE239
与目标属性的关联系数,即选出GVCD值最大所对应的那个特征,记为,置
Figure 709686DEST_PATH_IMAGE241
,并从集合中删除已选特征,置
Figure 141871DEST_PATH_IMAGE245
;目标属性
Figure 445813DEST_PATH_IMAGE109
与各特征
Figure 550298DEST_PATH_IMAGE227
的最大关联表达为
Figure 990506DEST_PATH_IMAGE247
,其中
Figure 653569DEST_PATH_IMAGE249
是集合
Figure 179228DEST_PATH_IMAGE235
中的元素个数,
Figure 84474DEST_PATH_IMAGE251
是目标属性
Figure 379189DEST_PATH_IMAGE109
与特征
Figure 213153DEST_PATH_IMAGE161
的Cramer’s V关联系数值;
步骤4.3:以并行处理方式获取集合
Figure 226108DEST_PATH_IMAGE235
中的每个特征
Figure 672395DEST_PATH_IMAGE225
与集合
Figure 87196DEST_PATH_IMAGE253
中其它特征
Figure 154378DEST_PATH_IMAGE255
的列联表,总共产生
Figure 159024DEST_PATH_IMAGE257
个列联表;
步骤4.4:根据所生成的列联表,计算两两特征间的Cramer’s V关联系数值,并分别求出集合
Figure 907537DEST_PATH_IMAGE235
中的每个特征
Figure 176845DEST_PATH_IMAGE161
与集合
Figure 352611DEST_PATH_IMAGE259
中两两特征
Figure 841623DEST_PATH_IMAGE225
之间的平均Cramer’s V值,则特征
Figure 128248DEST_PATH_IMAGE161
与特征
Figure 517641DEST_PATH_IMAGE225
的最小关联表达为
Figure 598730DEST_PATH_IMAGE261
,其中
Figure 572109DEST_PATH_IMAGE263
是特征
Figure 662424DEST_PATH_IMAGE161
Figure 906324DEST_PATH_IMAGE225
的Cramer’s V统计值;
步骤4.5:根据Cramer’s V关联指数模型,选择指数模型中最大值所对应的那个特征
Figure 423893DEST_PATH_IMAGE265
,置
Figure 621918DEST_PATH_IMAGE267
;Cramer’s V关联指数模型可以选择商值或差值模型,它们分别表示为 或 
Figure 676648DEST_PATH_IMAGE271
,其中
Figure 881231DEST_PATH_IMAGE273
为惩罚参数,其目的在于平衡特征与目标属性与特征冗余之间的关系;其特点是较大
Figure 65088DEST_PATH_IMAGE273
值所选择的特征子集中包含冗余特征的可能性越大,反之较小的
Figure 497206DEST_PATH_IMAGE273
值包含冗余特征的可能性越大;
步骤4.6:从
Figure 715698DEST_PATH_IMAGE275
的候选集合中删除特征
Figure 76535DEST_PATH_IMAGE277
,已选特征个数
Figure 747687DEST_PATH_IMAGE279
步骤4.7:重复以上步骤4.3~4.6,使用增量方式顺序从候选特征集中选出指定个数的特征,或者对全部特征按照重要性从大到小排序。
选用Cramer’s V关联系数值,而不是卡方检验值来表示列联表中变量关联性是由于它不受样本数量大小的影响,其值能够更加客观反映变量之间真实的关联关系;而卡方独立性检验易受样本大小影响。具有两个优势:第一,Cramers’ V的取值与样本数量无关,解决了卡方检验对样本数目比较敏感的问题;第二,Cramers’ V的值在[0,1]之间取值,有利于通过简单的阈值来判断特征间的关联性是否显著。如果Cramers’ V大于0.1,则该两个特征为显著关联。
本产品的用途主要在于:从高维复杂的特征中挖掘和提取出少量“诊断性”的特征作为遥感数据分析(分类)的输入特征,为海量遥感数据信息自动快速处理提供技术基础,可以成为eConginition平台的插件使用,也可以单独使用。直接的用途是改善遥感影像的可视化分析,解决监督分类中面临的“Hugh”现象,提高影像分类的精度和效率。
Cramer’s V关联指数特征选择可以结合Econgition,REDAS IMAGINE和ENVI等专业软件应用。可以通过标准C++语言在MPCHI2平台下实现。结合eCongition影像分类软件的实现过程如下:
第一步,影像预处理与数据准备阶段。首先,对感影像进行必要的几何、辐射(或融合)后,在Ecognition支持下对遥感影像进行多尺度分割。从分割斑块中提取影像的光谱、形状和纹理等特征。多尺度分割过程可以参考Ecognition用户手册。通过人工解译或实地调查方式确认部分像元(样本数据)的分类情况(个),建立特征与类别目标值的一一对应关系后,通过Import功能导出作为Cramer’s V关联指数特征选择的输入数据。
第二步,为了获取Cramer’s V值,对输入特征为连续的数据进行离散化划分,将连续分为
Figure 790916DEST_PATH_IMAGE159
个离散区间。离散区间的个数
Figure 319724DEST_PATH_IMAGE159
可以根据数据自适应地确定,设置离散化的最大区间数:
Figure 540489DEST_PATH_IMAGE281
。其中
Figure 314410DEST_PATH_IMAGE105
为类别个数,为特征维数,
Figure 944554DEST_PATH_IMAGE111
为样本数目。数据离散化的方式采用CVD方法进行自适应离散化。离散化后的特征集合记为
第三步,建立一个空集合
Figure 167911DEST_PATH_IMAGE283
,用于存放从集合
Figure 454317DEST_PATH_IMAGE285
中选择的特征,已选特征个数
Figure 826392DEST_PATH_IMAGE237
。对上述离散化集合
Figure 959433DEST_PATH_IMAGE243
中的每个特征,获取每个
Figure 413472DEST_PATH_IMAGE225
与类别
Figure 457914DEST_PATH_IMAGE109
的列联表,计算各特征
Figure 78251DEST_PATH_IMAGE239
与目标属性
Figure 732086DEST_PATH_IMAGE109
的Cramer’s V值来评估各特征的关联性。选择出关联性最大的那个特征,记为
Figure 488690DEST_PATH_IMAGE225
,置
Figure 960823DEST_PATH_IMAGE241
,已选特征个数
Figure 802877DEST_PATH_IMAGE245
,并从集合
Figure 260403DEST_PATH_IMAGE243
中删除已选特征
Figure 137092DEST_PATH_IMAGE225
。目标属性
Figure 523336DEST_PATH_IMAGE109
与各特征
Figure 852686DEST_PATH_IMAGE239
的最大关联表达为
Figure 113904DEST_PATH_IMAGE287
,其中
Figure 845099DEST_PATH_IMAGE249
是集合中的元素数目,
Figure 399315DEST_PATH_IMAGE251
是目标属性
Figure 215961DEST_PATH_IMAGE109
与特征的Cramer’s V统计值。
第四步,以并行化计算方式获取集合
Figure 600992DEST_PATH_IMAGE235
中的每个特征
Figure 594618DEST_PATH_IMAGE225
与集合
Figure 898561DEST_PATH_IMAGE275
中其它特征的
Figure 236001DEST_PATH_IMAGE255
列联表,计算集合
Figure 941789DEST_PATH_IMAGE235
中的每个特征与集合
Figure 843667DEST_PATH_IMAGE275
中特征之间的平均Cramer’s V值。各特征
Figure 634905DEST_PATH_IMAGE239
的平均Cramer’s V值表达为
Figure 776037DEST_PATH_IMAGE261
,其中
Figure 336331DEST_PATH_IMAGE263
是特征
Figure 671759DEST_PATH_IMAGE161
的Cramer’s V统计值。
第五步,根据Cramer’s V关联指数模型的值,选择Cramer’s V关联指数中最大值对应的那个特征
Figure 629537DEST_PATH_IMAGE265
,置
Figure 44338DEST_PATH_IMAGE267
。从集合中删除特征,已选特征个数
Figure 530924DEST_PATH_IMAGE279
。Cramer’s V关联指数可以选择商值或差值模型,分别表示为
Figure 65810DEST_PATH_IMAGE269
 或 
Figure 179260DEST_PATH_IMAGE271
,其中
Figure 668272DEST_PATH_IMAGE273
为惩罚参数,其目的在于平衡特征与目标属性与特征冗余之间的关系。其特点是较大
Figure 954897DEST_PATH_IMAGE273
值所选择的特征子集中包含冗余特征的可能性越大,反之较小的
Figure 78711DEST_PATH_IMAGE273
值包含冗余特征的可能性越大,建议取值为[0.5,2]。选择Cramer’s V关联指数中最大值对应的那个特征
Figure 425378DEST_PATH_IMAGE265
。置
Figure 416335DEST_PATH_IMAGE267
第六步,重复以上第四步、第五步,使用增量方式顺序从候选特征集中选出指定个数的特征,或者对全部特征按照重要性从大到小排序。
第七步,根据特征排序或选择情况,本技术可以选择原始特征数据,也可以选择离散化后的特征数据进行影像处理的后续工作。一般情况下离散化的数据能够显著改善原始数据的性能,取得更好的分类和识别效果。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (5)

1.基于Cramer’s V指数的高分辨遥感影像特征选择方法,其特征在于:包括以下步骤:
步骤1:对获取的遥感影像进行预处理以及影像特征提取;
步骤2:基于Cramer’s V关联指数的连续特征离散化并行处理;
步骤3:并行处理获取两两特征间的列联表;
步骤4:基于Cramer’s V关联指数的特征选择。
2.根据权利要求1所述的基于Cramer’s V关联指数的高分辨遥感影像特征选择方法,其特征在于:在步骤1中,遥感影像预处理过程包括以下步骤:
步骤1.1:根据获取的遥感影像数据源的影像质量,进行相应的预处理,包括几何与辐射校正、影像拼接与裁剪、影像复原与去噪或影像增强与融合;
步骤1.2:提取影像特征:在eCognition平台下对遥感影像进行多尺度分割,或采用模式识别或数据挖掘技术对遥感影像进行分割,从分割斑块中提取影像的光谱、形状和纹理特征,结合地理数据,并对非栅格数据进行栅格化处理后,共同组成一个                                               维特征的影像数据;
步骤1.3:根据影像中地物实际的分布和分类类别,利用样区工具选择N个训练样本,确认出样区的类别标示,建立这N个样本数据与类别标示的一一对应关系,形成N
Figure 2012104196093100001DEST_PATH_IMAGE004
维的样本数组
Figure 2012104196093100001DEST_PATH_IMAGE006
,作为特征选择的输入数据;其中
Figure 2012104196093100001DEST_PATH_IMAGE008
Figure 374035DEST_PATH_IMAGE002
维特征的样本数据,
Figure 2012104196093100001DEST_PATH_IMAGE010
Figure 2012104196093100001DEST_PATH_IMAGE012
的第维特征,上标
Figure 2012104196093100001DEST_PATH_IMAGE016
为矢量转置,
Figure 2012104196093100001DEST_PATH_IMAGE018
为类别标示,
Figure 2012104196093100001DEST_PATH_IMAGE020
Figure 2012104196093100001DEST_PATH_IMAGE022
表示类别数。
3.根据权利要求2所述的基于Cramer’s V指数的高分辨遥感影像特征选择方法,其特征在于:在步骤2中,基于Cramer’s V的连续特征离散化并行处理过程包括以下步骤:
步骤2.1:对
Figure 662147DEST_PATH_IMAGE012
的每一维连续型的特征
Figure 2012104196093100001DEST_PATH_IMAGE024
,把
Figure 628835DEST_PATH_IMAGE024
分成由分割点定义的
Figure 2012104196093100001DEST_PATH_IMAGE028
个离散区间
Figure DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE032
,方法是在删除
Figure 774777DEST_PATH_IMAGE024
中可能的重复值后,按从小到大顺序排列
Figure 589149DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE034
,则分割点B的可能取值为
Figure DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE038
以及, 
Figure DEST_PATH_IMAGE042
Figure DEST_PATH_IMAGE044
Figure 100027DEST_PATH_IMAGE024
中剔除重复值后剩余的元素数目;
步骤2.2:初始化离散化划分
Figure DEST_PATH_IMAGE046
,设置一个全局变量GCVD=0,
Figure 174250DEST_PATH_IMAGE024
的最大分割区间数
Figure DEST_PATH_IMAGE048
,并设置初始分割区间数 k=1;
步骤2.3:从B中取出一个分割点,加入到划分
Figure DEST_PATH_IMAGE050
中并计算该划分对应的Cramer’s V离散化值,即CVD值;按以上方法分别将B中的每一个可能的分割点加入到划分
Figure 999249DEST_PATH_IMAGE050
中,以分别计算出每一种划分对应的CVD值;
计算CVD值时,需要建立特征
Figure 605811DEST_PATH_IMAGE024
在每种可能的分割条件下与目标属性
Figure DEST_PATH_IMAGE052
的列联表;所述列联表的建立方法为:在MPICH2平台下采用并行计算,按如下步骤实现:
步骤2.3.1:获取并行处理系统中处理器的节点数目
Figure DEST_PATH_IMAGE054
、各节点的处理时间和CPU处理速度
Figure DEST_PATH_IMAGE058
,并对处理器进行编码
Figure DEST_PATH_IMAGE060
步骤2.3.2:估计各处理器的处理时间
Figure 349907DEST_PATH_IMAGE056
:所需处理时间的近似估计方法是保证各计算节点的负载平衡,即分配给各节点的计算量与计算速度近似一致,也就是
Figure DEST_PATH_IMAGE062
近似相等,
Figure DEST_PATH_IMAGE064
步骤2.3.3:根据节点的负载平衡,按照B中
Figure 228870DEST_PATH_IMAGE044
个可能的分割点进行任务划分,并发送到各处理节点;
步骤2.3.4:每个节点产生一个大小为
Figure DEST_PATH_IMAGE066
的数组,并按各自分割点取值情况对
Figure 591981DEST_PATH_IMAGE024
离散化,形成各自的列联表;
步骤2.3.5:在各节点利用列联表计算
Figure 115366DEST_PATH_IMAGE024
在该分割情况下与类别标示
Figure 732161DEST_PATH_IMAGE052
的CVD值,计算方法为:
Figure DEST_PATH_IMAGE068
其中,
Figure DEST_PATH_IMAGE070
表示在离散化
Figure DEST_PATH_IMAGE072
条件下计算特征
Figure 555146DEST_PATH_IMAGE024
与类别标示
Figure 17220DEST_PATH_IMAGE052
的Cramer’s V值;
Figure DEST_PATH_IMAGE074
表示训练样本总数, 
Figure 598375DEST_PATH_IMAGE022
表示类别数,
Figure DEST_PATH_IMAGE076
Figure DEST_PATH_IMAGE078
的计算公式为
Figure DEST_PATH_IMAGE080
Figure 746590DEST_PATH_IMAGE028
表示特征
Figure 413195DEST_PATH_IMAGE024
的实际离散化数目,
Figure DEST_PATH_IMAGE082
为类别标示为为数目,
Figure DEST_PATH_IMAGE086
表示位于第
Figure 118108DEST_PATH_IMAGE014
个离散化区间内的样本数目;
步骤2.4:当完成B中全部可能的分割点所对应的CVD值计算后,收集器收集各处理节点计算的
Figure DEST_PATH_IMAGE090
值,
Figure 429135DEST_PATH_IMAGE044
为B中分割点数目;
步骤2.5:扫描
Figure DEST_PATH_IMAGE092
值, 确定出CVD最大值所对应的划分,记为
Figure DEST_PATH_IMAGE094
, 方法是如果 CVD(
Figure DEST_PATH_IMAGE096
)>GCVD或者k<
Figure 325415DEST_PATH_IMAGE048
,则用划分
Figure 213737DEST_PATH_IMAGE096
 替代
Figure 778799DEST_PATH_IMAGE072
,并设置GCVD = CVD(
Figure 68966DEST_PATH_IMAGE096
),设置 k=k+1,否则选择
Figure 636399DEST_PATH_IMAGE024
的最佳划分,存储与类别标示
Figure 467269DEST_PATH_IMAGE052
的GCVD值以备后用,即在最佳分割
Figure 269134DEST_PATH_IMAGE072
Figure 132048DEST_PATH_IMAGE024
与目标类别的Cramer‘s V的值;
步骤2.6:重复步骤2.1~2.5,循环对其它的特征
Figure DEST_PATH_IMAGE098
进行离散化;
步骤2.7:完成对全部特征
Figure DEST_PATH_IMAGE100
的离散化后,存储全部连续数据的CVD最终离散化结果,以备后续步骤使用。
4.根据权利要求3所述的基于Cramer’s V关联指数的高分辨遥感影像特征选择方法,其特征在于:在步骤3中,两两特征间的列联表的获取方式为:在MPICH2平台下采用分布式并行计算,按如下步骤实现:
步骤3.1:获取并行处理系统中处理器的节点数目
Figure 480989DEST_PATH_IMAGE054
以及各节点的处理时间
Figure 230902DEST_PATH_IMAGE056
和CPU处理速度
Figure 515253DEST_PATH_IMAGE058
,并对处理器进行编码
Figure 865463DEST_PATH_IMAGE060
步骤3.2:估计各处理器的处理时间
Figure 80412DEST_PATH_IMAGE056
;处理时间的方法是保证各计算节点的负载平衡,即分配给各节点的计算量与计算速度近似一致,也就是
Figure 199678DEST_PATH_IMAGE062
近似相等,
Figure 389351DEST_PATH_IMAGE064
步骤3.3:根据节点的负载平衡,按照特征维数与样本数目对输入数据进行任务划分,并发送到各处理节点;
步骤3.4:每个节点产生一个大小为
Figure DEST_PATH_IMAGE102
的数组,并各自统计交叉分类的频数分布表,形成各节点的列联表;
步骤3.5:收集器累加各处理节点产生的列联表,得出输入数据的全体列联表;对全体列联表行和列的合计栏进行扫描,如果合计栏中某元素为零,则删除列联表中对应的行或列。
5.根据权利要求4所述的基于Cramer’s V指数的高分辨遥感影像特征选择方法,其特征在于:在步骤4中,Cramer’s V关联系数定义为
Figure DEST_PATH_IMAGE104
,基于Cramer’s V指数的特征选择按如下步骤进行:
步骤4.1:建立一个空集合,用于存放从集合中选择的特征,置
Figure DEST_PATH_IMAGE108
表示集合
Figure 288573DEST_PATH_IMAGE106
中元素个数为零;
步骤4.2:利用存储的GCVD值来评估各特征
Figure DEST_PATH_IMAGE110
与目标属性
Figure 527924DEST_PATH_IMAGE052
的关联系数,即选出GVCD值最大所对应的那个特征,记为
Figure 75449DEST_PATH_IMAGE098
,置
Figure DEST_PATH_IMAGE112
,并从集合
Figure DEST_PATH_IMAGE114
中删除已选特征
Figure 88667DEST_PATH_IMAGE098
,置
Figure DEST_PATH_IMAGE116
;目标属性
Figure 396151DEST_PATH_IMAGE052
与各特征
Figure 473698DEST_PATH_IMAGE100
的最大关联表达为
Figure DEST_PATH_IMAGE118
,其中是集合
Figure 896851DEST_PATH_IMAGE106
中的元素个数,
Figure DEST_PATH_IMAGE122
是目标属性与特征
Figure 803813DEST_PATH_IMAGE024
的Cramer’s V关联系数值;
步骤4.3:以并行处理方式获取集合
Figure 752177DEST_PATH_IMAGE106
中的每个特征
Figure 408549DEST_PATH_IMAGE098
与集合
Figure DEST_PATH_IMAGE124
中其它特征
Figure DEST_PATH_IMAGE126
的列联表,总共产生
Figure DEST_PATH_IMAGE128
个列联表;
步骤4.4:根据所生成的列联表,计算两两特征间的Cramer’s V关联系数值,并分别求出集合中的每个特征与集合中特征之间的平均Cramer’s V值,则特征
Figure 89837DEST_PATH_IMAGE024
与特征
Figure 610948DEST_PATH_IMAGE098
的最小关联表达为,其中
Figure DEST_PATH_IMAGE134
是特征
Figure 486763DEST_PATH_IMAGE024
Figure 472036DEST_PATH_IMAGE098
的Cramer’s V统计值;
步骤4.5:根据Cramer’s V关联指数模型,选择指数模型中最大值所对应的那个特征,置;选择Cramer’s V关联指数模型为商值模型或差值模型,分别表示为
Figure DEST_PATH_IMAGE140
 或 
Figure DEST_PATH_IMAGE142
,其中
Figure DEST_PATH_IMAGE144
为惩罚参数;
步骤4.6:从的候选集合中删除特征
Figure DEST_PATH_IMAGE148
,已选特征个数
步骤4.7:重复以上步骤4.3~4.6,使用增量方式顺序从候选特征集中选出指定个数的特征,或者对全部特征按照重要性从大到小排序。
CN201210419609.3A 2012-10-29 2012-10-29 基于Cramer’s V指数的遥感影像特征选择方法 Expired - Fee Related CN102930275B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210419609.3A CN102930275B (zh) 2012-10-29 2012-10-29 基于Cramer’s V指数的遥感影像特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210419609.3A CN102930275B (zh) 2012-10-29 2012-10-29 基于Cramer’s V指数的遥感影像特征选择方法

Publications (2)

Publication Number Publication Date
CN102930275A true CN102930275A (zh) 2013-02-13
CN102930275B CN102930275B (zh) 2015-08-12

Family

ID=47645072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210419609.3A Expired - Fee Related CN102930275B (zh) 2012-10-29 2012-10-29 基于Cramer’s V指数的遥感影像特征选择方法

Country Status (1)

Country Link
CN (1) CN102930275B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463229A (zh) * 2014-12-30 2015-03-25 哈尔滨工业大学 基于相关系数冗余度的高光谱数据有监督分类方法
CN104794496A (zh) * 2015-05-05 2015-07-22 中国科学院遥感与数字地球研究所 一种改进mRMR算法的遥感特征优选算法
CN105320963A (zh) * 2015-10-21 2016-02-10 哈尔滨工业大学 面向高分遥感图像的大尺度半监督特征选择方法
CN106844519A (zh) * 2016-12-29 2017-06-13 中国科学院电子学研究所苏州研究院 基于三维数字地球的遥感专题产品可视化方法
CN107909062A (zh) * 2017-12-11 2018-04-13 海南大学 一种基于信息熵的遥感影像特征离散化方法及系统
CN112113544A (zh) * 2019-06-20 2020-12-22 四川轻化工大学 一种基于无人机影像的遥感数据处理方法及系统
CN112488871A (zh) * 2020-10-23 2021-03-12 广西电网有限责任公司电力科学研究院 一种电网原始输入特征冗余数据剔除方法及系统
TWI780670B (zh) * 2021-04-19 2022-10-11 科智企業股份有限公司 產生人因特徵的方法與系統以及產生動作識別模組的方法與系統

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1040876A (zh) * 1989-10-25 1990-03-28 中国科学院南京土壤研究所 资源卫星数据信息提取技术及其应用
US20120051583A1 (en) * 2010-08-26 2012-03-01 International Business Machines Corporation Soft error verification in hardware designs

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1040876A (zh) * 1989-10-25 1990-03-28 中国科学院南京土壤研究所 资源卫星数据信息提取技术及其应用
US20120051583A1 (en) * 2010-08-26 2012-03-01 International Business Machines Corporation Soft error verification in hardware designs

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WU, BO ETC.: "Feature selection based on max-min-associated indices for classification of remotely sensed imagery", 《INTERNATIONAL JOURNAL OF REMOTE SENSING》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463229A (zh) * 2014-12-30 2015-03-25 哈尔滨工业大学 基于相关系数冗余度的高光谱数据有监督分类方法
CN104463229B (zh) * 2014-12-30 2017-06-27 哈尔滨工业大学 基于相关系数冗余度的高光谱数据有监督分类方法
CN104794496A (zh) * 2015-05-05 2015-07-22 中国科学院遥感与数字地球研究所 一种改进mRMR算法的遥感特征优选算法
CN105320963B (zh) * 2015-10-21 2018-10-02 哈尔滨工业大学 面向高分遥感图像的大尺度半监督特征选择方法
CN105320963A (zh) * 2015-10-21 2016-02-10 哈尔滨工业大学 面向高分遥感图像的大尺度半监督特征选择方法
CN106844519A (zh) * 2016-12-29 2017-06-13 中国科学院电子学研究所苏州研究院 基于三维数字地球的遥感专题产品可视化方法
CN106844519B (zh) * 2016-12-29 2019-07-26 中国科学院电子学研究所苏州研究院 基于三维数字地球的遥感专题产品可视化方法
CN107909062A (zh) * 2017-12-11 2018-04-13 海南大学 一种基于信息熵的遥感影像特征离散化方法及系统
CN107909062B (zh) * 2017-12-11 2021-05-07 海南大学 一种基于信息熵的遥感影像特征离散化方法及系统
CN112113544A (zh) * 2019-06-20 2020-12-22 四川轻化工大学 一种基于无人机影像的遥感数据处理方法及系统
CN112113544B (zh) * 2019-06-20 2022-03-08 四川轻化工大学 一种基于无人机影像的遥感数据处理方法及系统
CN112488871A (zh) * 2020-10-23 2021-03-12 广西电网有限责任公司电力科学研究院 一种电网原始输入特征冗余数据剔除方法及系统
TWI780670B (zh) * 2021-04-19 2022-10-11 科智企業股份有限公司 產生人因特徵的方法與系統以及產生動作識別模組的方法與系統

Also Published As

Publication number Publication date
CN102930275B (zh) 2015-08-12

Similar Documents

Publication Publication Date Title
CN102930275B (zh) 基于Cramer’s V指数的遥感影像特征选择方法
Seyedmohammadi et al. Application of SAW, TOPSIS and fuzzy TOPSIS models in cultivation priority planning for maize, rapeseed and soybean crops
CN110321963B (zh) 基于融合多尺度多维空谱特征的高光谱图像分类方法
Kavzoglu Increasing the accuracy of neural network classification using refined training data
CN103440505B (zh) 空间邻域信息加权的高光谱遥感图像分类方法
CN103413151B (zh) 基于图正则低秩表示维数约简的高光谱图像分类方法
CN103208011B (zh) 基于均值漂移和组稀疏编码的高光谱图像空谱域分类方法
CN109657610A (zh) 一种高分辨率多源遥感影像的土地利用变化检测方法
CN108280396A (zh) 基于深度多特征主动迁移网络的高光谱图像分类方法
Shahi et al. Road condition assessment by OBIA and feature selection techniques using very high-resolution WorldView-2 imagery
Şatır et al. Land use/cover classification techniques using optical remotely sensed data in landscape planning
Peters et al. Synergy of very high resolution optical and radar data for object-based olive grove mapping
CN103336801A (zh) 基于多特征lsh索引组合的遥感图像检索方法
CN108154094A (zh) 基于子区间划分的高光谱图像非监督波段选择方法
Nurmasari et al. Oil palm plantation detection in Indonesia using Sentinel-2 and Landsat-8 optical satellite imagery (case study: Rokan Hulu regency, Riau Province)
CN106228130A (zh) 基于模糊自编码网络的遥感影像云检测方法
San Miguel-Ayanz et al. An iterative classification approach for mapping natural resources from satellite imagery
CN102663740B (zh) 基于图切的sar图像变化检测方法
Chen et al. Rdp-net: Region detail preserving network for change detection
Zhao et al. Landsat time series clustering under modified Dynamic Time Warping
CN107909062A (zh) 一种基于信息熵的遥感影像特征离散化方法及系统
Wang et al. Object-based change detection for vegetation disturbance and recovery using Landsat time series
Naeini et al. Improving the dynamic clustering of hyperspectral data based on the integration of swarm optimization and decision analysis
Radhika et al. Ensemble subspace discriminant classification of satellite images
CN107423771B (zh) 一种两时相遥感图像变化检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150812

Termination date: 20181029

CF01 Termination of patent right due to non-payment of annual fee