CN108399436A - 一种基于极化sar数据的多变量决策树特征集选取方法 - Google Patents

一种基于极化sar数据的多变量决策树特征集选取方法 Download PDF

Info

Publication number
CN108399436A
CN108399436A CN201810243820.1A CN201810243820A CN108399436A CN 108399436 A CN108399436 A CN 108399436A CN 201810243820 A CN201810243820 A CN 201810243820A CN 108399436 A CN108399436 A CN 108399436A
Authority
CN
China
Prior art keywords
separating degree
feature
feature set
numbers
decision tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810243820.1A
Other languages
English (en)
Other versions
CN108399436B (zh
Inventor
洪文
邵璐熠
薛斐腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Electronics of CAS
Original Assignee
Institute of Electronics of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Electronics of CAS filed Critical Institute of Electronics of CAS
Priority to CN201810243820.1A priority Critical patent/CN108399436B/zh
Publication of CN108399436A publication Critical patent/CN108399436A/zh
Application granted granted Critical
Publication of CN108399436B publication Critical patent/CN108399436B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features

Abstract

本发明公开了一种基于极化SAR数据的多变量决策树特征集选取方法,包括:从特征集中选取一种待选择的特征,在所选取特征的一维特征空间的直方图中,对m类样本按照分布位置进行排序;依次计算相邻两类样本的分离度Ji,得到m‑1个分离度值组成的分离度数列;判断分离度数列是否满足分离度筛选条件;以及将满足分离度筛选条件的特征加入特征集中。该方法依据分离度对若干特征做取舍,保留分离度较好的特征,去掉分离度较差的特征,使多变量决策树的分支对象具有良好的分离度,获得更好的分支精度。同时减少特征集里的特征个数,从而减小特征集的容量,降低决策树分类中确定分支时的特征遍历运算量。

Description

一种基于极化SAR数据的多变量决策树特征集选取方法
技术领域
本公开属于遥感分类应用领域,涉及一种基于极化SAR数据的多变量决策树特征集选取方法。
背景技术
合成孔径雷达(SAR,Synthetic Aperture Radar)是一种主动微波遥感手段,与光学遥感相比,信号穿透力强,具有全天时全天候的对地观测能力,是对地观测的重要手段之一。特别地,极化SAR能够反映地面目标的几何结构、分布方向、介电特性等信息。从极化SAR数据中提取的若干极化特征可用于目标的分类与物理特性描述。基于极化SAR数据进行极化特征的选取,是获取地面目标相关信息的重要环节。
目前,决策树分类器是一类结构简单的分类器,可同时实现对目标的分类,并能对目标散射特性进行描述。决策树分类算法需要在每一个节点处遍历特征集的所有特征,从而选择最佳分支,继而分裂形成新的子节点。多变量决策树作为决策树分类算法的一种,在每一个节点处都需要测试两个或多个特征的组合。然而遍历所有特征组合的运算量是非常大的,因此,选取有效特征、减小特征集的容量,是多变量决策树分类操作之前重要的预处理。
现存的最优特征选择方法,一般是对整个特征集进行相关性分析,考虑各个特征之间的联系,去掉相关程度高的特征,使得保留下来的特征彼此之间的相关性很小。然而,当每次参与分支的特征只有两个或其他少量个数时,特征集里是否存在相关的特征并不重要,相关性分析的方法并不能满足多变量决策树对特征集的要求,因此,亟需提出一种基于极化SAR数据的多变量决策树特征集选取方法,能够减少特征集里的特征个数,简化决策树分支时的遍历运算量,并且能够获得有效的特征集。
发明内容
(一)要解决的技术问题
本公开提供了一种基于极化SAR数据的多变量决策树特征集选取方法,以至少部分解决以上所提出的技术问题。
(二)技术方案
根据本公开的一个方面,提供了一种基于极化SAR数据的多变量决策树特征集选取方法,包括:从特征集中选取一种待选择的特征,在所选取特征的一维特征空间的直方图中,对m类样本按照分布位置进行排序;依次计算相邻两类样本的分离度Ji,得到m-1个分离度值组成的分离度数列;判断分离度数列是否满足分离度筛选条件;以及将满足分离度筛选条件的特征加入特征集中。
在本公开的一些实施例中,判断分离度数列是否满足分离度筛选条件;以及将满足分离度筛选条件的特征加入特征集中,包括:获取分离度数列中的最大值,判断该最大值是否超过一分离度设定值;若不超过,去掉该选取特征,并返回特征集中测试下一待选择的特征;对最大值超过分离度设定值的分离度数列中的元素进行处理,将超过分离度设定值的元素减去分离度设定值,将不超过分离度设定值的元素置零,得到新数列;以及对新数列求熵,并判断该新数列的熵值是否超过一熵设定值;若不超过,去掉该选取特征,并返回特征集中测试下一待选择的特征;若超过,则该特征加入特征集中。
在本公开的一些实施例中,基于极化SAR数据的多变量决策树特征集选取方法,还包括:遍历所有待选择的特征,将新数列的熵值超过一熵设定值的特征加入特征集。
在本公开的一些实施例中,对m类样本按照分布位置进行排序的方式包括:各类样本按照分布的波峰位置从左到右进行排序。
在本公开的一些实施例中,相邻两类样本的分离度Ji满足:
J=2(1-e-B)
其中,mi和σi 2(i=1,2)分别代表相邻两类样本分布的均值和方差。
在本公开的一些实施例中,分离度数列中的最大值a满足:
a=max{Ji|i=1,2,...,m-1}
其中,{Ji|i=1,2,...,m-1}为分离度数列。
在本公开的一些实施例中,分离度设定值为0.5;
新数列满足:
在本公开的一些实施例中,对新数列求熵s满足:
在本公开的一些实施例中,熵设定值介于0.2~0.4之间。
在本公开的一些实施例中,基于极化SAR数据的多变量决策树特征集选取方法,其样本的数据为极化SAR数据。
(三)有益效果
从上述技术方案可以看出,本公开提供的一种基于极化SAR数据的多变量决策树特征集选取方法,具有以下有益效果:
依据分离度对若干特征做取舍,保留分离度较好的特征,去掉分离度较差的特征,使多变量决策树的分支对象具有良好的分离度,获得更好的分支精度。同时减少特征集里的特征个数,从而减小特征集的容量,降低决策树分类中确定分支时的特征遍历运算量。
附图说明
图1为根据本公开一实施例所示的一种基于极化SAR数据的多变量决策树特征集选取方法的流程图。
图2为根据本公开一实施例所示的一种基于极化SAR数据的多变量决策树特征集选取方法的具体操作流程图。
图3为根据本公开一实施例所示的一种基于极化SAR数据的多变量决策树特征集选取方法对特征进行选择,在得到的特征集中选取两个特征构成二维特征平面的样本散点图。
具体实施方式
本公开提供了一种基于极化SAR数据的多变量决策树特征集选取方法,依据分离度对若干特征做取舍,保留分离度较好的特征,去掉分离度较差的特征,使多变量决策树的分支对象具有良好的分离度,获得更好的分支精度。同时减少特征集里的特征个数,从而减小特征集的容量,降低决策树分类中确定分支时的特征遍历运算量。
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
在本公开的第一个示例性实施例中,提供了一种基于极化SAR数据的多变量决策树特征集选取方法。
图1为根据本公开一实施例所示的一种基于极化SAR数据的多变量决策树特征集选取方法的流程图。图2为根据本公开一实施例所示的一种基于极化SAR数据的多变量决策树特征集选取方法的具体操作流程图。
参照图1和图2所示,本公开的一种基于极化SAR数据的多变量决策树特征集选取方法,包括:
步骤S102:从特征集中选取一种待选择的特征,在所选取特征的一维特征空间的直方图中,对m类样本按照分布位置进行排序;
本实施例中,针对的是极化SAR数据的特征集,在其他应用场景中,特征集还可以是其他图像数据的特征集,并不局限于本实施例的示例。
本实施例中,在所选取特征的一维特征空间的直方图中,对m类样本按照分布位置从左到右进行排序。其中,在一维特征空间的直方图中,对m类样本按照分布位置从左到右进行排序,指的是对各类样本按照分布的波峰位置从左到右进行排序,m为已知的类别数。
步骤S104:依次计算相邻两类样本的分离度Ji,得到m-1个分离度值组成的分离度数列{Ji|i=1,2,...,m-1};
本实施例中,按照从左到右的顺序依次计算相邻两类样本的分离度Ji
其中,两类样本的分离度Ji满足:
J=2(1-e-B) (1)
其中,mi和σi 2(i=1,2)分别代表相邻两类样本分布的均值和方差。
步骤S106:获取分离度数列中的最大值,判断该最大值是否超过一分离度设定值;若不超过,去掉该选取特征,并返回特征集中测试下一待选择的特征;
本实施例中,获取分离度数列中的最大值a,采用如下公式:
a=max{Ji|i=1,2,...,m-1} (3)
本实施例中,分离度设定值为0.5,参照图2所示,对所选取特征的分离度数列的最大值a与分离度设定值0.5进行比较,当所选取特征的分离度数列的最大值a超过分离度设定值时,则进行下一步S108的步骤;当所选取特征的分离度数列的最大值a不超过分离度设定值时,则说明该选取特征的分离度较差,将该特征去掉,再返回步骤S102对其他的待选择特征进行测试。
根据分离度数列的最大值与分离度设定值进行对比判断属于对数据的初筛阶段,在这一初筛阶段,可以去除分离度较差的特征。
需要说明的是,在实际应用中,分离度设定值的大小可根据实际需要进行适应性设置。
步骤S108:对最大值超过分离度设定值的分离度数列中的元素进行处理,将超过分离度设定值的元素减去分离度设定值,将不超过分离度设定值的元素置零,得到新数列{Ji’|i=1,2,...,m-1};
本实施例中,对最大值超过分离度设定值的分离度数列中的元素进行处理,将超过分离度设定值的元素减去分离度设定值,将不超过分离度设定值的元素置零,得到新数列{Ji’|i=1,2,...,m-1},以分离度设定值为0.5进行示例说明。
即,新数列满足:
步骤S110:对新数列求熵,并判断该新数列的熵值是否超过一熵设定值;若不超过,去掉该选取特征,并返回特征集中测试下一待选择的特征;
本实施例中,熵设定值可介于0.2~0.4之间,根据分散度的具体要求可进行灵活设置,要求分散度高,可令熵设定值高一些;本实施例中,熵设定值以0.3示例,参照图2所示,对步骤S108得到的新数列的分离度进行进一步的判定,通过对新数列求熵,判断该熵值是否超过一熵设定值以进一步判断其分离度是否良好。
本实施例中,对新数列求熵s满足如下公式:
需要说明的是,在实际应用中,熵设定值的大小可根据实际需要进行适应性设置。
步骤S112:遍历所有待选择的特征,将新数列的熵值超过一熵设定值的特征加入特征集;
本实施例中,由于每次只选取一种待选择的特征进行分离度的判断,该判断包括初筛阶段,即通过分离度数列的最大值与分离度设定值进行对比判断的阶段;在该特征的样本数据满足初筛阶段之后进行进一步的判定,即通过构造新数列并将新数列的熵与一熵设定值进行对比判断,从而在两个条件都同时满足的情况下,该特征可以入选特征集;如果初筛阶段不满足,则该特征就去除掉,继续进行下一待选择特征的测试和判定;如此分阶段判断的步骤可以减少特征集里的特征个数,简化决策树分支时的遍历运算量。同时依据分离度选择特征,保留了分离度较好的特征,去掉分离度较差的特征,使多变量决策树的分支对象具有良好的分离度,获得更好的分支精度。
图3为根据本公开一实施例所示的一种基于极化SAR数据的多变量决策树特征集选取方法对特征进行选择,在得到的特征集中选取两个特征构成二维特征平面的样本散点图。
如图3所示,依据本实施例所示的一种基于极化SAR数据的多变量决策树特征集选取方法对特征进行选择,选出两种特征,即散射角和水平后向散射系数。图3中为七种样本在散射角和水平后向散射系数的二维平面上的散点分布图。该图展示了通过本方法选取出两个特征后,样本在被选择的两种特征组成的二维平面上已具有初步的可分性。这展现了被选择特征具有良好的分离度。
需要说明的是,这里是以极化SAR数据作为该方法的一个应用示例,但本公开不限制此方法的应用场景,在其他应用场景中,特征集还可以是其他图像数据的特征,并不局限于本实施例的示例。
综上所述,本公开提供了一种基于极化SAR数据的多变量决策树特征集选取方法,依据分离度对若干特征做取舍,保留分离度较好的特征,去掉分离度较差的特征,使多变量决策树的分支对象具有良好的分离度,获得更好的分支精度。同时减少特征集里的特征个数,从而减小特征集的容量,降低决策树分类中确定分支时的特征遍历运算量。
当然,根据实际需要,本公开的一种基于极化SAR数据的多变量决策树特征集选取方法还包含其他的常见方法和步骤,由于同本公开的创新之处无关,此处不再赘述。
以上所述的具体实施例,对本公开的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本公开的具体实施例而已,并不用于限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种基于极化SAR数据的多变量决策树特征集选取方法,包括:
从特征集中选取一种待选择的特征,在所选取特征的一维特征空间的直方图中,对m类样本按照分布位置进行排序;
依次计算相邻两类样本的分离度Ji,得到m-1个分离度值组成的分离度数列;
判断分离度数列是否满足分离度筛选条件;以及
将满足分离度筛选条件的特征加入特征集中。
2.根据权利要求1所述的多变量决策树特征集选取方法,其中,所述判断分离度数列是否满足分离度筛选条件;以及将满足分离度筛选条件的特征加入特征集中,包括:
获取分离度数列中的最大值,判断该最大值是否超过一分离度设定值;若不超过,去掉该选取特征,并返回特征集中测试下一待选择的特征;
对最大值超过分离度设定值的分离度数列中的元素进行处理,将超过分离度设定值的元素减去分离度设定值,将不超过分离度设定值的元素置零,得到新数列;以及
对新数列求熵,并判断该新数列的熵值是否超过一熵设定值;若不超过,去掉该选取特征,并返回特征集中测试下一待选择的特征;若超过,则该特征加入特征集中。
3.根据权利要求2所述的多变量决策树特征集选取方法,还包括:
遍历所有待选择的特征,将新数列的熵值超过一熵设定值的特征加入特征集。
4.根据权利要求1所述的多变量决策树特征集选取方法,其中,所述对m类样本按照分布位置进行排序的方式包括:
各类样本按照分布的波峰位置从左到右进行排序。
5.根据权利要求2所述的多变量决策树特征集选取方法,其中,所述相邻两类样本的分离度Ji满足:
J=2(1-e-B)
其中,mi分别代表相邻两类样本分布的均值和方差。
6.根据权利要求2所述的多变量决策树特征集选取方法,其中,所述分离度数列中的最大值a满足:
a=max{Ji|=1,2,...,m-1}
其中,{Ji|=1,2,...,m-1}为分离度数列。
7.根据权利要求2所述的多变量决策树特征集选取方法,其中:
所述分离度设定值为0.5;
所述新数列满足:
8.根据权利要求7所述的多变量决策树特征集选取方法,其中,所述对新数列求熵s满足:
9.根据权利要求7所述的多变量决策树特征集选取方法,其中,所述熵设定值介于0.2~0.4之间。
10.根据权利要求1至9任一项所述的多变量决策树特征集选取方法,其中,所述样本的数据为极化SAR数据。
CN201810243820.1A 2018-03-22 2018-03-22 一种基于极化sar数据的多变量决策树特征集选取方法 Active CN108399436B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810243820.1A CN108399436B (zh) 2018-03-22 2018-03-22 一种基于极化sar数据的多变量决策树特征集选取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810243820.1A CN108399436B (zh) 2018-03-22 2018-03-22 一种基于极化sar数据的多变量决策树特征集选取方法

Publications (2)

Publication Number Publication Date
CN108399436A true CN108399436A (zh) 2018-08-14
CN108399436B CN108399436B (zh) 2021-12-07

Family

ID=63092976

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810243820.1A Active CN108399436B (zh) 2018-03-22 2018-03-22 一种基于极化sar数据的多变量决策树特征集选取方法

Country Status (1)

Country Link
CN (1) CN108399436B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840542A (zh) * 2018-12-06 2019-06-04 北京化工大学 基于极化特征的自适应维度决策树分类方法
CN108399436B (zh) * 2018-03-22 2021-12-07 中国科学院电子学研究所 一种基于极化sar数据的多变量决策树特征集选取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050267911A1 (en) * 2001-06-08 2005-12-01 The Regents Of The University Of California Parallel object-oriented decision tree system
CN106372747A (zh) * 2016-08-27 2017-02-01 天津大学 基于随机森林的台区合理线损率估计方法
CN106845339A (zh) * 2016-12-13 2017-06-13 电子科技大学 一种基于双谱和emd融合特征的手机个体识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399436B (zh) * 2018-03-22 2021-12-07 中国科学院电子学研究所 一种基于极化sar数据的多变量决策树特征集选取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050267911A1 (en) * 2001-06-08 2005-12-01 The Regents Of The University Of California Parallel object-oriented decision tree system
CN106372747A (zh) * 2016-08-27 2017-02-01 天津大学 基于随机森林的台区合理线损率估计方法
CN106845339A (zh) * 2016-12-13 2017-06-13 电子科技大学 一种基于双谱和emd融合特征的手机个体识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郑云云: "《面向对象最优特征选择分类提取方法研究》", 《农村经济与科技》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399436B (zh) * 2018-03-22 2021-12-07 中国科学院电子学研究所 一种基于极化sar数据的多变量决策树特征集选取方法
CN109840542A (zh) * 2018-12-06 2019-06-04 北京化工大学 基于极化特征的自适应维度决策树分类方法

Also Published As

Publication number Publication date
CN108399436B (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
Kraft et al. Community assembly, coexistence and the environmental filtering metaphor
CN106326808B (zh) 基于无人机图像的检测输电线路杆塔上鸟窝的方法
Souza et al. Taxonomic sufficiency and indicator taxa reduce sampling costs and increase monitoring effectiveness for ants
KR101221773B1 (ko) 이중편파 레이더를 이용한 기상 및 비기상 에코 분류 방법
Gamba et al. SAR data classification of urban areas by means of segmentation techniques and ancillary optical data
CN108629777A (zh) 一种数字病理全切片图像病变区域自动分割方法
CN108399436A (zh) 一种基于极化sar数据的多变量决策树特征集选取方法
CN112818162B (zh) 图像检索方法、装置、存储介质和电子设备
CN106295498A (zh) 光学遥感图像目标区域检测装置与方法
CN103793709A (zh) 细胞识别方法和装置、以及尿液分析仪
US20090214114A1 (en) Pixel classification in image analysis
CN109542932B (zh) Landsat-8卫星精选遥感数据集定制化筛选方法
Tjørve et al. Mathematical expressions for the species-area relationship and the assumptions behind the models
CN109343062A (zh) 一种径向干扰回波和降水回波的识别方法及系统
CN110046639A (zh) 一种基于超像素权重密度的高光谱影像噪声标签检测方法
Warner et al. Remote sensing of land cover change
Szénási et al. Preparing initial population of genetic algorithm for region growing parameter optimization
CN116206203A (zh) 基于SAR与Dual-EndNet的溢油检测方法
CN105868680A (zh) 台标分类方法及装置
Lelièvre et al. Comparison of traditional microscopy and digitized image analysis to identify and delineate pelagic fish egg spatial distribution
CN113380318B (zh) 人工智能辅助流式细胞术40cd免疫表型检测方法及系统
CN114820662A (zh) 基于点云二维密度的路侧视角地面分割方法、系统及介质
CN111398323A (zh) 一种矿物自动分析系统中自动获取x射线分析位置的计算方法
KR20150142459A (ko) 인스트루먼트 인덱스 자동화 시스템 및 방법
Seebach et al. Identifying strengths and limitations of pan-European forest cover maps through spatial comparison

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant