CN103425994A - 一种用于模式分类的特征选择方法 - Google Patents

一种用于模式分类的特征选择方法 Download PDF

Info

Publication number
CN103425994A
CN103425994A CN2013103045743A CN201310304574A CN103425994A CN 103425994 A CN103425994 A CN 103425994A CN 2013103045743 A CN2013103045743 A CN 2013103045743A CN 201310304574 A CN201310304574 A CN 201310304574A CN 103425994 A CN103425994 A CN 103425994A
Authority
CN
China
Prior art keywords
omega
feature
overbar
sigma
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013103045743A
Other languages
English (en)
Other versions
CN103425994B (zh
Inventor
曹苏群
朱全银
左晓明
高尚兵
陈晓峰
张虹
杨格兰
陈召兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaiyin Institute of Technology
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN201310304574.3A priority Critical patent/CN103425994B/zh
Publication of CN103425994A publication Critical patent/CN103425994A/zh
Application granted granted Critical
Publication of CN103425994B publication Critical patent/CN103425994B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于模式分类的特征选择方法,通过采用模糊Fisher准则为目标函数求得无监督最佳鉴别矢量的基础上,根据该矢量中每一维的值求得每个特征重要性权值,按照该权值大小进行特征排序,通过给定阈值,选取特征子集,进而实现了特征降维。本发明的方法的实施不仅无需事先提供样本类别信息,而且有效解决了无监督模式下特征选择缺乏分离性度量的问题,在UCI数据集及故障诊断实验中体现了良好的降维性能,具有很高的实用价值。

Description

一种用于模式分类的特征选择方法
技术领域
本发明涉及属于模式识别技术领域,特别涉及一种用于模式分类的特征选择方法,可应用于数据挖掘、故障诊断等行业特征降维。
背景技术
特征选择通过删除冗余特征,构建特征子集,实现数据降维,不仅可以降低计算成本,还可以提高分类精度,近年来,已经成为模式识别、机器学习、数据挖掘和智能故障诊断等领域的研究热点。
特征选择根据样本类别信息是否已知,分为有监督特征选择和无监督特征选择两种。对于有监督特征选择方法,由于样本类别信息已知,因此可定义评价函数来度量各子集的分类精度,使得特征子集只包括那些能够引导样本正确分类的特征,常见的有监督特征选择方法有:Fisher准则、Relief方法和Relief-F方法。然而,现实中实际存在的大量数据,类别信息通常是未知的或不完整的,将这些数据的类别逐一标出,工作量巨大,往往是不可能实现的。在这样的情况下,无监督特征降维将变得尤为重要。主成分分析(PCA)是一种应用广泛的无监督特征降维方法,但该方法获得的降维结果并非某些原始特征的组合,而是构造了新的特征,这些特征没有清晰的含义,因此无法直观地理解数据。于是,人们提出了一些无监督特征选择方法,如有学者提出的一种利用信息增益的SUD特征选择方法。
显然,在有监督模式下,常常可以运用Fisher准则得到最佳鉴别矢量,使得样本在该矢量上投影类内距离最小而类间距离最大,为了将该思想用于无监督模式,研究人员做了大量的研究。例如曹苏群等人提出可一种基于模糊Fisher准则的聚类方法(曹苏群,王士同,陈晓峰等,“基于模糊Fisher准则的半模糊聚类算法,”电子与信息学报,vol.30,no.9,pp.2162-2165,2008.),该方法通过最大化模糊Fisher准则,借助于无监督模式下的最佳鉴别矢量辅助线,实现在该线上投影类间最大、类内最小的聚类。但同样有研究人员针对该聚类方法指出该方法中提出的聚类中心公式是局部解且无法求得全局解(支晓斌,范九伦,“基于模糊Fisher准则的自适应降维模糊聚类算法,”电子与信息学报,vol.31,no.11,pp.2653-2658,2009.);另外有研究人员根据上述聚类方法分别求得与无监督模式下最佳鉴别矢量正交、共轭正交或者既正交又共轭正交的第二个鉴别矢量,由这两个鉴别矢量分别构成无监督最佳鉴别平面、无监督统计不相关最佳鉴别平面或改进的无监督统计不相关最佳鉴别平面,通过该最佳鉴别平面,实现无监督特征降维(曹苏群,王士同,王骏.基于无监督最佳鉴别平面的人脸识别.计算机应用研究,2010,27(6):2352-2355;曹苏群,王士同.无监督模式下统计不相关最佳鉴别平面.计算机应用,2010,30(7):1859-1862;曹苏群,王骏,王士同.正交约束的无监督统计不相关最佳鉴别平面.计算机工程与科学,2010,32(5):34-36.)。这些方法在实际应用中存在两个问题:
1.高维数据只能通过这些最佳鉴别平面降为二维数据;
2.与PCA一样,这些方法都属于特征抽取,即最终得到的降维数据各维并非原有特征,因此难以界定这些特征的具体含义。
如何利用该最佳鉴别矢量实现特征选择,对于解决无监督特征选择存在的:缺乏类别信息,无法给定分离性度量准则以选取便于类别区分的特征等问题有着重要的意义。
发明内容
本发明的目的是针对现有选择方法存在的问题,提供一种在无监督模式下基于无监督最佳鉴别矢量以实现数据降维的用于模式分类的特征选择方法。
本发明的技术方案是在采用模糊Fisher准则为目标函数求得无监督最佳鉴别矢量的基础上,根据该矢量中每一维的值求得每个特征重要性权值,按照该权值大小进行特征排序,通过给定阈值,选取特征子集,进而实现数据降维。
为便于理解本发明方案,首先对本发明的理论基础进行描述如下:
设隶属度函数uij∈[0,1]且其中uij表示第j个样本属于第i类的程度,c为分割聚类数目,xj为N维列向量,此处i、j为变量且取值区间分别为:[1,c]、[1,N],设m为模糊指数且m>1。
在样本空间,定义各类样本均值向量记为mi,模糊类内散布矩阵记为Sfw
S fw = Σ i = 1 c Σ j = 1 N u ij m ( x j - m i ) ( x j - m i ) T - - - ( 1 )
模糊类间散布矩阵记为Sfb
S fb = Σ i = 1 c Σ j = 1 N u ij m ( m i - x ‾ ) ( m i - x ‾ ) T - - - ( 2 )
定义模糊Fisher准则(Fuzzy Fisher Criterion)函数:
J FFC = ω T S fb ω ω T S fw ω - - - ( 3 )
使用拉格朗日(Lagrange)乘子法求解ω、mi和uij的取值,以保证JFFC取得极大值。
定义拉格朗日函数为:
L = ω T S fb ω - λ ω T S fw ω + Σ j = 1 N β j ( Σ i = 1 c u ij - 1 ) - - - ( 4 )
式中λ和βj(j=1,2,…n)为Lagrange乘子。
将L分别对ω、mi及uij求偏导数,并令偏导数为零,可得:
S fw - 1 S fb ω = λω - - - ( 5 )
解式(5)为求一般矩阵
Figure BDA00003535409200034
的特征值问题,λ取该矩阵的最大特征值,而ω为对应的特征向量。
m i = Σ j = 1 N u ij m ( x j - 1 λ x ‾ ) Σ j = 1 N u ij m ( 1 - 1 λ ) - - - ( 6 )
这里,mi是局部解(支晓斌,范九伦,“基于模糊Fisher准则的自适应降维模糊聚类算法,”电子与信息学报,vol.31,no.11,pp.2653-2658,2009.)。
u ij = ( ω T ( x j - m i ) ( x j - m i ) T ω - 1 λ ω T ( m i - x ‾ ) ( m i - x ‾ ) T ω ) - 1 m - 1 Σ k = 1 c ( ω T ( x j - m k ) ( x j - m k ) T ω - 1 λ ω T ( m k - x ‾ ) ( m k - x ‾ ) T ω ) - 1 m - 1 - - - ( 7 )
在模糊聚类中,通常限定uij∈[0,1],因此,对上式给出如下限定条件,若:
ω T ( x j - m i ) ( x j - m i ) T ω ≤ 1 λ ω T ( m i - x ‾ ) ( m i - x ‾ ) T ω - - - ( 8 )
则:uij=1且对所有i′≠i,有ui′j=0。
通过上述讨论,在无监督模式下,可以在实现聚类的同时,求得最佳鉴别矢量。下面通过二维人工数据来阐明如何运用该矢量实现特征排序。其中图1的二维人工数据集中包含168个二维数据,其中每个圆圈代表一个二维数据;通过最大化模糊Fisher准则函数,我们可以获得二类聚类结果,如图2中的为正方形和圆圈所示,并可求得无监督最佳鉴别矢量ω=(ω12)′=(0.4562,-0.8899)’,即图2中的实线所示。将所有样本向X轴和Y轴投影,显然在X轴上的投影相互重合,而在Y轴上的投影将很好地分开,这意味着Y特征比X特征更容易引导正确地数据类别决策,这与|ω2|>|ω1|相吻合,由此,我们可以采用无监督最佳鉴别矢量的每一维取值进行特征排序,实现特征降维。
设ω=(ω12,…ωd)′,定义fk为第k个特征重要性度量:
f k = | ω k | Σ k = 1 d | ω k | - - - ( 9 )
以上述二维人工数据为例,可求得特征X的重要性度量f1=0.3389,而特征Y的重要性度量f2=0.6611,由此可以判定特征Y更为重要,这亦与图2中的分析结果一致。
具体地说,本发明方案通过如下各步骤实现模式分类的特征选择:
A、将原始数据转换为N×d矩阵,其中N为样本个数,d为特征维数;
B、给定阈值ε或迭代次数α,给定特征重要性阈值θ,其中阈值ε的取值区间为[0.001,0.01],迭代次数α的取值区间为[20,50],特征重要性阈值θ的取值区间为[0.8,0.95];
C、使用k-means算法初始化隶属矩阵U=[μij]c×N以及聚类中心m=(m1,m2,...,mc),其中uij表示第j个样本属于第i类的程度,c为分割聚类数目,此处i、j为变量且取值区间分别为:[1,c]、[1,N],设m为模糊指数且m>1;
D、使用以下公式分别计算模糊类内散布矩阵Sfw、模糊类间散布矩阵Sfb
S fw = Σ i = 1 c Σ j = 1 N u ij m ( x j - m i ) ( x j - m i ) T
S fb = Σ i = 1 c Σ j = 1 N u ij m ( m i - x ‾ ) ( m i - x ‾ ) T
其中隶属度函数uij∈[0,1]且
Figure BDA00003535409200044
xj为N维列向量,在样本空间定义各类样本均值向量记为mi
Figure BDA00003535409200048
为所有样本均值,T表示矩阵转置;
E、使用以下公式求得矩阵最大特征值λ对应的模为1的特征向量ω:
S fw - 1 S fb ω = λω
该公式为求一般矩阵
Figure BDA00003535409200047
的特征值问题,其中λ取该矩阵的最大特征值,而ω为λ对应的特征向量;
F、使用以下公式分别计算新的mi和μij
m i = Σ j = 1 N u ij m ( x j - 1 λ x ‾ ) Σ j = 1 N u ij m ( 1 - 1 λ )
其中mi是局部解,
u ij = ( ω T ( x j - m i ) ( x j - m i ) T ω - 1 λ ω T ( m i - x ‾ ) ( m i - x ‾ ) T ω ) - 1 m - 1 Σ k = 1 c ( ω T ( x j - m k ) ( x j - m k ) T ω - 1 λ ω T ( m k - x ‾ ) ( m k - x ‾ ) T ω ) - 1 m - 1
其中k为变量且取值区间分别为:[1,c],在模糊聚类中,通常限定uij∈[0,1],因此对上式给出如下限定条件,若:
ω T ( x j - m i ) ( x j - m i ) T ω ≤ 1 λ ω T ( m i - x ‾ ) ( m i - x ‾ ) T ω
则:uij=1且对所有i′≠i,有ui′j=0;
G、使用以下公式计算JFFC并将迭代次数自增1:
J FFC = ω T S fb ω ω T S fw ω
其中JFFC为模糊Fisher准则(Fuzzy Fisher Criterion)函数;
H、按照预先设定的条件进行判断,如预先设定的条件得到满足,则转到步骤I,否则返回步骤D;
I、使用以下公式计算各特征的重要性度量fk,并将特征按照fk降序排列:
f k = | ω k | Σ k = 1 d | ω k |
其中定义fk为第k个特征重要性度量,设ω=(ω12,…ωd)′;
J、在降序排列的特征中寻找前dθ个特征作为降维后特征,使得
Figure BDA00003535409200056
且dθ最小,从而实现降维,输出形如N×dθ的降维后数据,则算法结束。
在步骤H中,预先设定的条件可以是以下三种:
(1)JFFC相对上次的改变量小于阈值ε;
(2)从步骤D至步骤H的迭代次数不小于设定次数α;
(3)以上两个条件中是否有至少一种得到满足。
本发明相比现有技术有如下优点:
本发明通过采用模糊Fisher准则为目标函数求得无监督最佳鉴别矢量的基础上,根据该矢量中每一维的值求得每个特征重要性权值,按照该权值大小进行特征排序,通过给定阈值,选取特征子集,进而实现了特征降维;该方法的实施不仅无需事先提供样本类别信息,而且有效解决了无监督模式下特征选择缺乏分离性度量的问题,在UCI数据集及故障诊断实验中体现了良好的降维性能,具有很高的实用价值。
附图说明
附图1为本发明的基础理论中阐述的二维人工数据集示意图;
附图2为本发明的基础理论中阐述的无监督最佳鉴别矢量与特征重要性关系示意图;
附图3为本发明具体实施方式的流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步的说明。
如图3所示:本发明方案通过如下各步骤实现模式分类的特征选择:
A、将原始数据转换为N×d矩阵,其中N为样本个数,d为特征维数;
B、给定阈值ε或迭代次数α,给定特征重要性阈值θ,其中阈值ε的取值区间为[0.001,0.01],迭代次数α的取值区间为[20,50],特征重要性阈值θ的取值区间为[0.8,0.95];
C、使用k-means算法初始化隶属矩阵U=[μij]c×N以及聚类中心m=(m1,m2,...,mc),其中uij表示第j个样本属于第i类的程度,c为分割聚类数目,此处i、j为变量且取值区间分别为:[1,c]、[1,N],设m为模糊指数且m>1;
D、使用以下公式分别计算模糊类内散布矩阵Sfw、模糊类间散布矩阵Sfb
S fw = Σ i = 1 c Σ j = 1 N u ij m ( x j - m i ) ( x j - m i ) T
S fb = Σ i = 1 c Σ j = 1 N u ij m ( m i - x ‾ ) ( m i - x ‾ ) T
其中隶属度函数uij∈[0,1]且
Figure BDA00003535409200071
xj为N维列向量,在样本空间定义各类样本均值向量记为mi
Figure BDA00003535409200072
为所有样本均值,T表示矩阵转置;
E、使用以下公式求得矩阵
Figure BDA00003535409200073
最大特征值λ对应的模为1的特征向量ω:
S fw - 1 S fb ω = λω
该公式为求一般矩阵的特征值问题,其中λ取该矩阵的最大特征值,而ω为λ对应的特征向量;
F、使用以下公式分别计算新的mi和μij
m i = Σ j = 1 N u ij m ( x j - 1 λ x ‾ ) Σ j = 1 N u ij m ( 1 - 1 λ )
其中mi是局部解,
u ij = ( ω T ( x j - m i ) ( x j - m i ) T ω - 1 λ ω T ( m i - x ‾ ) ( m i - x ‾ ) T ω ) - 1 m - 1 Σ k = 1 c ( ω T ( x j - m k ) ( x j - m k ) T ω - 1 λ ω T ( m k - x ‾ ) ( m k - x ‾ ) T ω ) - 1 m - 1
其中k为变量且取值区间分别为:[1,c],在模糊聚类中,通常限定uij∈[0,1],因此对上式给出如下限定条件,若:
ω T ( x j - m i ) ( x j - m i ) T ω ≤ 1 λ ω T ( m i - x ‾ ) ( m i - x ‾ ) T ω
则:uij=1且对所有i′≠i,有ui′j=0;
G、使用以下公式计算JFFC并将迭代次数自增1:
J FFC = ω T S fb ω ω T S fw ω
其中JFFC为模糊Fisher准则(Fuzzy Fisher Criterion)函数;
H、按照预先设定的条件进行判断,如预先设定的条件得到满足,则转到步骤I,否则返回步骤D;
I、使用以下公式计算各特征的重要性度量fk,并将特征按照fk降序排列:
f k = | ω k | Σ k = 1 d | ω k |
其中定义fk为第k个特征重要性度量,设ω=(ω12,…ωd)′;
J、在降序排列的特征中寻找前dθ个特征作为降维后特征,使得
Figure BDA00003535409200082
且dθ最小,从而实现降维,输出形如N×dθ的降维后数据,则算法结束。
在步骤H中,预先设定的条件可以是以下三种:
(1)JFFC相对上次的改变量小于阈值ε;
(2)从步骤D至步骤H的迭代次数不小于设定次数α;
(3)以上两个条件中是否有至少一种得到满足。
实验一UCI Wine数据集
本实验采用UCI(C.L.Blake,C.J.Merz,UCI repository of machine learningdatabases,Irvine,CA:University of California,Department of Information andComputer Science,http://www.ics.uci.edu/~mlearn/MLRepository.html,1998.)Wine数据集作为基准数据集,分别使用SUD、Relief-F和本发明提出的方法进行特征降维,对降维后数据进行模糊C均值(Fuzzy C-Mean,FCM)聚类(A.R.Webb.StatisticalPattern Recognition,2nd ed.,Wiley,New York 2002.)并采用约当指标Rand Index(Rand W.,“Objective Criteria for the Evaluation of Clustering Methods,”Journal of the American Statistical Association,vol.66,no.336,pp.846-850,1971.)进行评价。
Rand Index用来计算这两种划分的一致性,其定义如下:
Rand ( P 1 , P 2 ) = a + b n × ( n - 1 ) / 2
式中P1,P2表示对数据集D的两种不同聚类划分结果,a表示D中任意两个样本di,dj在P1,P2中同属于一类的个数;b表示di,dj都不属于同一类的个数;n表示数据集D的样本总数。显而易见,Rand Index取值范围为[0,1],Rand Index值越大,说明P1,P2两种划分越一致。
表1是Wine数据集样本在各类中的分布及样本特征。选取属于第一类和第二类共计130个样本并去除类别信息作为测试数据。本发明方法用到的参数取值如下:ε=0.001、α=20、θ=0.90。
表1 Wine数据集样本分布及样本特征
Figure BDA00003535409200091
表2列出了本发明方法计算得到的各特征重要性度量值及特征排序,并给出了前dθ个特征重要性度量值的和。由于θ=0.90,根据表2知,dθ=6,即当θ=0.90时,使用本发明方法可将Wine数据集将由13维降为6维。
表2 Wine数据集特征排序
Figure BDA00003535409200092
对采用SUD、Relief-F及本发明方法将Wine数据集降成6维后数据分别进行FCM聚类,将聚类结果与原样本类别信息进行比较,计算Rand Index值。SUD降维数据聚类的Rand Index值为0.7709,Relief-F降维数据聚类的Rand Index值为0.8439,而本发明方法降维数据聚类的Rand Index值为0.8701。通过上述约当指标Rand Index值对比表明,本发明方法与SUD、Relief-F相比,本发明降维后数据聚类Rand Index值明显高于同为无监督特征选择的SUD方法,甚至优于使用了样本类别信息的有监督特征选择方法Relief-F,即本发明方法降维后数据聚类与样本原有分布相比具有更好的一致性。
实验二 钢板故障数据集
本实验采用意大利Semeion研究中心提供的钢板故障数据集(Center for MachineLearning and Intelligent Systems,the University of California,Irvine,http://archive.ics.uci.edu/ml/datasets/Steel+Plates+Faults,2011;Buscema,M.,S.Terzi and W.Tastle,,“A new meta-classifier,”Proceedings of the NorthAmerican Fuzzy Inform Processing Society,Jul.12-14,IEEE Xplore Press,Toronto,pp:1-7,2010.),该数据集共有1941个样本,每个样本包含27个特征,每个样本隶属于7种钢板故障中的一种,具体信息请见表3。选取属于Pastry和Z_Scratch故障共计348个样本作为测试数据,分别使用SUD、Relief-F和本发明方法进行特征降维,其中本发明方法用到的参数阈值ε、迭代次数α、特征重要性阈值θ取值同实验1。
表3 钢板故障数据集样本分布及样本特征
Figure BDA00003535409200101
表4列出了本发明方法计算得到的各特征重要性度量值及特征排序,并给出了前dθ个特征重要性度量值的和。由于θ=0.90,根据表4知,dθ=11,即当θ=0.90时,使用本发明方法可将钢板故障数据集由27维降为11维。
表4 钢板故障数据集特征排序
Figure BDA00003535409200111
对采用SUD、Relief-F及本发明方法将钢板故障数据集降成11维后数据分别进行FCM聚类,将聚类结果与原样本类别信息进行比较,计算Rand Index值。SUD降维数据聚类的Rand Index值为0.5066,Relief-F降维数据聚类的Rand Index值为0.6268,而本发明方法降维数据聚类的Rand Index值为0.6268。通过上述约当指标Rand Index值对比表明,本发明方法与SUD、Relief-F相比,本发明降维后数据聚类Rand Index值明显高于同为无监督特征选择的SUD方法;且本发明降维后数据聚类Rand Index值与使用了样本类别信息的有监督特征选择方法Relief-F得到的数据聚类Rand Index值相同,而Relief-F本身属于有监督的特征选择,即该方法需要样本类别标记信息,而本发明方法属于无监督的特征选择,无需样本类别标记信息,所以接近甚至等于Relief-F就已经能充分说明了本发明方法优异的性能。综上所述,对于钢板故障数据集而言,本发明方法降维后数据聚类与样本原有分布相比具有更好的一致性。
本发明通过采用模糊Fisher准则为目标函数求得无监督最佳鉴别矢量的基础上,根据该矢量中每一维的值求得每个特征重要性权值,按照该权值大小进行特征排序,通过给定阈值,选取特征子集,进而实现了特征降维;该方法的实施不仅无需事先提供样本类别信息,而且有效解决了无监督模式下特征选择缺乏分离性度量的问题,在UCI数据集及故障诊断实验中体现了良好的降维性能,具有很高的实用价值。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内;本发明未涉及的技术均可通过现有技术加以实现。

Claims (8)

1.一种用于模式分类的特征选择方法,其特征在于:通过采用模糊Fisher准则为目标函数求得无监督最佳鉴别矢量的基础上,根据该矢量中每一维的值求得每个特征重要性权值,按照该权值大小进行特征排序,通过给定阈值,选取特征子集,进而实现数据降维;具体包括以下各步骤:
A、将原始数据转换为N×d矩阵,其中N为样本个数,d为特征维数;
B、给定阈值ε或迭代次数α,给定特征重要性阈值θ;
C、使用k-means算法初始化隶属矩阵U=[μij]c×N以及聚类中心m=(m1,m2,...,mc),其中uij表示第j个样本属于第i类的程度,c为分割聚类数目,此处i、j为变量且取值区间分别为:[1,c]、[1,N],设m为模糊指数且m>1;
D、使用以下公式分别计算模糊类内散布矩阵Sfw、模糊类间散布矩阵Sfb
S fw = Σ i = 1 c Σ j = 1 N u ij m ( x j - m i ) ( x j - m i ) T
S fb = Σ i = 1 c Σ j = 1 N u ij m ( m i - x ‾ ) ( m i - x ‾ ) T
其中隶属度函数uij∈[0,1]且
Figure FDA00003535409100013
xj为N维列向量,在样本空间定义各类样本均值向量记为mi
Figure FDA00003535409100014
为所有样本均值,T表示矩阵转置;
E、使用以下公式求得矩阵
Figure FDA00003535409100015
最大特征值λ对应的模为1的特征向量ω:
S fw - 1 S fb ω = λω
该公式为求一般矩阵的特征值问题,其中λ取该矩阵的最大特征值,而ω为λ对应的特征向量;
F、使用以下公式分别计算新的mi和μij
m i = Σ j = 1 N u ij m ( x j - 1 λ x ‾ ) Σ j = 1 N u ij m ( 1 - 1 λ )
其中mi是局部解,
u ij = ( ω T ( x j - m i ) ( x j - m i ) T ω - 1 λ ω T ( m i - x ‾ ) ( m i - x ‾ ) T ω ) - 1 m - 1 Σ k = 1 c ( ω T ( x j - m k ) ( x j - m k ) T ω - 1 λ ω T ( m k - x ‾ ) ( m k - x ‾ ) T ω ) - 1 m - 1
其中k为变量且取值区间分别为:[1,c],在模糊聚类中,通常限定uij∈[0,1],因此对上式给出如下限定条件,若:
ω T ( x j - m i ) ( x j - m i ) T ω ≤ 1 λ ω T ( m i - x ‾ ) ( m i - x ‾ ) T ω
则:uij=1且对所有i′≠i,有ui′j=0;
G、使用以下公式计算JFFC并将迭代次数自增1:
J FFC = ω T S fb ω ω T S fw ω
其中JFFC为模糊Fisher准则(Fuzzy Fisher Criterion)函数;
H、按照预先设定的条件进行判断,如预先设定的条件得到满足,则转到步骤I,否则返回步骤D;
I、使用以下公式计算各特征的重要性度量fk,并将特征按照fk降序排列:
f k = | ω k | Σ k = 1 d | ω k |
其中定义fk为第k个特征重要性度量,设ω=(ω12,…ωd)′;
J、在降序排列的特征中寻找前dθ个特征作为降维后特征,使得
Figure FDA00003535409100025
且dθ最小,从而实现降维,算法结束。
2.根据权利要求1所述的用于模式分类的特征选择方法,其特征在于:步骤H中所述预先设定的条件进行判断是指:JFFC相对上次的改变量小于阈值ε。
3.根据权利要求1所述的用于模式分类的特征选择方法,其特征在于:步骤H中所述预先设定的条件进行判断是指:从步骤D至步骤H的迭代次数不小于设定次数α。
4.根据权利要求1所述的用于模式分类的特征选择方法,其特征在于:步骤H中所述预先设定的条件进行判断是指:JFFC相对上次的改变量小于阈值ε或者从步骤D至步骤H的迭代次数不小于设定次数α这两个条件种是否有至少一个得到满足。
5.根据权利要求1所述的用于模式分类的特征选择方法,其特征在于:步骤J中实现降维后需要输出形如N×dθ的降维后数据。
6.根据权利要求1所述的用于模式分类的特征选择方法,其特征在于:步骤B中阈值ε的取值区间为[0.001,0.01]。
7.根据权利要求1所述的用于模式分类的特征选择方法,其特征在于:步骤B中迭代次数α的取值区间为[20,50]。
8.根据权利要求1所述的用于模式分类的特征选择方法,其特征在于:步骤B中特征重要性阈值θ的取值区间为[0.8,0.95]。
CN201310304574.3A 2013-07-19 2013-07-19 一种用于模式分类的特征选择方法 Active CN103425994B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310304574.3A CN103425994B (zh) 2013-07-19 2013-07-19 一种用于模式分类的特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310304574.3A CN103425994B (zh) 2013-07-19 2013-07-19 一种用于模式分类的特征选择方法

Publications (2)

Publication Number Publication Date
CN103425994A true CN103425994A (zh) 2013-12-04
CN103425994B CN103425994B (zh) 2016-09-21

Family

ID=49650704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310304574.3A Active CN103425994B (zh) 2013-07-19 2013-07-19 一种用于模式分类的特征选择方法

Country Status (1)

Country Link
CN (1) CN103425994B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760524A (zh) * 2016-03-01 2016-07-13 淮阴工学院 一种科学新闻标题的多层次多分类方法
CN107085705A (zh) * 2017-03-28 2017-08-22 中国林业科学研究院资源信息研究所 一种高效特征选择的森林参数遥感估测方法
CN108375729A (zh) * 2018-02-02 2018-08-07 北京航空航天大学 基于Fisher判别的电机SOM聚类退化状态评估方法
CN108872128A (zh) * 2018-05-16 2018-11-23 江苏大学 一种模糊非相关c均值聚类的茶叶红外光谱分类方法
CN109002859A (zh) * 2018-07-25 2018-12-14 郑州轻工业学院 基于主成分分析的传感器阵列特征选择和阵列优化方法
CN109409389A (zh) * 2017-08-16 2019-03-01 香港理工大学深圳研究院 一种融合多特征的面向对象变化检测方法
CN111860062A (zh) * 2019-04-29 2020-10-30 中国移动通信集团河北有限公司 人脸识别样本处理方法及装置
CN113792678A (zh) * 2021-09-17 2021-12-14 华院分析技术(上海)有限公司 基于PCA和ReliefF的SVM的人脸识别方法、系统、存储介质及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1945602A (zh) * 2006-07-07 2007-04-11 华中科技大学 一种基于人工神经网络的特征选择方法
CN101770521A (zh) * 2010-03-11 2010-07-07 东华大学 一种用于垂直搜索引擎的聚焦相关度排序方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1945602A (zh) * 2006-07-07 2007-04-11 华中科技大学 一种基于人工神经网络的特征选择方法
CN101770521A (zh) * 2010-03-11 2010-07-07 东华大学 一种用于垂直搜索引擎的聚焦相关度排序方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曹苏群等: "基于模糊Fisher 准则的半模糊聚类算法", 《电子与信息学报》, 30 September 2008 (2008-09-30) *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760524B (zh) * 2016-03-01 2019-04-19 淮阴工学院 一种科学新闻标题的多层次多分类方法
CN105760524A (zh) * 2016-03-01 2016-07-13 淮阴工学院 一种科学新闻标题的多层次多分类方法
CN107085705A (zh) * 2017-03-28 2017-08-22 中国林业科学研究院资源信息研究所 一种高效特征选择的森林参数遥感估测方法
CN107085705B (zh) * 2017-03-28 2020-08-04 中国林业科学研究院资源信息研究所 一种特征选择的森林参数遥感估测方法
CN109409389A (zh) * 2017-08-16 2019-03-01 香港理工大学深圳研究院 一种融合多特征的面向对象变化检测方法
CN108375729A (zh) * 2018-02-02 2018-08-07 北京航空航天大学 基于Fisher判别的电机SOM聚类退化状态评估方法
CN108872128A (zh) * 2018-05-16 2018-11-23 江苏大学 一种模糊非相关c均值聚类的茶叶红外光谱分类方法
CN108872128B (zh) * 2018-05-16 2020-08-28 江苏大学 一种模糊非相关c均值聚类的茶叶红外光谱分类方法
CN109002859A (zh) * 2018-07-25 2018-12-14 郑州轻工业学院 基于主成分分析的传感器阵列特征选择和阵列优化方法
CN109002859B (zh) * 2018-07-25 2022-07-05 郑州轻工业学院 基于主成分分析的传感器阵列特征选择和阵列优化方法
CN111860062A (zh) * 2019-04-29 2020-10-30 中国移动通信集团河北有限公司 人脸识别样本处理方法及装置
CN111860062B (zh) * 2019-04-29 2023-11-24 中国移动通信集团河北有限公司 人脸识别样本处理方法及装置
CN113792678A (zh) * 2021-09-17 2021-12-14 华院分析技术(上海)有限公司 基于PCA和ReliefF的SVM的人脸识别方法、系统、存储介质及设备

Also Published As

Publication number Publication date
CN103425994B (zh) 2016-09-21

Similar Documents

Publication Publication Date Title
CN103425994A (zh) 一种用于模式分类的特征选择方法
CN107203785A (zh) 多路径高斯核模糊c均值聚类算法
Tahan et al. EMDID: Evolutionary multi-objective discretization for imbalanced datasets
Sinaga et al. Entropy K-means clustering with feature reduction under unknown number of clusters
CN104462184A (zh) 一种基于双向抽样组合的大规模数据异常识别方法
CN105809672A (zh) 一种基于超像素和结构化约束的图像多目标协同分割方法
CN105046714A (zh) 一种非监督的基于超像素和目标发现机制的图像分割方法
CN103559426A (zh) 一种针对多视图数据融合的蛋白质功能模块挖掘方法
CN104809475A (zh) 基于增量线性判别分析的多类标场景分类方法
CN104966161A (zh) 一种基于高斯混合模型的电能质量录波数据计算分析方法
CN107301430A (zh) 广义多变量模糊c均值聚类算法
Ruparel et al. Learning from small data set to build classification model: A survey
Johnson et al. Comparing Massive High-Dimensional Data Sets.
Liu et al. Research on big data mining technology of electric vehicle charging behaviour
Xia et al. A unified granular-ball learning model of Pawlak rough set and neighborhood rough set
CN117609818A (zh) 基于聚类与信息熵的电网关联关系发现方法
Cao et al. Froth image clustering with feature semi-supervision through selection and label information
Ni et al. The analysis and research of clustering algorithm based on PCA
Wang et al. Application of clustering technique to electricity customer classification for load forecasting
CN105760478A (zh) 一种基于机器学习的大规模分布式的数据聚类方法
Qin Software reliability prediction model based on PSO and SVM
WO2018165530A1 (en) Method of constructing a reusable low-dimensionality map of high-dimensionality data
Vardhan et al. Density based clustering technique on crop yield prediction
Mola et al. Discriminant analysis and factorial multiple splits in recursive partitioning for data mining
CN113159180A (zh) 基于城市能源大数据的负荷及其可调潜力协同聚类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20131204

Assignee: Huaian Li Tai silicon carbide micro-powder company limited

Assignor: Huaijin Polytechnical College

Contract record no.: 2017320000208

Denomination of invention: Feature selecting method for pattern classification

Granted publication date: 20160921

License type: Common License

Record date: 20171218

EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20131204

Assignee: TAIZHOU WEIDMANN HIGH VOLTAGE INSULATION CO., LTD.

Assignor: Huaijin Polytechnical College

Contract record no.: 2018320000081

Denomination of invention: Feature selecting method for pattern classification

Granted publication date: 20160921

License type: Common License

Record date: 20180416

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20131204

Assignee: Suqian Nanxiang chemicals manufacturing Co. Ltd.

Assignor: Huaijin Polytechnical College

Contract record no.: 2018320000103

Denomination of invention: Feature selecting method for pattern classification

Granted publication date: 20160921

License type: Common License

Record date: 20180508

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20131204

Assignee: Nanjing ran latex products Co., Ltd.

Assignor: Huaijin Polytechnical College

Contract record no.: 2018320000111

Denomination of invention: Feature selecting method for pattern classification

Granted publication date: 20160921

License type: Common License

Record date: 20180522

EE01 Entry into force of recordation of patent licensing contract