CN102663417A - 一种小样本数据模式识别的特征选择方法 - Google Patents

一种小样本数据模式识别的特征选择方法 Download PDF

Info

Publication number
CN102663417A
CN102663417A CN2012100732778A CN201210073277A CN102663417A CN 102663417 A CN102663417 A CN 102663417A CN 2012100732778 A CN2012100732778 A CN 2012100732778A CN 201210073277 A CN201210073277 A CN 201210073277A CN 102663417 A CN102663417 A CN 102663417A
Authority
CN
China
Prior art keywords
point
characteristic
classification
rho
frontier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100732778A
Other languages
English (en)
Other versions
CN102663417B (zh
Inventor
张德贤
刘灿
张苗
于俊伟
许伟涛
李保利
杨卫东
王洪群
梁义涛
靳小波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Technology
Original Assignee
Henan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Technology filed Critical Henan University of Technology
Priority to CN201210073277.8A priority Critical patent/CN102663417B/zh
Publication of CN102663417A publication Critical patent/CN102663417A/zh
Application granted granted Critical
Publication of CN102663417B publication Critical patent/CN102663417B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种小样本数据模式识别的特征选择方法,首先根据训练样本集构造SVM分类面模型;确定SVM分类面的边界点,选择合理异类边界点对,计算各合理异类边界点对的分类面点;根据所有分类面模型的分类面点,由特征重要性度量模型计算各特征的重要性度量值;依计算出的特征重要性度量值大小进行特征排序与选择;本发明的方法具有特征重要性度量准确快速等特点,可满足小样本分类器设计的特征选择与排序的实际需要,为模式识别等领域特征选择与排序提供了新的有效技术。

Description

一种小样本数据模式识别的特征选择方法
技术领域
本发明属于模式识别技术领域,涉及一种小样本数据模式识别的特征选择方法。 
背景技术
模式识别系统主要由4个部分组成:数据获取,预处理,特征选择与提取,分类决策,如图1所示。其中特征选择与提取部分就是要根据原始数据,选择和提取最能反映分类本质的特征。特征选择是模式识别中的一个关键问题。由于在很多实际问题中常常不容易找到那些重要的特征,这就使特征选择和提取的任务复杂化而成为构造模式识别系统最困难的任务之一。这个问题已经越来越受到人们重视。 
特征重要性度方法是特征选择排序的核心。现有度量方法包括基于熵函数、类内类间距离、相关性分析、基尼系数(Gini Index)等,由于这些方法都是基于传统统计理论,存在抗噪声能力低、样本数量要求大等局限性,不适合于小样本、非线性、高维数据的模式识别的特征选择处理。 
发明内容
本发明的目的是提供一种小样本数据模式识别的特征选择方法,以解决现有方法不适合于小样本数据的特征选择处理问题。 
为实现上述目的,本发明的小样本数据模式识别的特征选择方法步骤如下: 
(1)根据训练样本集构造SVM分类面模型; 
(2)确定SVM分类面模型的边界点,选择合理异类边界点对,计算各合理异类边界点对的分类面点; 
(3)根据所有分类面模型的分类面点,由特征重要性度量模型计算各特征的重要性度量值; 
(4)对于计算出的特征重要性度量值,值越大表示越重要,由大至小进行特征排序,并优先选择排在前面的特征。 
进一步的,所述步骤(1)中构造SVM分类面模型的方式为:对于多分类问题的每个类别,构造该类与其它类别所组成的2分类SVM分类面模型Modeli,i=1,2,...,C,其中,C为类别数;对于2分类问题,则仅构造1个SVM分类面模型。 
进一步的,所述步骤(1)中,对于给定的训练样本集 
Figure BDA0000144810360000021
其中xm∈Rn为第m个样本点的特征值向量,ym∈{-1,+1}为相应的二分类类别标号,则SVM的最优分类面模型可表示为 
Z ( x ) = Σ j = 1 l β j exp ( - γ | | x - x j | | 2 + b = 0 - - - ( 1 )
其中,γ为大于0的参数;βj,b为通过SVM训练所获得的参数,βj≠0;xj为相应的支持向量点,j=1,...,l,l为支持向量点个数。 
进一步的,所述步骤(2)中确定模型Modeli的边界点,对于任一样本点x,若x属于-1类,则必有Z(x)<-1,若x属于+1类,则必有Z(x)>1,|Z(x)|=1的邻近区域为分类边界区域,则对于给定的训练样本集S,其边界点集合SB为 
SB={x|x∈S,|Z(x)|<θ,θ>0}                    (2) 
其中θ为给定的边界点的分类值门限,取θ<1.2。 
进一步的,所述步骤(2)中选择合理异类边界点对的步骤如下: 
(211)对于给定的训练样本集S和边界点集合SB,求出由所有异类边界点对构成的连线中点集合SO,并求出各异类边界点对连线中点oi的邻近点数N(oi),oi∈SO,i=1,...,|SO|,|SO|为连线中点个数; 
(212)若连线中点集合SO为空,则结束; 
(213)若 则第k个连线中点ok相应的异类边界点为合理异类边界点对,并从SO中删除所有与ok为邻近的所有连线中点,转(212)。 
进一步的,所述步骤(2)中计算各合理异类边界点对的分类面点xD的步骤如下: 
(221)在0-1之间,系数ρ均匀取r点,5≤r≤0,各点为ρi,i=1,...,r,ρ0=0,ρr=1; 
(222)从ρ0=0点开始,计算第i点ρi的SVM分类面模型值Z(ρi),若 
Figure BDA0000144810360000032
则转步骤(223); 
(223)计算插值点 ρ = ρ i - 1 + ( ρ i - 1 - ρ i ) Z ( ρ i - 1 ) [ Z ( ρ i ) - Z ( ρ i - 1 ) ] ;
(224)若|Z(ρ)|<ε则结束,xD=(1-ρ)xB1+ρxB2为获得的代表性点,ε为插值精度; 
(225)若|Z(ρi-1)|<|Z(ρi)|,ρi-1=ρ,否则,ρi=ρ,转步骤(223); 
上述SVM分类面模型为 Z ( ρ ) = Σ j = 1 l β j exp ( - γ ( d j 1 ( 1 - ρ ) 2 + d j 2 ρ 2 + d j 12 ( 1 - ρ ) ρ ) ) + b , 其中ρ为比例系数,dj1、dj2和dj12为常数值。 
进一步的,所述步骤(3)中对于离散特征,给定的训练样本子集SΓ和分类面点子集 
Figure BDA0000144810360000035
Figure BDA0000144810360000036
由SΓ内所有样本求出特征 的各种取值,并由小到大排序,形成特征 
Figure BDA0000144810360000038
的取值集合 V A i = { v 1 , v 2 , . . . , v | V A i | } , 根据 J A i = Σ v ∈ V A i | S Γv | | S Γ | J A i ( v ) 计算各特征的重要性度量值;对于连续特征,给定的训练样本子集SΓ和分类面点子集 
Figure BDA00001448103600000311
Figure BDA00001448103600000312
由SΓ内所有样本求出连续特征 
Figure BDA00001448103600000313
的各种取值,并由小到大排序,形成特征 
Figure BDA00001448103600000314
的取值集合 
Figure BDA00001448103600000315
由连续特征 
Figure BDA00001448103600000316
的取值集合 
Figure BDA00001448103600000317
求出其各取值区间aj=[vj,vj+1],形成取值区间集合 
Figure BDA00001448103600000318
根据  J A i = Σ a ∈ a A i | S Γa | | S Γ | L a J A i ( a ) L Γ 计算各特征的重要性度量值。 
本发明根据最优分类面的主要形状与位置特征对特征分类能力的作用关系, 提出了基于SVM最优分类面模型的特征重要性度量方法,给出了基于边界点的最优分类面模型的分类面点选择与快速计算方法,提出了基于有限分类面点的特征重要性度量模型,该模型能够较充分体现在所限定的特征取值空间中分类面形状与位置的变化,可有效克服现有特征选择方法所存在的局限性;所提出的特征选择方法具有特征重要性度量准确快速等特点,可满足小样本数据分类器设计的特征选择与排序的实际需要,为模式识别等领域特征选择与排序提供了新的有效技术。 
附图说明
图1是现有模式识别系统原理图; 
图2是分类面形状与特征重要性的关系图; 
图3是分类面位置与特征分类能力的关系图; 
图4是特征度量值调整前后的取值分布比较图。 
具体实施方式
本发明旨在为小样本数据模式识别系统构造建立一种特征重要性度量方法,进而建立一种有效的特征选择与排序方法。针对小样本数据特征重要性度量特点,要求样本数量小,抗噪声能力强,度量准确快速等。基于这些要求,本发明提出了一种直接基于SVM最优分类面模型所体现的分类面形状与位置特征构建特征重要性度量的方法,为模式识别等领域特征选择与排序提供了新的有效技术。 
具体小样本数据模式识别的特征选择方法详述如下。 
对于多分类问题的每个类别,构造该类与其它类别所组成的2分类SVM分类面模型Modeli,i=1,2,...,C,其中,C为类别数;对于2分类问题,则仅构造1个SVM分类面模型。不失一般性,对于二维分类问题,假设在所给定区域Γ内分类面形状如图2所示,其中水平轴为特征 
Figure BDA0000144810360000041
垂直轴为特征 
Figure BDA0000144810360000042
对于(a)所示的情况,显然特征 
Figure BDA0000144810360000043
的分类能力最强,特征 
Figure BDA0000144810360000044
的取值可确定相应的分类类别。对于(b)所 示的情况,显然特征 
Figure BDA0000144810360000051
的分类能力最强,而对于(c)所示的情况,特征 
Figure BDA0000144810360000052
和特征 
Figure BDA0000144810360000053
则具有相同的分类作用。分析这些情况可以看出,在给定的特征取值空间中,各特征的分类能力取决于各特征轴与分类面的垂直程度,垂直程度越高则特征的分类能力越强,特征的重要程度也越高。 
各特征轴与分类面的垂直程度可以用各点处分类面的法线方向与特征轴的夹角余弦值来表示。显然对于图2(a)所示的情况,分类面的法线方向与特征轴 
Figure BDA0000144810360000054
的夹角为0度,则夹角余弦值为1,分类面的法线方向与特征轴 
Figure BDA0000144810360000055
的夹角为90度,则夹角余弦值为0。因此,夹角余弦值的大小表示特征的分类能力高低,夹角余弦值越大则分类能力越强。 
假设在所给定区域Γ内分类面位置情况如图3所示,其中水平轴为特征 
Figure BDA0000144810360000056
垂直轴为特征 
Figure BDA0000144810360000057
显然,在这种情况下,尽管各特征轴与决策面的垂直程度相同,但是由于特征 在其取值范围的部分区间内(图3中的b、c之间的区间内)其取值可确定该区间的分类类别,因此特征 的分类能力优于特征 
Figure BDA00001448103600000510
因此可以得出:(1)在所给定的特征取值空间中,特征的分类能力取决于分类面的形状与位置特征,分类面的法线方向与特征轴的夹角余弦值沿特征轴的分布情况可有效描述这些特征,因而可有效度量特征的重要性。(2)特征的分类能力取决于且仅取决于所给定的特征取值空间中分类面的形状与位置特征,即特征的分类能力与特征的具体取值空间有关,与所给定的特征取值空间中分类面的形状与位置特征有关,与所给定的特征取值空间外的分类面的形状与位置特征无关。(3)在所给定的特征取值空间中,若在特征的某个取值区间中无分类面面存在,如图2中的b、c之间的区间内,则在该区间内分类面的法线方向与特征轴的夹角余弦值为1,即在此区间内特征的分类能力为最大。 
对于给定的训练样本集 其中xm∈Rn为第m个样本点的特征值向量,ym∈{-1,+1}为相应的二分类类别标号,则SVM的最优分类面模型可表示为 
Z ( x ) = Σ j = 1 l β j exp ( - γ | | x - x j | | 2 + b = 0 - - - ( 1 )
其中,γ为大于0的参数;βj,b为通过SVM训练所获得的参数,βj≠0;xj为相应的支持向量点,j=1,...,l。 
根据上述最优分类面的主要形状与位置特征对特征分类能力的作用关系和式(1)所示的SVM的最优分类面模型,本发明提出了直接基于SVM最优分类面模型所体现的分类面形状与位置特征构建特征重要性度量的方法的思想,以保证特征重要性度量的直接性与有效性。根据这种思想,根据式(1)所示的SVM的最优分类面模型,对于给定的训练样本集S,其所限定的特征取值空间为Ω,在Ω中可选择一些SVM分类面上的代表性点来分析分类面的形状和位置特征,进而构建特征重要性的度量方法。具体发明内容如下: 
1.SVM最优分类面模型的离散化处理 
SVM最优分类面模型的离散化处理旨在合理选择SVM的分类面的代表点,使这些代表点能够体现SVM最优分类面模型的形状与位置特征。 
根据SVM的分类面的特性,对于任一样本点x,若x属于-1类,则必有Z(x)<-1,若x属于+1类,则必有Z(x)>1,因此,|Z(x)|=1的邻近区域为分类边界区域。因此对于给定的训练样本集S,其边界点集合SB可定义为 
SB={x|x∈S,|Z(x)|<θ,θ>0}                (2) 
其中θ为给定的边界点的分类值门限,一般取θ<1.2。 
决策树构造依据位于分类边界区域的最优分类面的形状与位置特征,显然,异类边界点间连线与最优分类面的交点是SVM分类面上的理想代表性点。同时,由于利用任意两个异类边界点可以获得一个分类面点,因此直接利用各异类边界点对计算分类面点将会导致分类面点局部过密,降低计算效率,影响决策树的性能,因此需要对分类面点进行选择,使各分类面点间具有适当的距离,以限制分类面点的数量。在所有异类边界点间连线与最优分类面的交点中,根据沿SVM 分类面均匀分布的原则,选择部分点作为SVM分类面上的代表性点。 
对于任意给定的两异类边界点,其连线上的分类面点一般近似位于连线的中点。因此可利用异类边界点连线的中点之间距离来选择合理异类边界点对。 
对于给定的训练样本集S和边界点集合SB,两对异类边界点连线的中点分别为oi、oj,其相应第k个特征值分别为oik、ojk,若 
Figure BDA0000144810360000071
|oik-ojk|>ηdk,则oi与oj邻近,否则为非邻近。其中η为给定系数;dk为第k个特征的取值间距估计, 
d k = 1 | S | ( max x i ∈ S x ik - min x i ∈ S x ik ) - - - ( 3 )
其中xik为xi的第k个特征值。显然,系数η与训练样本集S样本点的分布、特征个数有关,特征数越多,系数η应越大,在本发明中,取 
Figure BDA0000144810360000073
其中n为特征个数,δ为常数,一般可取为1-15。 
对于给定的训练样本集S和边界点集合SB,若两异类边界点的中点与所有其它异类边界点对的中点都不近邻,则该两异类边界点为合理异类边界点对。基于异类边界点连线中点的合理异类边界点对选择步骤如下所示: 
Step 1.对于给定的训练样本集S和边界点集合SB,求出由所有异类边界点对构成的连线中点集合SO,并求出各异类边界点对连线中点oi的邻近点数N(oi),oi∈SO i=1,...,|SO|,|SO|为连线中点个数。 
Step 2.若连线中点集合SO为空则结束。 
Step 3.若 
Figure BDA0000144810360000074
则第k个ok相应的异类边界点为合理异类边界点对,并从SO中删除所有与ok为邻近的所有连线中点,转Step 2。 
对于给定的边界点集合SB,对于任意两个异类边界点xB1∈SB、xB2∈SB,x为xB1和xB2之间连线上的点,则有 
x=(1-ρ)xB1+ρxB2                        (4) 
其中,ρ为比例系数,0≤ρ≤1。则有 
‖x-xj2=‖(1-ρ)(xB1-xj)+ρ(xB2-xj)‖2            (5) 
令 
dj1=||xB1-xj2
dj2=||xB2-xj||2                                     (6) 
dj12=2(xB1-xj)·(xB2-xj
则有 
‖x-xj2=dj1(1-ρ)2+dj2ρ2+dj12(1-ρ)ρ            (7) 
对于给定的SVM的分类面模型和任意两个异类边界点xB1和xB2,式(6)中dj1、dj2和dj12为常数值。由式(1)和式(7),对于两个异类边界点连线上的点,SVM的分类面模型可表示为 
Z ( ρ ) = Σ j = 1 l β j exp ( - γ ( d j 1 ( 1 - ρ ) 2 + d j 2 ρ 2 + d j 12 ( 1 - ρ ) ρ ) ) + b - - - ( 8 )
因此,可给出两异类边界点连线与分类面的交点xD的快速计算步骤如下。 
Step 1.在0-1之间,系数ρ均匀取r点,5≤r≤10,各点为ρi,i=1,...,r,ρ0=0,ρr=1。 
Step 2.从ρ0=0点开始,计算Z(ρi),若 
Figure BDA0000144810360000082
则转Step 3。 
Step 3.计算插值点 ρ = ρ i - 1 + ( ρ i - 1 - ρ i ) Z ( ρ i - 1 ) [ Z ( ρ i ) - Z ( ρ i - 1 ) ] .
Step 4.若|Z(ρ)|<ε则结束,xD=(1-ρ)xB1+ρxB2为获得的代表性点,ε为插值精度,一般取ε=0.01。 
Step 5.若|Z(ρi-1)|<|Z(ρi)|,ρi-1=ρ,否则,ρi=ρ,转Step 3。 
边界点xB1和xB2连线至少与分类面相交一次,也可能相交多次,两异类边界点连线与分类面的交点xD的快速计算步骤首先将xB1和xB2之间的连线均匀分成r段,以保证可以找出所有交点,同时为了限制分类面点的数量,仅计算与边界点xB1距离最近的分类面点。 
2.特征重要性度量模型 
对于给定的训练样本集S和边界点集合SB,由所有合理异类边界点对的连线与SVM分类面的交点xD所构成的点集合为分类面点集SD。对于给定的训练样本集S和相应边界点集合SB、分类面点集SD,下面讨论在给定的训练样本子集SΓ中, 
Figure BDA0000144810360000091
特征 
Figure BDA0000144810360000092
的重要性度量方法。 
2.1决策面点选择 
对于给定的训练样本子集SΓ, 
Figure BDA0000144810360000093
令 
B l ( x A i ) = min x k ∈ Γ x ki - - - ( 9 )
B r ( x A i ) = max x k ∈ Γ x ki - - - ( 10 )
其中,xki为样本子集SΓ中xk样本点的第i个特征值,则样本子集SΓ所限定的特征 
Figure BDA0000144810360000096
的取值区间为 
Figure BDA0000144810360000097
为了有效衡量样本子集SΓ所限定的特征取值空间Γ内的分类面形状与位置特性,位于Γ内的分类面点xD应满足: 
(1)xD的第i个特征值xDi应在SΓ所限定的特征 的取值区间 内。 
(2)令xB1、xB2为两异类边界点,xD位于其连线上,xB1∈SB、xB2∈SB,则至少有xB1∈SΓ或xB2∈SΓ,即xB1、xB2之一应属于样本子集SΓ。 
因此,位于样本子集SΓ所限定的特征取值空间内的分类面点子集 
Figure BDA00001448103600000910
为 
S D Γ = { x D | x D ∈ S D , ∀ i , B l ( x A i ) ≤ x Di ≤ B r ( x A i ) , (11) 
2.2决策面点的特征重要性度量模型 
在样本子集SΓ所限定的特征取值空间Γ内,对于任意给定的决策面点xD, 
Figure BDA00001448103600000913
xD点处分类面的法线方向与特征轴的夹角余弦绝对值可表示为 
CV ( x D ) = | ∂ Z ( x D ) ∂ x A i | | grad ( x D ) | - - - ( 12 )
其中,‖grad(xD)‖为决策面在xD点处的梯度模; 
Figure BDA0000144810360000102
为分类面在xD点处对 的偏导数绝对值。显然 
Figure BDA0000144810360000104
对于分类面上的任一点xD,由式(1)可得分类面在xD点处对第i个特征 
Figure BDA0000144810360000105
的偏导数为 
∂ Z ( x D ) ∂ x A i = 2 γ Σ j = 1 l β j ( x ji - x D i ) exp ( - γ | | x D - x j | | 2 ) - - - ( 13 )
进一步整理可得 
∂ Z ( x D ) ∂ x A i = 2 γ ( Σ j = 1 l β j x ji ) exp ( - γ | | x D - x j | | 2 ) + x D i b ) - - - ( 14 )
由式(13)和式(14)可以看出:当核函数取为径向基函数时,各特征在分类面上任意点的偏导数均存在。 
利用下式 
φ(xD)=CV(xD)(1-CV(xD)logCV(xD))                        (15) 
对分类面的法线方向与特征轴的夹角余弦绝对值CV(xD)做调整,则特征 在xD点处的特征重要性度量 
Figure BDA0000144810360000109
可表示为 
J A i ( x D ) = φ ( x D ) - - - ( 16 )
通过式(15)的变换,特征重要性度量值调整前后对比如图4.所示。这种调整方法通过按不同比例调整CV(xD)值,增大度量值间的差别,改善基于各点平均的特征重要性的度量效果。 
2.3离散特征的重要性度量模型 
由前述可知,在所给定的特征取值空间中,特征的分类能力取决于分类面的法线方向与特征轴的夹角余弦值沿特征轴的分布情况。由于离散特征仅取有限个离散点,因此可利用夹角余弦值的局部平均方法度量各离散点处特征的分类能 力,进而根据各离散点处特征的分类能力的平均度量特征的整体分类能力,具体处理方法如下。 
对于给定的训练样本子集SΓ和分类面点子集 
Figure BDA0000144810360000111
Figure BDA0000144810360000112
由SΓ内所有样本求出特征 
Figure BDA0000144810360000113
的各种取值,并由小到大排序,形成特征 
Figure BDA0000144810360000114
的取值集合 
Figure BDA0000144810360000115
则SΓ中离散特征 
Figure BDA0000144810360000116
在其取值为v处的重要性度量 
Figure BDA0000144810360000117
为 
Figure BDA0000144810360000118
其中,SΓv为SΓ中所有样本点的特征 
Figure BDA0000144810360000119
取值为v的样本点子集, 
Figure BDA00001448103600001110
Figure BDA00001448103600001111
为 中所有分类面点的特征 
Figure BDA00001448103600001113
取值为v的决策面点子集。 
离散特征 
Figure BDA00001448103600001114
在SΓ所限定的取值空间Γ内的重要性度量 
Figure BDA00001448103600001115
为 
J A i = Σ v ∈ V A i | S Γv | | S Γ | J A i ( v ) - - - ( 18 )
由式(17)和(18)可以看出,离散特征的重要性度量 利用各分类面点处分类面的法线方向与特征轴的夹角余弦绝对值局部平均体现分类面形状与位置的变化,引入各点处样本点分布情况体现样本分布的均匀性对重要性度量的 
Figure BDA00001448103600001118
影响。 
2.4连续特征的重要性度量 
对于连续特征,在其取值范围内其取值沿特征轴连续变化,在这种情况下,可根据样本点的分布情况将其取值沿特征轴分成若干个区间,利用夹角余弦值的局部平均方法度量各区间内特征的分类能力,进而根据各区间特征的分类能力的平均度量特征的整体分类能力,具体处理方法如下。 
对于给定的训练样本子集SΓ和分类面点子集 
Figure BDA00001448103600001119
Figure BDA00001448103600001120
由SΓ内 所有样本求出连续特征 
Figure BDA0000144810360000121
的各种取值,并由小到大排序,形成特征 的取值集合 
Figure BDA0000144810360000123
由连续特征 
Figure BDA0000144810360000124
的取值集合 
Figure BDA0000144810360000125
求出其各取值区间aj=[vj,vj+1],形成取值区间集合 
Figure BDA0000144810360000126
则SΓ中连续特征 
Figure BDA0000144810360000127
在取值区间a内的重要性度量 
Figure BDA0000144810360000128
为 
Figure BDA0000144810360000129
其中SΓa为SΓ中所有样本点的特征 取值属于区间a的样本点子集, 
Figure BDA00001448103600001211
Figure BDA00001448103600001212
为 
Figure BDA00001448103600001213
中所有决策面点的特征 
Figure BDA00001448103600001214
取值属于区间a的决策面点子集;则连续特征 
Figure BDA00001448103600001215
在SΓ所限定的取值空间Γ内的重要性度量 
Figure BDA00001448103600001216
为 
J A i = Σ a ∈ a A i | S Γa | | S Γ | L a J A i ( a ) L Γ - - - ( 20 )
其中La为区间a的宽度;LΓ为SΓ所限定连续特征 
Figure BDA00001448103600001218
取值区间的总宽度,  L Γ = B r ( x A i ) - B l ( x A i ) .
由式(19)和(20)可以看出,连续特征的重要性度量 
Figure BDA00001448103600001220
利用各取值区间内决策面的法线方向与特征轴的夹角余弦值局部平均和区间宽度分布体现决策面形状与位置的变化,引入各取值区间内样本点分布情况体现样本分布的均匀性对重要性度量 的影响。 
对于计算出的特征重要性度量值,值越大表示越重要,由大至小进行特征排序,排在前面的越重要,应优先选择。 
2.5特征选择实验 
表1、表2为目前常用的打高尔夫的气候类型分类问题,所提出方法和经典 算法C4.5的计算结果。该问题有如下特征和取值。outlook取值于sunny,overcast,rain,量化为0,1,2。temperature取值于64-83。humidity取值于65-96。windy取值于true,false,量化为0,1。支持向量机学习参数为:核函数取为式(2.1-2)所示的径向基函数,γ=05,惩罚系数C=1000,各特征值变换为[-1,1]。 
从表1中可以看出,在整体空间中特征的重要性排序为outlook、windy、humidity、temperature。而在outlook=sunny的子空间中,特征humidity的分类判别能力度量值最大,在outlook=rain的子空间中特征windy的分类判别能力度量值最大。比较表1和表2的计算结果可以看出,在特征取值整体空间中,所提出新方法不仅可以得出合理的特征排序,同时也可以找出无用特征temperature,表明所提出的特征选择与排序方法更为有效。 
表1 特征重要性度量值计算结果 
Figure BDA0000144810360000131
表2 特征判别能力度量 
Figure BDA0000144810360000132
表3为新方法和C4.5算法的样本点数对排序的影响情况比较,计算实例为文本分类的娱乐分类问题,类别数为2,特征个数为400,训练样本总数为786。为 了比较样本点数对排序的影响,在786个样本中顺序选择393点、197点、99点、48点构成新的训练样本集,比较样本数为786时排序前10位和前5位的特征变化情况。依下式计算排序变化量。 
CR ( r ) = 1 r Σ i = 1 r | Rank o ( i ) - Rank ( i ) | - - - ( 21 )
其中,r为考察的特征个数,考察排序前10位时r=10,考察排序前5位时r=5;Ranko(i)为样本数为786时排序前10位或前5位为排序号,Rank(i)为样本数为786时排序前10位或前5位的特征在样本点数变化时的排序号。 
从表3可以看出,在总的变化量上,新方法的前10位最大平均排序变化为65,前5位最大平均排序变化为79.2,C4.5算法的前10位最大平均排序变化为108.2,前5位最大平均排序变化为171.4。与C4.5算法相比,新方法最大平均排 
表3 样本点数对排序的影响(娱乐分类) 
   786点   393点   197点   99点   48点
  新方法          
  前10位平均排序变化  0   6.79   13.4   65   50
  前5位平均排序变化  0   7.5   37.2   63.5   79.2
  C4.5          
  前10位平均排序变化  0   100   86.9   90.9   108.2
  前5位平均排序变化  0   164.4   164   172   171.4
序变化减少了50%以上。在变化趋势上,对于393点、197点,新方法的前10位和前5位平均排序变化量均较小,而对于99点、48点,则逐步增大,而C4.5算法则在所有样本点前10位和前5位平均排序变化量均较大,这表明所提出的特征选择与排序方法可以显著降低样本点数对特征排序结果的影响,与C4.5相比,在样本数少时仍更为有效。 

Claims (7)

1.一种小样本数据模式识别的特征选择方法,其特征在于,该方法的步骤如下:
(1)根据训练样本集,构造SVM分类面模型;
(2)确定SVM分类面的边界点,选择合理异类边界点对,计算各合理异类边界点对的分类面点;
(3)根据所有分类面模型的分类面点,由特征重要性度量模型计算各特征的重要性度量值;
(4)对于计算出的特征重要性度量值,值越大表示越重要,由大至小进行特征排序,并优先选择排在前面的特征。
2.根据权利要求1所述的方法,其特征在于,所述步骤(1)中构造SVM分类面模型的方式为:对于多分类问题的每个类别,构造该类与其它类别所组成的2分类SVM分类面模型Modeli,i=1,2,...,C,其中,C为类别数;对于2分类问题,则仅构造1个SVM分类面模型。
3.根据权利要求1或2所述的方法,其特征在于,所述步骤(1)中,对于给定的训练样本集
Figure FDA0000144810350000011
其中xm∈Rn为第m个样本点的特征值向量,ym∈{-1,+1}为相应的二分类类别标号,则SVM的最优分类面模型可表示为
Z ( x ) = Σ j = 1 l β j exp ( - γ | | x - x j | | 2 + b = 0 - - - ( 1 )
其中,γ为大于0的参数;βj,b为通过SVM训练所获得的参数,βj≠0;xj为相应的支持向量点,j=1,...,l,l为支持向量点个数。
4.根据权利要求3所述的方法,其特征在于:所述步骤(2)中确定模型Modeli的边界点,对于任一样本点x,若x属于-1类,则必有Z(x)<1,若x属于+1类,则必有Z(x)>1,|Z(x)|=1的邻近区域为分类边界区域,则对于给定的训练样本集S,其边界点集合SB
SB={x|x ∈S,|Z(x)|<θ,θ>0}                        (2)
其中θ为给定的边界点的分类值门限,取θ<1.2。
5.根据权利要求4所述的方法,其特征在于,所述步骤(2)中选择合理异类边界点对的步骤如下:
(211)对于给定的训练样本集S和边界点集合SB,求出由所有异类边界点对构成的连线中点集合SO,并求出各异类边界点对连线中点oi的邻近点数N(oi),oi∈SO,i=1,...,|SO|,|SO|为连线中点个数;
(212)若连线中点集合SO为空,则结束;
(213)若则第k个连线中点ok相应的异类边界点为合理异类边界点对,并从SO中删除所有与ok为邻近的所有连线中点,转(212)。
6.根据权利要求5所述的方法,其特征在于,所述步骤(2)中计算各合理异类边界点对的分类面点xD的步骤如下:
(221)在0-1之间,系数ρ均匀取r点,5≤r≤0,各点为ρi,i=1,...,r,ρ0=0,ρr=1;
(222)从ρ0=0点开始,计算第i点ρi的SVM分类面模型值Z(ρi),若
Z ( &rho; i - 1 ) Z ( &rho; i ) < 0 , 则转步骤(223);
(223)计算插值点 &rho; = &rho; i - 1 + ( &rho; i - 1 - &rho; i ) Z ( &rho; i - 1 ) [ Z ( &rho; i ) - Z ( &rho; i - 1 ) ] ;
(224)若|Z(ρ)|<ε则结束,xD=(1-ρ)xB1+ρxB2为获得的代表性点,ε为插值精度;
(225)若|Z(ρi-1)|<|Z(ρi)|,ρi-1=ρ,否则,ρi=ρ,转步骤(223);
上述SVM分类面模型为 Z ( &rho; ) = &Sigma; j = 1 l &beta; j exp ( - &gamma; ( d j 1 ( 1 - &rho; ) 2 + d j 2 &rho; 2 + d j 12 ( 1 - &rho; ) &rho; ) ) + b , 其中ρ为比例系数,di1、dj2和dj12为常数值。
7.根据权利要求6所述的方法,其特征在于:所述步骤(3)中对于离散特征,给定的训练样本子集SΓ和分类面点子集
Figure FDA0000144810350000025
由SΓ内所有样本求出特征
Figure FDA0000144810350000027
的各种取值,并由小到大排序,形成特征
Figure FDA0000144810350000028
的取值集合
Figure FDA0000144810350000029
根据
Figure FDA00001448103500000210
计算各特征的重要性度量值;对于连续特征,给定的训练样本子集SΓ和分类面点子集
Figure FDA0000144810350000032
由SΓ内所有样本求出连续特征
Figure FDA0000144810350000033
的各种取值,并由小到大排序,形成特征
Figure FDA0000144810350000034
的取值集合由连续特征
Figure FDA0000144810350000036
的取值集合
Figure FDA0000144810350000037
求出其各取值区间aj=[vj,vj+1],形成取值区间集合
Figure FDA0000144810350000038
根据计算各特征的重要性度量值。
CN201210073277.8A 2012-03-19 2012-03-19 一种小样本数据模式识别的特征选择方法 Expired - Fee Related CN102663417B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210073277.8A CN102663417B (zh) 2012-03-19 2012-03-19 一种小样本数据模式识别的特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210073277.8A CN102663417B (zh) 2012-03-19 2012-03-19 一种小样本数据模式识别的特征选择方法

Publications (2)

Publication Number Publication Date
CN102663417A true CN102663417A (zh) 2012-09-12
CN102663417B CN102663417B (zh) 2015-02-25

Family

ID=46772901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210073277.8A Expired - Fee Related CN102663417B (zh) 2012-03-19 2012-03-19 一种小样本数据模式识别的特征选择方法

Country Status (1)

Country Link
CN (1) CN102663417B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065154A (zh) * 2012-12-13 2013-04-24 华中科技大学 一种提高二分类支持向量机分类精度的方法
CN103761426A (zh) * 2014-01-02 2014-04-30 中国科学院数学与系统科学研究院 一种在高维数据中快速识别特征组合的方法及系统
CN105528612A (zh) * 2015-11-17 2016-04-27 中国船舶重工集团公司第七0九研究所 一种基于流形距离表征的舰船目标分类识别算法
CN105931191A (zh) * 2015-12-21 2016-09-07 南京邮电大学 基于凹凸混合正则先验的图像盲去卷积方法
CN106778861A (zh) * 2016-12-12 2017-05-31 齐鲁工业大学 一种关键特征的筛选方法
WO2017167095A1 (zh) * 2016-03-31 2017-10-05 阿里巴巴集团控股有限公司 一种模型的训练方法和装置
CN107729952A (zh) * 2017-11-29 2018-02-23 新华三信息安全技术有限公司 一种业务流分类方法及装置
CN108182341A (zh) * 2017-12-29 2018-06-19 清华大学 一种识别时间序列的数据模式的方法及装置
CN108764159A (zh) * 2018-05-30 2018-11-06 北京农业信息技术研究中心 小样本条件下的动物面部识别方法和系统
CN109791564A (zh) * 2017-07-21 2019-05-21 深圳市汇顶科技股份有限公司 信号计算法中的参数的设定方法及装置
CN116821770A (zh) * 2023-07-17 2023-09-29 中国矿业大学 断层区巷道围岩变形智能预测及分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599126A (zh) * 2009-04-22 2009-12-09 哈尔滨工业大学 利用全局互信息加权的支持向量机分类器
US20100121792A1 (en) * 2007-01-05 2010-05-13 Qiong Yang Directed Graph Embedding

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100121792A1 (en) * 2007-01-05 2010-05-13 Qiong Yang Directed Graph Embedding
CN101599126A (zh) * 2009-04-22 2009-12-09 哈尔滨工业大学 利用全局互信息加权的支持向量机分类器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DEXIAN ZHANG等: "A New Approach to Attribute Importance Ranking for Constructing Classification Rules Based on SVR", 《FIFTH INTERNATIONAL CONFERENCE ON FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY,2008》 *
DEXIAN ZHANG等: "Extracting Symbolic Rules from Trained Support Vector Machines Based on the Derivative Heuristic Information", 《FOURTH INTERNATIONAL CONFERENCE ON FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY,2007》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065154A (zh) * 2012-12-13 2013-04-24 华中科技大学 一种提高二分类支持向量机分类精度的方法
CN103761426A (zh) * 2014-01-02 2014-04-30 中国科学院数学与系统科学研究院 一种在高维数据中快速识别特征组合的方法及系统
CN103761426B (zh) * 2014-01-02 2017-01-04 中国科学院数学与系统科学研究院 一种在高维数据中快速识别特征组合的方法及系统
CN105528612A (zh) * 2015-11-17 2016-04-27 中国船舶重工集团公司第七0九研究所 一种基于流形距离表征的舰船目标分类识别算法
CN105931191B (zh) * 2015-12-21 2019-05-03 南京邮电大学 基于凹凸混合正则先验的图像盲去卷积方法
CN105931191A (zh) * 2015-12-21 2016-09-07 南京邮电大学 基于凹凸混合正则先验的图像盲去卷积方法
WO2017167095A1 (zh) * 2016-03-31 2017-10-05 阿里巴巴集团控股有限公司 一种模型的训练方法和装置
US11580441B2 (en) 2016-03-31 2023-02-14 Alibaba Group Holding Limited Model training method and apparatus
TWI735545B (zh) * 2016-03-31 2021-08-11 香港商阿里巴巴集團服務有限公司 一種模型的訓練方法和裝置
CN106778861A (zh) * 2016-12-12 2017-05-31 齐鲁工业大学 一种关键特征的筛选方法
CN109791564A (zh) * 2017-07-21 2019-05-21 深圳市汇顶科技股份有限公司 信号计算法中的参数的设定方法及装置
CN109791564B (zh) * 2017-07-21 2023-06-16 深圳市汇顶科技股份有限公司 信号计算法中的参数的设定方法及装置
CN107729952B (zh) * 2017-11-29 2021-04-30 新华三信息安全技术有限公司 一种业务流分类方法及装置
CN107729952A (zh) * 2017-11-29 2018-02-23 新华三信息安全技术有限公司 一种业务流分类方法及装置
CN108182341B (zh) * 2017-12-29 2019-05-14 清华大学 一种识别时间序列的数据模式的方法及装置
CN108182341A (zh) * 2017-12-29 2018-06-19 清华大学 一种识别时间序列的数据模式的方法及装置
CN108764159A (zh) * 2018-05-30 2018-11-06 北京农业信息技术研究中心 小样本条件下的动物面部识别方法和系统
CN116821770A (zh) * 2023-07-17 2023-09-29 中国矿业大学 断层区巷道围岩变形智能预测及分类方法

Also Published As

Publication number Publication date
CN102663417B (zh) 2015-02-25

Similar Documents

Publication Publication Date Title
CN102663417A (zh) 一种小样本数据模式识别的特征选择方法
CN102663100B (zh) 一种两阶段混合粒子群优化聚类方法
CN106485262A (zh) 一种母线负荷预测方法
CN102855492B (zh) 基于矿物浮选泡沫图像的分类方法
CN109934354A (zh) 基于主动学习的异常数据检测方法
CN105095477A (zh) 一种基于多指标评分的推荐算法
CN106056136A (zh) 一种聚类中心快速确定的数据聚类方法
CN105957076A (zh) 一种基于聚类的点云分割方法及系统
CN106845717A (zh) 一种基于多模型融合策略的能源效率评价方法
CN101719277A (zh) 一种遗传模糊聚类图像分割方法
CN102324047A (zh) 基于稀疏核编码skr的高光谱图像地物识别方法
CN111723876B (zh) 一种考虑双尺度相似性的负荷曲线集成谱聚类方法
CN103473786A (zh) 基于多目标模糊聚类的灰度图像分割方法
CN107391670A (zh) 一种融合协同过滤和用户属性过滤的混合推荐方法
CN102930291B (zh) 用于图形图像的k近邻局部搜索遗传自动聚类方法
Ding et al. Student behavior clustering method based on campus big data
CN103500343A (zh) 基于mnf变换结合扩展属性滤波的高光谱影像分类方法
CN105046323A (zh) 一种正则化rbf网络多标签分类方法
CN104156784A (zh) 一种基于未确知测度综合评价的评标方法
CN102902976A (zh) 一种基于目标及其空间关系特性的图像场景分类方法
CN105205816A (zh) 多特征加权融合的高分辨率sar影像建筑区提取方法
CN104778480A (zh) 一种基于局部密度和测地距离的分层谱聚类方法
CN104715160A (zh) 基于kmdb的软测量建模数据异常点检测方法
CN102254194B (zh) 基于监督流形学习的场景分类方法及装置
CN111696631A (zh) 定量衡量多种塑料包装材料相对绿色度的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150225

Termination date: 20170319

CF01 Termination of patent right due to non-payment of annual fee