CN102663417A

CN102663417A - 一种小样本数据模式识别的特征选择方法

Info

Publication number: CN102663417A
Application number: CN2012100732778A
Authority: CN
Inventors: 张德贤; 刘灿; 张苗; 于俊伟; 许伟涛; 李保利; 杨卫东; 王洪群; 梁义涛; 靳小波
Original assignee: Henan University of Technology
Current assignee: Henan University of Technology
Priority date: 2012-03-19
Filing date: 2012-03-19
Publication date: 2012-09-12
Anticipated expiration: 2032-03-19
Also published as: CN102663417B

Abstract

本发明涉及一种小样本数据模式识别的特征选择方法，首先根据训练样本集构造SVM分类面模型；确定SVM分类面的边界点，选择合理异类边界点对，计算各合理异类边界点对的分类面点；根据所有分类面模型的分类面点，由特征重要性度量模型计算各特征的重要性度量值；依计算出的特征重要性度量值大小进行特征排序与选择；本发明的方法具有特征重要性度量准确快速等特点，可满足小样本分类器设计的特征选择与排序的实际需要，为模式识别等领域特征选择与排序提供了新的有效技术。

Description

一种小样本数据模式识别的特征选择方法

技术领域

本发明属于模式识别技术领域，涉及一种小样本数据模式识别的特征选择方法。

背景技术

模式识别系统主要由4个部分组成：数据获取，预处理，特征选择与提取，分类决策，如图1所示。其中特征选择与提取部分就是要根据原始数据，选择和提取最能反映分类本质的特征。特征选择是模式识别中的一个关键问题。由于在很多实际问题中常常不容易找到那些重要的特征，这就使特征选择和提取的任务复杂化而成为构造模式识别系统最困难的任务之一。这个问题已经越来越受到人们重视。

特征重要性度方法是特征选择排序的核心。现有度量方法包括基于熵函数、类内类间距离、相关性分析、基尼系数(Gini Index)等，由于这些方法都是基于传统统计理论，存在抗噪声能力低、样本数量要求大等局限性，不适合于小样本、非线性、高维数据的模式识别的特征选择处理。

发明内容

本发明的目的是提供一种小样本数据模式识别的特征选择方法，以解决现有方法不适合于小样本数据的特征选择处理问题。

为实现上述目的，本发明的小样本数据模式识别的特征选择方法步骤如下：

(1)根据训练样本集构造SVM分类面模型；

(2)确定SVM分类面模型的边界点，选择合理异类边界点对，计算各合理异类边界点对的分类面点；

(3)根据所有分类面模型的分类面点，由特征重要性度量模型计算各特征的重要性度量值；

(4)对于计算出的特征重要性度量值，值越大表示越重要，由大至小进行特征排序，并优先选择排在前面的特征。

进一步的，所述步骤(1)中构造SVM分类面模型的方式为：对于多分类问题的每个类别，构造该类与其它类别所组成的2分类SVM分类面模型Model_i，i＝1，2，...，C，其中，C为类别数；对于2分类问题，则仅构造1个SVM分类面模型。

进一步的，所述步骤(1)中，对于给定的训练样本集

其中x_m∈Rⁿ为第m个样本点的特征值向量，y_m∈{-1，+1}为相应的二分类类别标号，则SVM的最优分类面模型可表示为

Z (x) = Σ_{j = 1}^{l} β_{j} \exp (- γ {| | x - x_{j} | |}^{2} + b = 0 - - - (1)

其中，γ为大于0的参数；β_j，b为通过SVM训练所获得的参数，β_j≠0；x_j为相应的支持向量点，j＝1，...，l，l为支持向量点个数。

进一步的，所述步骤(2)中确定模型Model_i的边界点，对于任一样本点x，若x属于-1类，则必有Z(x)＜-1，若x属于+1类，则必有Z(x)＞1，|Z(x)|＝1的邻近区域为分类边界区域，则对于给定的训练样本集S，其边界点集合S_B为

S_B＝{x|x∈S，|Z(x)|＜θ，θ＞0} (2)

其中θ为给定的边界点的分类值门限，取θ＜1.2。

进一步的，所述步骤(2)中选择合理异类边界点对的步骤如下：

(211)对于给定的训练样本集S和边界点集合S_B，求出由所有异类边界点对构成的连线中点集合S_O，并求出各异类边界点对连线中点o_i的邻近点数N(o_i)，o_i∈S_O，i＝1，...，|S_O|，|S_O|为连线中点个数；

(212)若连线中点集合S_O为空，则结束；

(213)若则第k个连线中点o_k相应的异类边界点为合理异类边界点对，并从S_O中删除所有与o_k为邻近的所有连线中点，转(212)。

进一步的，所述步骤(2)中计算各合理异类边界点对的分类面点x_D的步骤如下：

(221)在0-1之间，系数ρ均匀取r点，5≤r≤0，各点为ρ_i，i＝1，...，r，ρ₀＝0，ρ_r＝1；

(222)从ρ₀＝0点开始，计算第i点ρ_i的SVM分类面模型值Z(ρ_i)，若

则转步骤(223)；

(223)计算插值点

ρ = ρ_{i - 1} + \frac{(ρ_{i - 1} - ρ_{i}) Z (ρ_{i - 1})}{[Z (ρ_{i}) - Z (ρ_{i - 1})]};

(224)若|Z(ρ)|＜ε则结束，x_D＝(1-ρ)x_B1+ρx_B2为获得的代表性点，ε为插值精度；

(225)若|Z(ρ_i-1)|＜|Z(ρ_i)|，ρ_i-1＝ρ，否则，ρ_i＝ρ，转步骤(223)；

上述SVM分类面模型为

Z (ρ) = Σ_{j = 1}^{l} β_{j} \exp (- γ (d_{j 1} {(1 - ρ)}^{2} + d_{j 2} ρ^{2} + d_{j 12} (1 - ρ) ρ)) + b,

其中ρ为比例系数，d_j1、d_j2和dj₁₂为常数值。

进一步的，所述步骤(3)中对于离散特征，给定的训练样本子集S_Γ和分类面点子集

由S_Γ内所有样本求出特征的各种取值，并由小到大排序，形成特征

的取值集合

V_{A_{i}} = {v_{1}, v_{2}, . . ., v_{| V_{A_{i}} |}},

根据

J_{A_{i}} = \underset{v &Element; V_{A_{i}}}{Σ} \frac{| S_{Γv} |}{| S_{Γ} |} J_{A_{i}} (v)

计算各特征的重要性度量值；对于连续特征，给定的训练样本子集S_Γ和分类面点子集

由S_Γ内所有样本求出连续特征

的各种取值，并由小到大排序，形成特征

的取值集合

由连续特征

的取值集合

求出其各取值区间a_j＝[v_j，v_j+1]，形成取值区间集合

根据

J_{A_{i}} = \underset{a &Element; a_{A_{i}}}{Σ} \frac{| S_{Γa} |}{| S_{Γ} |} \frac{L_{a} J_{A_{i}} (a)}{L_{Γ}}

计算各特征的重要性度量值。

本发明根据最优分类面的主要形状与位置特征对特征分类能力的作用关系，提出了基于SVM最优分类面模型的特征重要性度量方法，给出了基于边界点的最优分类面模型的分类面点选择与快速计算方法，提出了基于有限分类面点的特征重要性度量模型，该模型能够较充分体现在所限定的特征取值空间中分类面形状与位置的变化，可有效克服现有特征选择方法所存在的局限性；所提出的特征选择方法具有特征重要性度量准确快速等特点，可满足小样本数据分类器设计的特征选择与排序的实际需要，为模式识别等领域特征选择与排序提供了新的有效技术。

附图说明

图1是现有模式识别系统原理图；

图2是分类面形状与特征重要性的关系图；

图3是分类面位置与特征分类能力的关系图；

图4是特征度量值调整前后的取值分布比较图。

具体实施方式

本发明旨在为小样本数据模式识别系统构造建立一种特征重要性度量方法，进而建立一种有效的特征选择与排序方法。针对小样本数据特征重要性度量特点，要求样本数量小，抗噪声能力强，度量准确快速等。基于这些要求，本发明提出了一种直接基于SVM最优分类面模型所体现的分类面形状与位置特征构建特征重要性度量的方法，为模式识别等领域特征选择与排序提供了新的有效技术。

具体小样本数据模式识别的特征选择方法详述如下。

对于多分类问题的每个类别，构造该类与其它类别所组成的2分类SVM分类面模型Model_i，i＝1，2，...，C，其中，C为类别数；对于2分类问题，则仅构造1个SVM分类面模型。不失一般性，对于二维分类问题，假设在所给定区域Γ内分类面形状如图2所示，其中水平轴为特征

垂直轴为特征

对于(a)所示的情况，显然特征

的分类能力最强，特征

的取值可确定相应的分类类别。对于(b)所示的情况，显然特征

的分类能力最强，而对于(c)所示的情况，特征

和特征

则具有相同的分类作用。分析这些情况可以看出，在给定的特征取值空间中，各特征的分类能力取决于各特征轴与分类面的垂直程度，垂直程度越高则特征的分类能力越强，特征的重要程度也越高。

各特征轴与分类面的垂直程度可以用各点处分类面的法线方向与特征轴的夹角余弦值来表示。显然对于图2(a)所示的情况，分类面的法线方向与特征轴

的夹角为0度，则夹角余弦值为1，分类面的法线方向与特征轴

的夹角为90度，则夹角余弦值为0。因此，夹角余弦值的大小表示特征的分类能力高低，夹角余弦值越大则分类能力越强。

假设在所给定区域Γ内分类面位置情况如图3所示，其中水平轴为特征

垂直轴为特征

显然，在这种情况下，尽管各特征轴与决策面的垂直程度相同，但是由于特征在其取值范围的部分区间内(图3中的b、c之间的区间内)其取值可确定该区间的分类类别，因此特征的分类能力优于特征

因此可以得出：(1)在所给定的特征取值空间中，特征的分类能力取决于分类面的形状与位置特征，分类面的法线方向与特征轴的夹角余弦值沿特征轴的分布情况可有效描述这些特征，因而可有效度量特征的重要性。(2)特征的分类能力取决于且仅取决于所给定的特征取值空间中分类面的形状与位置特征，即特征的分类能力与特征的具体取值空间有关，与所给定的特征取值空间中分类面的形状与位置特征有关，与所给定的特征取值空间外的分类面的形状与位置特征无关。(3)在所给定的特征取值空间中，若在特征的某个取值区间中无分类面面存在，如图2中的b、c之间的区间内，则在该区间内分类面的法线方向与特征轴的夹角余弦值为1，即在此区间内特征的分类能力为最大。

对于给定的训练样本集其中x_m∈Rⁿ为第m个样本点的特征值向量，y_m∈{-1，+1}为相应的二分类类别标号，则SVM的最优分类面模型可表示为

Z (x) = Σ_{j = 1}^{l} β_{j} \exp (- γ {| | x - x_{j} | |}^{2} + b = 0 - - - (1)

其中，γ为大于0的参数；β_j，b为通过SVM训练所获得的参数，β_j≠0；x_j为相应的支持向量点，j＝1，...，l。

根据上述最优分类面的主要形状与位置特征对特征分类能力的作用关系和式(1)所示的SVM的最优分类面模型，本发明提出了直接基于SVM最优分类面模型所体现的分类面形状与位置特征构建特征重要性度量的方法的思想，以保证特征重要性度量的直接性与有效性。根据这种思想，根据式(1)所示的SVM的最优分类面模型，对于给定的训练样本集S，其所限定的特征取值空间为Ω，在Ω中可选择一些SVM分类面上的代表性点来分析分类面的形状和位置特征，进而构建特征重要性的度量方法。具体发明内容如下：

1.SVM最优分类面模型的离散化处理

SVM最优分类面模型的离散化处理旨在合理选择SVM的分类面的代表点，使这些代表点能够体现SVM最优分类面模型的形状与位置特征。

根据SVM的分类面的特性，对于任一样本点x，若x属于-1类，则必有Z(x)＜-1，若x属于+1类，则必有Z(x)＞1，因此，|Z(x)|＝1的邻近区域为分类边界区域。因此对于给定的训练样本集S，其边界点集合S_B可定义为

S_B＝{x|x∈S，|Z(x)|＜θ，θ＞0} (2)

其中θ为给定的边界点的分类值门限，一般取θ＜1.2。

决策树构造依据位于分类边界区域的最优分类面的形状与位置特征，显然，异类边界点间连线与最优分类面的交点是SVM分类面上的理想代表性点。同时，由于利用任意两个异类边界点可以获得一个分类面点，因此直接利用各异类边界点对计算分类面点将会导致分类面点局部过密，降低计算效率，影响决策树的性能，因此需要对分类面点进行选择，使各分类面点间具有适当的距离，以限制分类面点的数量。在所有异类边界点间连线与最优分类面的交点中，根据沿SVM 分类面均匀分布的原则，选择部分点作为SVM分类面上的代表性点。

对于任意给定的两异类边界点，其连线上的分类面点一般近似位于连线的中点。因此可利用异类边界点连线的中点之间距离来选择合理异类边界点对。

对于给定的训练样本集S和边界点集合S_B，两对异类边界点连线的中点分别为o_i、o_j，其相应第k个特征值分别为o_ik、o_jk，若

|o_ik-o_jk|＞ηd_k，则o_i与o_j邻近，否则为非邻近。其中η为给定系数；d_k为第k个特征的取值间距估计，

d_{k} = \frac{1}{| S |} (\max_{x_{i} &Element; S} x_{ik} - \min_{x_{i} &Element; S} x_{ik}) - - - (3)

其中x_ik为x_i的第k个特征值。显然，系数η与训练样本集S样本点的分布、特征个数有关，特征数越多，系数η应越大，在本发明中，取

其中n为特征个数，δ为常数，一般可取为1-15。

对于给定的训练样本集S和边界点集合S_B，若两异类边界点的中点与所有其它异类边界点对的中点都不近邻，则该两异类边界点为合理异类边界点对。基于异类边界点连线中点的合理异类边界点对选择步骤如下所示：

Step 1.对于给定的训练样本集S和边界点集合S_B，求出由所有异类边界点对构成的连线中点集合S_O，并求出各异类边界点对连线中点o_i的邻近点数N(o_i)，o_i∈S_O i＝1，...，|S_O|，|S_O|为连线中点个数。

Step 2.若连线中点集合S_O为空则结束。

Step 3.若

则第k个o_k相应的异类边界点为合理异类边界点对，并从S_O中删除所有与o_k为邻近的所有连线中点，转Step 2。

对于给定的边界点集合S_B，对于任意两个异类边界点x_B1∈S_B、x_B2∈S_B，x为x_B1和x_B2之间连线上的点，则有

x＝(1-ρ)x_B1+ρx_B2 (4)

其中，ρ为比例系数，0≤ρ≤1。则有

‖x-x_j‖²＝‖(1-ρ)(x_B1-x_j)+ρ(x_B2-x_j)‖² (5)

令

d_j1＝||x_B1-x_j‖²

d_j2＝||x_B2-x_j||² (6)

d_j12＝2(x_B1-x_j)·(x_B2-x_j)

则有

‖x-x_j‖²＝d_j1(1-ρ)²+d_j2ρ²+d_j12(1-ρ)ρ (7)

对于给定的SVM的分类面模型和任意两个异类边界点x_B1和x_B2，式(6)中d_j1、d_j2和dj₁₂为常数值。由式(1)和式(7)，对于两个异类边界点连线上的点，SVM的分类面模型可表示为

Z (ρ) = Σ_{j = 1}^{l} β_{j} \exp (- γ (d_{j 1} {(1 - ρ)}^{2} + d_{j 2} ρ^{2} + d_{j 12} (1 - ρ) ρ)) + b - - - (8)

因此，可给出两异类边界点连线与分类面的交点x_D的快速计算步骤如下。

Step 1.在0-1之间，系数ρ均匀取r点，5≤r≤10，各点为ρ_i，i＝1，...，r，ρ₀＝0，ρ_r＝1。

Step 2.从ρ₀＝0点开始，计算Z(ρ_i)，若

则转Step 3。

Step 3.计算插值点

ρ = ρ_{i - 1} + \frac{(ρ_{i - 1} - ρ_{i}) Z (ρ_{i - 1})}{[Z (ρ_{i}) - Z (ρ_{i - 1})]} .

Step 4.若|Z(ρ)|＜ε则结束，x_D＝(1-ρ)x_B1+ρx_B2为获得的代表性点，ε为插值精度，一般取ε＝0.01。

Step 5.若|Z(ρ_i-1)|＜|Z(ρ_i)|，ρ_i-1＝ρ，否则，ρ_i＝ρ，转Step 3。

边界点x_B1和x_B2连线至少与分类面相交一次，也可能相交多次，两异类边界点连线与分类面的交点x_D的快速计算步骤首先将x_B1和x_B2之间的连线均匀分成r段，以保证可以找出所有交点，同时为了限制分类面点的数量，仅计算与边界点x_B1距离最近的分类面点。

2.特征重要性度量模型

对于给定的训练样本集S和边界点集合S_B，由所有合理异类边界点对的连线与SVM分类面的交点x_D所构成的点集合为分类面点集S_D。对于给定的训练样本集S和相应边界点集合S_B、分类面点集S_D，下面讨论在给定的训练样本子集S_Γ中，

特征

的重要性度量方法。

2.1决策面点选择

对于给定的训练样本子集S_Γ，

令

B_{l} (x_{A_{i}}) = \min_{x_{k} &Element; Γ} x_{ki} - - - (9)

B_{r} (x_{A_{i}}) = \max_{x_{k} &Element; Γ} x_{ki} - - - (10)

其中，x_ki为样本子集S_Γ中x_k样本点的第i个特征值，则样本子集S_Γ所限定的特征

的取值区间为

为了有效衡量样本子集S_Γ所限定的特征取值空间Γ内的分类面形状与位置特性，位于Γ内的分类面点x_D应满足：

(1)x_D的第i个特征值x_Di应在S_Γ所限定的特征的取值区间内。

(2)令x_B1、x_B2为两异类边界点，x_D位于其连线上，x_B1∈S_B、x_B2∈S_B，则至少有x_B1∈S_Γ或x_B2∈S_Γ，即x_B1、x_B2之一应属于样本子集S_Γ。

因此，位于样本子集S_Γ所限定的特征取值空间内的分类面点子集

为

S_{D_{Γ}} = {x_{D} | x_{D} &Element; S_{D}, &ForAll; i, B_{l} (x_{A_{i}}) \leq x_{Di} \leq B_{r} (x_{A_{i}}),

(11)

2.2决策面点的特征重要性度量模型

在样本子集S_Γ所限定的特征取值空间Γ内，对于任意给定的决策面点x_D，

x_D点处分类面的法线方向与特征轴的夹角余弦绝对值可表示为

CV (x_{D}) = \frac{| \frac{&PartialD; Z (x_{D})}{{&PartialD; x}_{A_{i}}} |}{| grad (x_{D}) |} - - - (12)

其中，‖grad(x_D)‖为决策面在x_D点处的梯度模；

为分类面在x_D点处对的偏导数绝对值。显然

对于分类面上的任一点x_D，由式(1)可得分类面在x_D点处对第i个特征

的偏导数为

\frac{&PartialD; Z (x_{D})}{{&PartialD; x}_{A_{i}}} = 2 γ Σ_{j = 1}^{l} β_{j} (x_{ji} - x_{D_{i}}) \exp (- γ {| | x_{D} - x_{j} | |}^{2}) - - - (13)

进一步整理可得

\frac{&PartialD; Z (x_{D})}{{&PartialD; x}_{A_{i}}} = 2 γ (Σ_{j = 1}^{l} β_{j} x_{ji}) \exp (- γ {| | x_{D} - x_{j} | |}^{2}) + x_{D_{i}} b) - - - (14)

由式(13)和式(14)可以看出：当核函数取为径向基函数时，各特征在分类面上任意点的偏导数均存在。

利用下式

φ(x_D)＝CV(x_D)(1-CV(x_D)logCV(x_D)) (15)

对分类面的法线方向与特征轴的夹角余弦绝对值CV(x_D)做调整，则特征在x_D点处的特征重要性度量

可表示为

J_{A_{i}} (x_{D}) = φ (x_{D}) - - - (16)

通过式(15)的变换，特征重要性度量值调整前后对比如图4.所示。这种调整方法通过按不同比例调整CV(x_D)值，增大度量值间的差别，改善基于各点平均的特征重要性的度量效果。

2.3离散特征的重要性度量模型

由前述可知，在所给定的特征取值空间中，特征的分类能力取决于分类面的法线方向与特征轴的夹角余弦值沿特征轴的分布情况。由于离散特征仅取有限个离散点，因此可利用夹角余弦值的局部平均方法度量各离散点处特征的分类能力，进而根据各离散点处特征的分类能力的平均度量特征的整体分类能力，具体处理方法如下。

对于给定的训练样本子集S_Γ和分类面点子集

由S_Γ内所有样本求出特征

的各种取值，并由小到大排序，形成特征

的取值集合

则S_Γ中离散特征

在其取值为v处的重要性度量

为

其中，S_Γv为S_Γ中所有样本点的特征

取值为v的样本点子集，

为中所有分类面点的特征

取值为v的决策面点子集。

离散特征

在S_Γ所限定的取值空间Γ内的重要性度量

为

J_{A_{i}} = \underset{v &Element; V_{A_{i}}}{Σ} \frac{| S_{Γv} |}{| S_{Γ} |} J_{A_{i}} (v) - - - (18)

由式(17)和(18)可以看出，离散特征的重要性度量利用各分类面点处分类面的法线方向与特征轴的夹角余弦绝对值局部平均体现分类面形状与位置的变化，引入各点处样本点分布情况体现样本分布的均匀性对重要性度量的

影响。

2.4连续特征的重要性度量

对于连续特征，在其取值范围内其取值沿特征轴连续变化，在这种情况下，可根据样本点的分布情况将其取值沿特征轴分成若干个区间，利用夹角余弦值的局部平均方法度量各区间内特征的分类能力，进而根据各区间特征的分类能力的平均度量特征的整体分类能力，具体处理方法如下。

对于给定的训练样本子集S_Γ和分类面点子集

由S_Γ内所有样本求出连续特征

的各种取值，并由小到大排序，形成特征的取值集合

由连续特征

的取值集合

求出其各取值区间a_j＝[v_j，v_j+1]，形成取值区间集合

则S_Γ中连续特征

在取值区间a内的重要性度量

为

其中S_Γa为S_Γ中所有样本点的特征取值属于区间a的样本点子集，

为

中所有决策面点的特征

取值属于区间a的决策面点子集；则连续特征

在S_Γ所限定的取值空间Γ内的重要性度量

为

J_{A_{i}} = \underset{a &Element; a_{A_{i}}}{Σ} \frac{| S_{Γa} |}{| S_{Γ} |} \frac{L_{a} J_{A_{i}} (a)}{L_{Γ}} - - - (20)

其中L_a为区间a的宽度；L_Γ为S_Γ所限定连续特征

取值区间的总宽度，

L_{Γ} = B_{r} (x_{A_{i}}) - B_{l} (x_{A_{i}}) .

由式(19)和(20)可以看出，连续特征的重要性度量

利用各取值区间内决策面的法线方向与特征轴的夹角余弦值局部平均和区间宽度分布体现决策面形状与位置的变化，引入各取值区间内样本点分布情况体现样本分布的均匀性对重要性度量的影响。

对于计算出的特征重要性度量值，值越大表示越重要，由大至小进行特征排序，排在前面的越重要，应优先选择。

2.5特征选择实验

表1、表2为目前常用的打高尔夫的气候类型分类问题，所提出方法和经典算法C4.5的计算结果。该问题有如下特征和取值。outlook取值于sunny，overcast，rain，量化为0，1，2。temperature取值于64-83。humidity取值于65-96。windy取值于true，false，量化为0，1。支持向量机学习参数为：核函数取为式(2.1-2)所示的径向基函数，γ＝05，惩罚系数C＝1000，各特征值变换为[-1，1]。

从表1中可以看出，在整体空间中特征的重要性排序为outlook、windy、humidity、temperature。而在outlook＝sunny的子空间中，特征humidity的分类判别能力度量值最大，在outlook＝rain的子空间中特征windy的分类判别能力度量值最大。比较表1和表2的计算结果可以看出，在特征取值整体空间中，所提出新方法不仅可以得出合理的特征排序，同时也可以找出无用特征temperature，表明所提出的特征选择与排序方法更为有效。

表1 特征重要性度量值计算结果

表2 特征判别能力度量

表3为新方法和C4.5算法的样本点数对排序的影响情况比较，计算实例为文本分类的娱乐分类问题，类别数为2，特征个数为400，训练样本总数为786。为了比较样本点数对排序的影响，在786个样本中顺序选择393点、197点、99点、48点构成新的训练样本集，比较样本数为786时排序前10位和前5位的特征变化情况。依下式计算排序变化量。

CR (r) = \frac{1}{r} Σ_{i = 1}^{r} | {Rank}_{o} (i) - Rank (i) | - - - (21)

其中，r为考察的特征个数，考察排序前10位时r＝10，考察排序前5位时r＝5；Rank_o(i)为样本数为786时排序前10位或前5位为排序号，Rank(i)为样本数为786时排序前10位或前5位的特征在样本点数变化时的排序号。

从表3可以看出，在总的变化量上，新方法的前10位最大平均排序变化为65，前5位最大平均排序变化为79.2，C4.5算法的前10位最大平均排序变化为108.2，前5位最大平均排序变化为171.4。与C4.5算法相比，新方法最大平均排

表3 样本点数对排序的影响(娱乐分类)

	786点	393点	197点	99点	48点
						新方法
前10位平均排序变化	0	6.79	13.4	65	50
						前5位平均排序变化	0	7.5	37.2	63.5	79.2
C4.5
						前10位平均排序变化	0	100	86.9	90.9	108.2
前5位平均排序变化	0	164.4	164	172	171.4

序变化减少了50％以上。在变化趋势上，对于393点、197点，新方法的前10位和前5位平均排序变化量均较小，而对于99点、48点，则逐步增大，而C4.5算法则在所有样本点前10位和前5位平均排序变化量均较大，这表明所提出的特征选择与排序方法可以显著降低样本点数对特征排序结果的影响，与C4.5相比，在样本数少时仍更为有效。