CN106203530A

CN106203530A - 面向k近邻算法用于不平衡分布数据的特征权重确定方法

Info

Publication number: CN106203530A
Application number: CN201610578874.4A
Authority: CN
Inventors: 李良敏; 张俊红; 聂亚军; 胡骁; 孙建国
Original assignee: Changan University
Current assignee: Changan University
Priority date: 2016-07-21
Filing date: 2016-07-21
Publication date: 2016-12-07

Abstract

本发明公开了一种面向K近邻算法用于不平衡分布数据的特征权重确定方法，其具体过程是：(1)调入训练样本，若样本描述特征中存在标称属性、二元属性或序数属性特征时，将其转化为数值型特征；(2)对训练样本的各个特征值进行归一化处理；(3)根据数据分布的不平衡程度确定各训练样本的权重系数；(4)计算样本各个特征的综合性能衡量指标；(5)根据各个特征的综合性能衡量指标确定其特征权重。与现有技术相比，本发明可以以更高的计算效率获得更为合理的特征权重，显著提高了K近邻算法对不平衡分布数据的处理能力，对作为关注重点的少数样本表现出良好的识别能力。

Description

面向K近邻算法用于不平衡分布数据的特征权重确定方法

技术领域

本发明属于信息技术领域，涉及一种特征权重确定方法，尤其是一种面向K近邻算法用于不平衡分布数据的特征权重确定方法。

背景技术

K近邻(K-nearest neighbor，简称KNN)算法是Cover和Hart提出的一种非参数分类算法，因易于实现及在分类过程中的健壮性特点，成为十大数据挖掘算法之一，在包括医疗诊断、文本分类、入侵检测等许多领域获得了广泛应用。

KNN算法多采用欧氏距离寻找待分类样本的K近邻。由欧氏距离计算公式可知，在确定近邻时，对样本所有特征属性赋予了相等的权重。然而在实际应用中，不同的特征属性对分类的影响是不同的，描述样本的特征中往往存在大量的不相关项和冗余项，这一现象导致近邻间的距离被这些不相关特征或冗余特征所支配，引发维数灾难(curse ofdimensionality)问题，降低了KNN算法的分类能力。针对这种情况，出现了多种基于特征加权的KNN算法，特征权值确定方法包括神经网络、支持向量机、χ²统计检验、微粒群算法、TF-IDF等。这些方法大多从衡量单个特征与类别属性的相关性或对分类问题的贡献度出发来确定特征权重，有效的降低了不相关特征的影响，但均未考虑冗余特征的影响。另外，χ²统计检验多用于标称型特征，不适用于数值型特征；支持向量机适合解决二分类问题，对多分类问题扩展性较差；神经网络、微粒群算法计算消耗大，在大规模数据集上计算效率偏低。

另外，上述特征权重确定方法在应用中通常假设用于训练的样本集分布平衡，即不同类别所包含的样本数量大致相等。这一假设在很多现实问题中并不成立，不同类别的样本数量可能存在较大差异，某类样本数量明显少于其他类别，即出现数据分布不平衡现象。例如在进行信用卡欺诈识别时，欺诈样本数据远远少于正常使用样本数据；利用检测数据诊断病人疾病如癌症时，癌症样本数据远远少于健康样本数据等。上述特征权重确定方法在处理这类数据时，往往会使得所建立分类器出现很大的偏向性，对少数类的识别率远远低于多数类。而实际上人们更关心的往往是少数类，将少数类样本错分为多数类的代价更大，例如将癌症患者误诊为正常人会延误治疗时机，对病人造成生命威胁。因此需要研究新的特征权重确定方法，以适应数据分布不均衡现象，提高对更为重要的少数类样本的识别精度。

发明内容

本发明的目的在于克服上述现有技术的缺点，提供一种面向K近邻算法用于不平衡分布数据的特征权重确定方法。

本发明的目的是通过以下技术方案来实现的：

本发明面向K近邻算法用于不平衡分布数据的特征权重确定方法，包括以下步骤：

步骤1，调入训练样本集合X＝{X₁,X₂,...,X_N}，各个训练样本X_k,k＝1,2,...,N均可用m个特征属性和1个类别属性进行描述，即X_k＝(x_k1,x_k2,...,x_km,x_kc),k＝1,2,...,N，其中x_ki,i＝1,...,m为样本X_k的特征属性，x_kc为样本X_k的类别属性，该属性定义了样本X_k的归属类别，共n类。若样本的描述特征中包含标称型、二元型或序数型特征时，需将其转化为数值型特征；

步骤2，对训练样本X_k,k＝1,2,...,N的各个特征属性值进行归一化处理，得到归一化后的特征值归一化公式为：其中为归一化后的特征值，x_ki为原始特征值，x_imax,x_imin分别表示归一化前所有训练样本的第i个特征的最大值与最小值，即x_imax＝max{x_ki,k＝1,2,...,N}，x_imin＝min{x_ki,k＝1,2,...,N}。经过归一化处理后训练样本X_k表示为

步骤3，对于经步骤2归一化处理后的训练样本根据公式确定样本的权重系数c_k,k＝1,2,...,N，其中N_kc为训练样本X_k所属类别的样本容量；

步骤4，计算经步骤2归一化处理后的特征属性与类别属性x_c＝[x_1c,x_2c,...,x_Nc]'之间的相关性衡量指标RE_i,i＝1,2,...,m以及与其他特征属性之间的相关性衡量指标RI_i,i＝1,2,...,m，并根据RE_i,i＝1,2,...,m与RI_i,i＝1,2,...,m计算各特征的综合性能衡量指标R_i,i＝1,2,...,m；

步骤5，根据步骤4中得到的各特征的综合性能衡量指标R_i,i＝1,2,...,m确定其特征权重ω_i,i＝1,2,...,m，使用的公式为

进一步，上述步骤1中标称型、二元型或序数型特征向数值型特征转化的方法如下：

对于标称型特征，采用数值0表示该特征的第一种取值，数值1表示第二种取值，以此类推，直至该特征的所有可能取值均用离散型数值对应表示；

对于二元型特征，采用数值0表示该特征的第一种取值，数值1表示第二种取值；

对于序数型特征，采用数值0表示该特征的第一种取值，数值1表示第二种取值，以此类推，直至该特征的所有可能取值均用离散型数值对应表示。

进一步，上述步骤4中特征与类别属性x_c＝[x_1c,x_2c,...,x_Nc]'间的相关性衡量指标RE_i的计算公式为：

其中为特征属性的平均值，即：为类别属性x_c＝[x_1c,x_2c,...,x_Nc]'的平均值，即：c_k为由步骤3计算得到的第k个样本的权重系数。

进一步，上述步骤4中特征属性与其他特征属性之间的相关性衡量指标RI_i的计算公式为：

其中分别为特征属性和特征属性的均值，即：c_k为由步骤3计算得到的第k个样本的权重系数。

进一步，上述步骤4中各特征的综合性能衡量指标R_i,i＝1,2,...,m的计算公式为：

本发明与现有技术相比，具有以下优点：

1.本发明构建了复合相关性指标以综合衡量某一特征与类别属性以及与其他特征的关联程度，以此为依据来确定该特征的权重系数，不仅降低了不相关特征的影响，同时降低了冗余特征的影响。

2.本发明针对不平衡分布数据，在计算特征与类别属性以及与其他特征的关联程度时，对不同类别的样本进行了加权处理，克服了现有技术存在的计算结果向多数类倾斜的缺点，提高了KNN算法对少数类样本的识别精度。

3.本发明计算简单，计算效率高，可处理二分类及多分类问题，且不受特征属性类型的影响，既可处理数值型特征，也可处理标称型、二元型或序数型等类型的特征，适用性广。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图对本发明做进一步详细描述。

参见图1，本发明的具体过程是：

步骤1，调入训练样本集合X＝{X₁,X₂,...,X_N}，各个训练样本X_k,k＝1,2,...,N均可用m个特征属性和1个类别属性进行描述，即X_k＝(x_k1,x_k2,...,x_km,x_kc),k＝1,2,...,N，其中x_ki,i＝1,...,m为样本X_k的特征属性，x_kc为样本X_k的类别属性，该属性定义了样本X_k的归属类别，共n类。若样本的描述特征中包含标称型、二元型或序数型特征时，需将其转化为数值型特征，转化方法如下：

实质上，训练样本集合X为N×(m+1)的矩阵，其中行向量对应于样本向量，记为X_k＝(x_k1,x_k2,...,x_km,x_kc),k＝1,2,...,N，前m列向量对应于特征向量，记为x_i＝[x_1i,x_2i,...,x_Ni]',i＝1,2,...,m，最后一列为类别属性向量，记为x_c＝[x_1c,x_2c,...,x_Nc]'。

步骤2，对训练样本的各个特征属性值进行归一化处理，得到归一化后的特征值归一化公式为：其中为归一化后的特征值，x_ki为原始特征值，x_imax,x_imin分别表示归一化前所有训练样本的第i个特征的最大值与最小值，即x_imax＝max{x_ki,k＝1,2,...,N}，x_imin＝min{x_ki,k＝1,2,...,N}。经过归一化处理后训练样本X_k表示为

步骤3，对于经步骤2归一化处理后的训练样本根据公式确定样本的权重系数c_k,k＝1,2,...,N，其中N_kc为训练样本X_k所属类别的样本容量，即该类别中包含的样本数量。显然，属于多数类的样本其对应权重系数c_k较小，属于少数类的样本其对应权重系数c_k较大，属于同一类的样本具有相同的权重系数。

步骤4，计算各个特征的综合性能衡量指标，计算方法如下：

4.1)计算特征属性与类别属性x_c＝[x_1c,x_2c,...,x_Nc]'之间的相关性衡量指标RE_i,i＝1,2,...,m，计算公式为：

{RE}_{i} = | \frac{\frac{1}{N - 1} Σ_{k = 1}^{N} [{c_{k}}^{2} ({\tilde{x}}_{k i} - {\overset{&OverBar;}{x}}_{i}) (x_{k c} - {\overset{&OverBar;}{x}}_{c})]}{\sqrt{\frac{1}{N - 1} Σ_{k = 1}^{N} {[c_{k} ({\tilde{x}}_{k i} - {\overset{&OverBar;}{x}}_{i})]}^{2}} * \sqrt{\frac{1}{N - 1} Σ_{k = 1}^{N} {[c_{k} (x_{k c} - {\overset{&OverBar;}{x}}_{c})]}^{2}}} |

RE通过衡量特征属性x_i与类别属性x_c间相关性的方式来判定特征属性x_i是否为不相关特征或无效特征，不相关特征或无效特征对应于小的RE_i值，而有效特征对应于大的RE_i值。另外，上述计算公式充分考虑了类别分布不平衡现象的影响：对少数类样本赋予大的权重(对应于大的c_k值)，增大了少数类样本对计算结果的影响；对多数类样本赋予小的权重(对应于小的c_k值)，降低了多数类样本的影响。通过这种处理方式避免了现有技术存在的计算结果倾向多数类的缺陷。

4.2)计算特征属性与其他特征属性之间的相关性衡量指标RI_i,i＝1,2,...,m，计算公式为：

{RI}_{i} = \frac{1}{m - 1} Σ_{j = 1, j &NotEqual; i}^{m} | \frac{\frac{1}{N - 1} Σ_{k = 1}^{N} [{c_{k}}^{2} ({\tilde{x}}_{k i} - {\overset{&OverBar;}{x}}_{i}) ({\tilde{x}}_{k j} - {\overset{&OverBar;}{x}}_{j})]}{\sqrt{\frac{1}{N - 1} Σ_{k = 1}^{N} {[c_{k} ({\tilde{x}}_{k i} - {\overset{&OverBar;}{x}}_{i})]}^{2}} * \sqrt{\frac{1}{N - 1} Σ_{k = 1}^{N} {[c_{k} ({\tilde{x}}_{k j} - {\overset{&OverBar;}{x}}_{j})]}^{2}}} |

RI_i通过衡量特征属性x_i与其他特征属性x_j,j≠i之间相关性的方式来判定特征属性x_i是否为冗余特征，冗余特征将获得大的RI_i值。同时，上述计算公式充分考虑了类别分布不平衡现象的影响，通过对少数类样本赋予大的权重系数、对多数类样本赋予小的权重系数，提高了少数类样本的影响，避免了现有技术存在的计算结果倾向多数类的缺陷。

4.3)根据RE_i,i＝1,2,...,m与RI_i,i＝1,2,...,m计算得到各特征的综合性能衡量指标R_i,i＝1,2,...,m，计算公式为：

R_{i} = \frac{{RE}_{i}}{{RI}_{i}}

可以看出，不相关特征因其RE_i值小、冗余特征因其RI_i值大，均将获得小的R_i值。对于有效且非冗余的特征，其特点是RE_i值大而RI_i值小，因而将获得大的R_i值。

步骤5，根据步骤4中得到的特征综合性能衡量指标R_i,i＝1,2,...,m确定各特征的权重ω_i,i＝1,2,...,m，使用的公式为

根据上述步骤计算得到各特征的权重系数后，即可将其代入特征加权K近邻算法，完成对待分类样本的分类识别。

本发明的具体实施例如下。

实施例1：KEEL标准测试数据glass4。

该数据集为二分类问题，包含214个样本，其中多数类样本197个，少数类样本17个，描述样本的特征共9个，特征类型均为数值型。计算前随机抽取数据集中80％的样本作为训练样本，其余20％样本作为测试样本，得到训练样本170个，其中多数类样本157个，少数类样本13个；测试样本44个，其中多数类样本40个，少数类样本4个。可以看出，该数据集中多数类样本明显多于少数类样本，属于典型的不平衡分布数据。

实施步骤如下：

步骤1，调入训练样本集合X＝{X₁,X₂,...,X_N}。本例中共170个训练样本，故N＝170；样本描述特征9个，则m＝9；所有样本分属两类，即n＝2。另外，该数据集中的所有特征均为数值型，无需进行转化处理。

本例中训练样本集合X为170×10的矩阵，其中行向量对应于样本向量，记为X_k＝(x_k1,x_k2,...,x_k9,x_kc),k＝1,2,...,170，前9列向量对应于特征向量，记为x_i＝[x_1i,x_2i,...,x_170i]',i＝1,2,...,9，最后一列为类别属性向量，记为x_c＝[x_1c,x_2c,...,x_170c]'。

步骤2，对训练样本的各个特征根据如下所示的公式进行归一化处理，将各特征值限定在[0,1]内：

{\tilde{x}}_{k i} = \frac{x_{k i} - x_{i m i n}}{x_{i \max} - x_{i m i n}}

其中：为归一化后的特征值，x_ki为原始特征值，x_imax,x_imin分别表示归一化前所有训练样本的第i个特征的最大值与最小值，即x_imax＝max{x_ki,k＝1,2,...,170}，x_imin＝min{x_ki,k＝1,2,...,170}。经过归一化处理后训练样本X_k表示为

步骤3，对于经步骤2归一化处理后的训练样本根据公式确定各个训练样本的权重系数c_k,k＝1,2,...,170，其中N_kc为训练样本X_k所属类别的样本容量。本例中，多数类的样本容量N_-＝157，N＝170，因此所有多数类样本的权重系数统一为c_k＝1.08；少数类的样本容量N₊＝13，则所有少数类样本的权重系数统一为c_k＝13.08。

步骤4，计算各个特征的综合性能衡量指标，计算方法如下：

4.1)计算特征属性与类别属性x_c＝[x_1c,x_2c,...,x_170c]'之间的相关性衡量指标RE_i,i＝1,2,...,9，计算公式为：

{RE}_{i} = | \frac{\frac{1}{N - 1} Σ_{k = 1}^{N} [{c_{k}}^{2} ({\tilde{x}}_{k i} - {\overset{&OverBar;}{x}}_{i}) (x_{k c} - {\overset{&OverBar;}{x}}_{c})]}{\sqrt{\frac{1}{N - 1} Σ_{k = 1}^{N} {[c_{k} ({\tilde{x}}_{k i} - {\overset{&OverBar;}{x}}_{i})]}^{2}} * \sqrt{\frac{1}{N - 1} Σ_{k = 1}^{N} {[c_{k} (x_{k c} - {\overset{&OverBar;}{x}}_{c})]}^{2}}} |

其中为特征属性的平均值，即：为类别属性x_c＝[x_1c,x_2c,...,x_170c]'的平均值，即：c_k为由步骤3计算得到的第k个样本的权重系数，本例中所有多数类样本的权重系数统一为c_k＝1.08，所有少数类样本的权重系数统一为c_k＝13.08。

4.2)计算特征属性与其他特征属性之间的相关性衡量指标RI_i,i＝1,2,...,9，计算公式为：

{RI}_{i} = \frac{1}{m - 1} Σ_{j = 1, j &NotEqual; i}^{m} | \frac{\frac{1}{N - 1} Σ_{k = 1}^{N} [{c_{k}}^{2} ({\tilde{x}}_{k i} - {\overset{&OverBar;}{x}}_{i}) ({\tilde{x}}_{k j} - {\overset{&OverBar;}{x}}_{j})]}{\sqrt{\frac{1}{N - 1} Σ_{k = 1}^{N} {[c_{k} ({\tilde{x}}_{k i} - {\overset{&OverBar;}{x}}_{i})]}^{2}} * \sqrt{\frac{1}{N - 1} Σ_{k = 1}^{N} {[c_{k} ({\tilde{x}}_{k j} - {\overset{&OverBar;}{x}}_{j})]}^{2}}} |

其中分别为特征属性和其他特征属性的均值，即：c_k为由步骤3计算得到的第k个样本的权重系数，本例中所有多数类样本的权重系数统一为c_k＝1.08，所有少数类样本的权重系数统一为c_k＝13.08。

4.3)根据RE_i,i＝1,2,...,9与RI_i,i＝1,2,...,9计算得到各特征的综合性能衡量指标R_i,i＝1,2,...,9，计算公式为：

R_{i} = \frac{{RE}_{i}}{{RI}_{i}}

计算得到各个特征的综合性能衡量指标分别为R₁＝0.0157，R₂＝0.4408，R₃＝0.7645，R₄＝0.4824，R₅＝0.0223，R₆＝0.2407，R₇＝0.0992，R₈＝0.0025，R₉＝0.2928。

步骤5，根据步骤4中得到的各特征的综合性能衡量指标R_i,i＝1,2,...,9确定各特征的权重ω_i,i＝1,2,...,9，使用的公式为

由此确定出各个特征的权重系数分别为：ω₁＝0.0067，ω₂＝0.1867，ω₃＝0.3238，ω₄＝0.2043，ω₅＝0.0094，ω₆＝0.1020，ω₇＝0.0420，ω₈＝0.0011，ω₉＝0.1240。

计算得到各个特征的权重系数后，即可根据特征加权K近邻算法判断待分类样本所属的类别，具体步骤如下：

步骤1，对于待分类样本Y＝(y₁,y₂,...,y₉)，按如下的特征加权欧氏距离计算公式计算其与各训练样本间的距离d(X_i,Y),i＝1,2,...,170，找到距待分类样本最近的K个训练样本，即K近邻：

d (X_{i}, Y) = \sqrt{Σ_{l = 1}^{m} ω_{l} {({\tilde{x}}_{i l} - y_{l})}^{2}}

其中ω_l,l＝1,2,...,9为根据本发明计算得到的特征权重系数。

步骤2，将待分类样本Y＝(y₁,y₂,...,y₉)归于K近邻中居多数的一类中。

评价方法及评价指标：

为了综合评价本发明算法的性能，以王晓晔、王正鸥提出的基于神经网络的特征权重确定方法(篇名：k-最近邻分类技术的改进算法，发表刊物：电子与信息学报)、陈振洲、李磊和姚正安提出的基于支持向量机的特征权重确定方法(篇名：基于SVM的特征加权KNN算法，发表刊物：中山大学学报)作为对比算法，比较本发明算法以及上述两种算法在同一数据集上的性能以及特征权重计算耗时，计算环境为：Matlab R2011b，Inter(R)Core(TM)i5-2500K CPU 3.3GHz,Windows7。

本例中以对应特征加权K近邻算法在测试样本上的分类性能作为各种特征权重确定方法的性能评价方法。同时，为了消除随机抽取训练样本带来的偶然性因素影响，采用五折交叉验证法(5-fold cross validation)，将数据集随机分为5份，每次取其中1份作为测试数据，其余4份作为训练数据，取5次测试结果的平均值来评价算法的性能。由于glass4数据集为不平衡数据集，采用了几何平均正确率G_means、F₁测度作为特征加权K近邻分类器的评价指标，其计算公式如下：

Precision＝TP/(FP+TP)

Sensitivity＝TP/(TP+FN)

Specificity＝TN/(FP+TN)

G_{m e a n s} = \sqrt{S e n s i t i v i t y * S p e c i f i c i t y}

F_{1} = \frac{2 * S e n s i t i v i t y * \Pr e c i s i o n}{S e n s i t i v i t y + \Pr e c i s i o n}

其中：

TP——少数类样本被正确分类的个数；

TN——多数类样本被正确分类的个数；

FP——将多数类样本错分为少数类的数量；

FN——将少数类样本错分为多数类的数量。

几何平均正确率G_means综合考虑了分类器对多数类和少数类的分类正确率，F₁测度能够全面合理的衡量分类器对少数类的识别效果，是两种常用的不均衡分布数据分类问题的性能评价指标，指标值越大，表明分类器在不平衡分布数据上的分类性能越好。

结果分析：

在glass4数据集上本发明算法的各分类性能评价指标为：G_means＝0.9010，F₁＝0.8159，特征权重计算耗时：0.031726s；神经网络特征权重确定方法的各分类性能评价指标为：G_means＝0.8419，F₁＝0.7667，计算耗时：78.540983s；支持向量机特征权重确定算法的各分类性能评价指标为：G_means＝0.8566，F₁＝0.7163，计算耗时：0.502037s。可以看出，三种算法中，本发明算法的表现最佳：从分类效果来看，本发明算法得到的G_means相比其他两种算法分别提高了7.02％、5.18％，F₁提高了6.42％、13.90％，说明本发明算法获得的特征权重更为合理，进而提高了KNN算法的分类性能；从计算效率来看，本发明算法计算耗时与其他两种算法计算耗时之间的比例分别为：1:2475.6、1:15.8，说明本发明算法的计算效率远高于其他两种算法。

实施例2：KEEL标准测试数据yeast05679vs4。

该数据集为二分类问题，包含528个样本，其中多数类样本477个，少数类样本51个，样本描述特征共8个，特征类型均为数值型。计算前随机抽取数据集中80％的样本作为训练样本，其余20％样本作为测试样本，则训练样本423个，其中多数类样本382个，少数类样本41个；测试样本105个，其中多数类样本95个，少数类样本10个。同样，该数据集呈现典型的分布不平衡现象。

实施步骤如下：

步骤1，调入训练样本集合X＝{X₁,X₂,...,X_N}。本例中共423个训练样本，故N＝423；样本描述特征8个，则m＝8；所有样本分属两类，即n＝2。另外，该数据集中的所有特征均为数值型，无需进行转化处理。

本例中训练样本集合X为423×9的矩阵，其中行向量对应于样本向量，记为X_k＝(x_k1,x_k2,...,x_k8,x_kc),k＝1,2,...,423，前8列向量对应于特征向量，记为x_i＝[x_1i,x_2i,...,x_423i]',i＝1,2,...,8，最后一列为类别属性向量，记为x_c＝[x_1c,x_2c,...,x_423c]'。

{\tilde{x}}_{k i} = \frac{x_{k i} - x_{i m i n}}{x_{i \max} - x_{i m i n}}

其中：为归一化后的特征值，x_ki为原始特征值，x_imax,x_imin分别表示归一化前所有训练样本的第i个特征的最大值与最小值，即x_imax＝max{x_ki,k＝1,2,...,423}，x_imin＝min{x_ki,k＝1,2,...,423}。经过归一化处理后训练样本X_k表示为

步骤3，对于经步骤2归一化处理后的训练样本根据公式确定各个训练样本的权重系数c_k,k＝1,2,...,423，其中N_kc为训练样本X_k所属类别的样本容量。本例中，多数类的样本容量N-＝382，N＝423，因此所有多数类样本的权重系数统一为c_k＝1.11；少数类的样本容量N₊＝41，则所有少数类样本的权重系数统一为c_k＝10.32。

步骤4，计算各个特征的综合性能衡量指标，计算方法如下：

4.1)计算特征属性与类别属性x_c＝[x_1c,x_2c,...,x_423c]'之间的相关性衡量指标RE_i,i＝1,2,...,8，计算公式为：

{RE}_{i} = | \frac{\frac{1}{N - 1} Σ_{k = 1}^{N} [{c_{k}}^{2} ({\tilde{x}}_{k i} - {\overset{&OverBar;}{x}}_{i}) (x_{k c} - {\overset{&OverBar;}{x}}_{c})]}{\sqrt{\frac{1}{N - 1} Σ_{k = 1}^{N} {[c_{k} ({\tilde{x}}_{k i} - {\overset{&OverBar;}{x}}_{i})]}^{2}} * \sqrt{\frac{1}{N - 1} Σ_{k = 1}^{N} {[c_{k} (x_{k c} - {\overset{&OverBar;}{x}}_{c})]}^{2}}} |

其中为特征属性的平均值，即：为类别属性x_c＝[x_1c,x_2c,...,x_423c]'的平均值，即：c_k为由步骤3计算得到的第k个样本的权重系数，本例中所有多数类样本的权重系数统一为c_k＝1.11，所有少数类样本的权重系数统一为c_k＝10.32。

4.2)计算特征属性与其他特征属性之间的相关性衡量指标RI_i,i＝1,2,...,8，计算公式为：

{RI}_{i} = \frac{1}{m - 1} Σ_{j = 1, j &NotEqual; i}^{m} | \frac{\frac{1}{N - 1} Σ_{k = 1}^{N} [{c_{k}}^{2} ({\tilde{x}}_{k i} - {\overset{&OverBar;}{x}}_{i}) ({\tilde{x}}_{k j} - {\overset{&OverBar;}{x}}_{j})]}{\sqrt{\frac{1}{N - 1} Σ_{k = 1}^{N} {[c_{k} ({\tilde{x}}_{k i} - {\overset{&OverBar;}{x}}_{i})]}^{2}} * \sqrt{\frac{1}{N - 1} Σ_{k = 1}^{N} {[c_{k} ({\tilde{x}}_{k j} - {\overset{&OverBar;}{x}}_{j})]}^{2}}} |

其中分别为特征属性和其他特征属性的均值，即：c_k为由步骤3计算得到的第k个样本的权重系数，本例中所有多数类样本的权重系数统一为c_k＝1.11，所有少数类样本的权重系数统一为c_k＝10.32。

4.3)根据RE_i,i＝1,2,...,8与RI_i,i＝1,2,...,8计算得到各特征的综合性能衡量指标R_i,i＝1,2,...,8，计算公式为：

R_{i} = \frac{{RE}_{i}}{{RI}_{i}}

计算得到各个特征的综合性能衡量指标分别为R₁＝0.5011，R₂＝0.1802，R₃＝0.1692，R₄＝0.0292，R₅＝0.0042，R₆＝0.0623，R₇＝0.0440，R₈＝0.0551。

步骤5，根据步骤4中得到的各特征的综合性能衡量指标R_i,i＝1,2,...,8确定各特征的权重ω_i,i＝1,2,...,8，使用的公式为

由此确定出各个特征的权重系数分别为：ω₁＝0.4794，ω₂＝0.1724，ω₃＝0.1619，ω₄＝0.0279，ω₅＝0.0040，ω₆＝0.0596，ω₇＝0.0421，ω₈＝0.0527。

步骤1，对于待分类样本Y＝(y₁,y₂,...,y₈)，按如下的特征加权欧氏距离计算公式计算其与各训练样本间的距离d(X_i,Y),i＝1,2,...,423，找到距待分类样本最近的K个训练样本，即K近邻：

d (X_{i}, Y) = \sqrt{Σ_{l = 1}^{m} ω_{l} {({\tilde{x}}_{i l} - y_{l})}^{2}}

其中ω_l,l＝1,2,...,8为根据本发明计算得到的特征权重系数。

步骤2，将待分类样本Y＝(y₁,y₂,...,y₈)归于K近邻中居多数的一类中。

评价方法及评价指标：

本例采用与实施例1相同的评价方法和评价指标。

结果分析：

在yeast05679vs4数据集上本发明算法的分类性能评价指标为：G_means＝0.8211，F₁＝0.7132，特征权重计算耗时：0.010844s；神经网络特征权重确定方法的分类性能评价指标为：G_means＝0.7438，F₁＝0.6205，计算耗时：88.576485s；支持向量机特征权重确定算法的分类性能评价指标为：G_means＝0.7608，F₁＝0.6528，计算耗时：0.865709s。可以看出，三种算法中，本发明算法的表现最佳：从分类效果来看，本发明算法得到的G_means相较其他两种算法分别提高了10.41％、7.93％，F₁提高了14.94％、9.25％，说明本发明算法获得的特征权重更为合理，进而提高了KNN算法的分类性能；从计算效率来看，本发明算法计算耗时与其他两种算法计算耗时之间的比例分别为：1:8168.2、1:79.8，说明本发明算法的计算效率远高于其他两种算法。

综上，本发明公开的面向K近邻算法的一种适用于不平衡分布数据的特征权重确定方法，通过复合相关性指标来综合衡量某特征与类别属性以及与其他特征的关联程度，以此为依据来确定各个特征的权重，降低了不相关特征以及冗余特征的影响。另外，面对不平衡分布数据，在计算相关性指标时，对不同类别的样本进行加权处理，克服了现有技术结算结果向多数类倾斜的缺点，提高了对少数类样本的识别精度。与现有技术相比，本发明算法可以在更短的时间内获取更为合理的特征权重，显著提高了KNN算法对不平衡分布数据的处理能力，对作为关注重点的少数类样本表现出良好的识别能力。

Claims

1.一种面向K近邻算法用于不平衡分布数据的特征权重确定方法，其特征在于，包括以下步骤：

步骤1，调入训练样本集合X＝{X₁,X₂,...,X_N}，各个训练样本X_k,k＝1,2,...,N均用m个特征属性和1个类别属性进行描述，即X_k＝(x_k1,x_k2,...,x_km,x_kc),k＝1,2,...,N，其中x_ki,i＝1,...,m为样本X_k的特征属性；x_kc为样本X_k的类别属性，该属性定义了样本X_k的归属类别，共n类，若样本的描述特征中包含标称型、二元型或序数型特征时，需将其转化为数值型特征；

步骤2，对训练样本X_k,k＝1,2,...,N的各个特征属性值进行归一化处理，得到归一化后的特征值归一化公式为：其中为归一化后的特征值，x_ki为原始特征值，x_imax,x_imin分别表示归一化前所有训练样本的第i个特征的最大值与最小值，即x_imax＝max{x_ki,k＝1,2,...,N}，x_imin＝min{x_ki,k＝1,2,...,N}；经过归一化处理后训练样本X_k表示为

步骤5，根据步骤4中得到的各特征的综合性能衡量指标R_i,i＝1,2,...,m确定特征权重ω_i,i＝1,2,...,m，使用的公式为

2.根据权利要求1所述的面向K近邻算法用于不平衡分布数据的特征权重确定方法，其特征在于，所述步骤1中标称型、二元型或序数型特征向数值型特征转化的方法如下：

3.根据权利要求1所述的面向K近邻算法用于不平衡分布数据的特征权重确定方法，其特征在于，所述步骤4中特征与类别属性x_c＝[x_1c,x_2c,...,x_Nc]'间的相关性衡量指标RE_i的计算公式为：其中为特征属性的平均值，即：为类别属性x_c＝[x_1c,x_2c,...,x_Nc]'的平均值，即：c_k为由步骤3计算得到的第k个样本的权重系数。

4.根据权利要求1所述的面向K近邻算法用于不平衡分布数据的特征权重确定方法，其特征在于，所述步骤4中特征属性与其他特征属性之间的相关性衡量指标RI_i的计算公式为：

5.根据权利要求1所述的面向K近邻算法用于不平衡分布数据的特征权重确定方法，其特征在于，所述步骤4中各特征的综合性能衡量指标R_i,i＝1,2,...,m的计算公式为：