CN105354583A

CN105354583A - 基于局部均值的不平衡数据分类方法

Info

Publication number: CN105354583A
Application number: CN201510523084.1A
Authority: CN
Inventors: 刘靳; 孙宽宏; 姬红兵; 阿鹏仁; 刘艳丽; 葛倩倩; 王芳
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2015-08-24
Filing date: 2015-08-24
Publication date: 2016-02-24
Anticipated expiration: 2035-08-24
Also published as: CN105354583B

Abstract

本发明公开了一种基于局部均值的不平衡分类方法，本发明主要解决现有传统的分类算法在不平衡数据集上，对少数类的识别率低的问题。其实现步骤是：1、输入训练样本和测试样本；2、归一化处理；3、构造特征加权向量；4、获得少数类验证样本和多数类验证样本；5、获得验证测试样本集和验证训练样本集6、计算验证局部均值集；7、计算验证加权距离；8、得到验证结果；9、判断是否验证完毕；10、得到验证局部均值个数；11、计算测试样本的局部均值；12、计算加权距离；13、得到判定结果。本发明在不平衡数据集上，有效地提高了少数类样本的识别率，可应用于不平衡数据的分类和识别。

Description

基于局部均值的不平衡数据分类方法

技术领域

本发明属于计算机数据处理技术领域，更进一步涉及数据分类技术领域中一种基于局部均值的不平衡数据分类方法。本发明可用于不平衡数据的分类，以提高少数类数据样本的识别率。

背景技术

不平衡数据是指训练样本数目在不同类别的分布不平衡，例如在故障检测中，通常是出现故障的样本数目较少，而正常运行的样本的数目较多，传统分类算法追求整体的识别率，自然倾向多数类样本，但实际中少数类样本才是关注的重点，因而有必要对传统分类算法调整，以提高少数类样本的识别率。不平衡分类在实际应用中广泛存在，例如缺陷检测，故障检测，医疗诊断，欺诈检测等。针对不平衡分类的算法主要包括数据层面的方法和算法层面的方法，其中算法层面的方法主要通过改进传统分类算法，可利用成熟分类算法，有充足的理论基础，分类效果较好。

南京大学提出的专利申请“一种不平衡分类方法”(申请号：201410473220.6，公开号：CN104239516A)中公开了一种将主动学习和支持向量机的相结合的不平衡数据分类方法。该方法首先计算每个数据样本到非同类样本之间的距离，以最短的距离作为它的特征，然后利用主动学习策略在训练集上进行迭代学习，每一步迭代都通过支持向量机产生一个临时分类超平面，并根据临时分类结果和样本特征更新数据集，加入分错的样本或特征较小的样本，进行下一步迭代，直到支持向量不再变化。该方法存在的不足之处是：利用主动学习进行迭代，过程比较复杂，并且容易产生过拟合现象。

西安电子科技大学提出的专利申请“不平衡数据的半监督分类方法”(申请号：CN201010530912.1，公开号：CN101980202A)中公开了一种模糊聚类和半监督学习的不平衡数据分类方法。该方法首先初始样本集和聚类中心，对样本集实施模糊聚类，根据聚类结果更新样本集，然后基于支持向量机进行自训练，根据训练结果更新样本集，再利用基于不同惩罚参数的支持向量机Biase-SVM进行分类，最后评估分类结果并输出。该方法存在的不足之处是：利用模糊聚类和支持向量机的自训练更新样本集，过程复杂度较高，同时可能会损失一部分样本信息。

Y.Mitani和Y.Hamamoto在文献“Alocalmean-basednonparametricClassifier”(RecognitionLetters,Vol.27(10),pp.1151-1159,2006)中提出一种基于局部均值的分类方法，该方法首先计算测试样本附近的各类训练样本的局部均值，然后计算测试样本到局部均值的距离，将该测试样本以判定为局部均值最近的类别。该方法存在的不足之处是：应用于不平衡数据分类时，识别率会偏向多数类数据样本，而且对只计算单一样本数的局部均值，分类性能不稳定。

发明内容

本发明的目的在于克服上述已有技术的不足，提出一种基于局部均值的不平衡分类方法，以在保证多数类样本识别率的同时提高少数类样本的识别率。

实现本发明目的的具体思路是：计算不同样本数的多数类局部均值和少数类局部均值，再计算测试样本的少数类累加距离和多数类累加距离，通过比较其大小得到判定结果。

实现本发明目的的具体步骤如下：

(1)输入训练样本和测试样本：

(1a)输入一个包含两种样本数量不同类别的不平衡数据训练样本集，并将输入两种类别的样本按样本数量多少分别记作少数类样本和多数类样本；

(1b)输入测试样本集；

(2)归一化处理：

采用最小-最大Min-Max标准化方法，对于数据训练样本集和测试样本集中的所有样本的每一维特征分量进行归一化处理，得到标准化的特征分量值；

(3)构造特征加权向量：

计算少数类样本到多数类样本每一维特征分量的海灵格Hellinger距离，作为特征加权向量的每一维特征分量值，得到特征加权向量；

(4)获得少数类验证样本和多数类验证样本：

(4a)将少数类样本随机分为样本数一致的5份，作为5份少数类验证样本；

(4b)将多数类样本随机分为样本数一致的5份，作为5份多数类验证样本；

(5)获得验证测试样本集和验证训练样本集：

(5a)从5份少数类验证样本中任意不重复的选择1份少数类验证样本；

(5b)从5份多数类验证样本中任意不重复的选择1份多数类验证样本；

(5c)将所选的1份少数类验证样本和1份多数类验证样本合并成验证测试样本集；

(5d)将其余4份少数类验证样本合并成少数类验证训练样本集，其余4份多数类验证样本合并为多数类验证训练样本集；

(6)获得验证局部均值集：

(6a)对于验证测试样本集中每个样本创建4个集合，并初始化为空集，将其中第1个集合命名为验证少数类局部样本集，第2个集合命名为验证多数类局部样本集，第3个集合命名为验证少数类局部均值集，第4个集合命名为验证多数类局部均值集；

(6b)分别计算验证测试样本集中每个样本到该样本少数类验证训练样本集和多数类验证样本集中每个样本的欧式距离；

(6c)将验证测试样本集中，每个样本欧式距离最短的5个少数类验证训练样本集中样本，添加到该样本的验证少数类局部样本集中，同时在少数类验证训练样本集中删除该5个样本；

(6d)按照下式，计算验证测试样本集中每个样本的验证少数类局部均值：

M = \frac{1}{Z} Σ_{k = 1}^{Z} P_{k}

其中，M表示验证测试样本集中每个样本的验证少数类局部均值，Z表示验证测试样本集中每个样本的验证少数类局部样本集样本数，Σ表示累加操作，P_k表示验证测试样本集中每个样本的验证少数类局部样本集中第K个样本；

(6e)将验证测试样本集中，每个样本欧式距离最短的5×Sc个多数类验证训练样本集中样本，添加到该样本的验证多数类局部样本集中，同时在多数类验证训练样本集中删除该5×Sc个样本，其中，Sc表示多数类验证训练样本集样本数对少数类验证训练样本集样本数的比值；

(6f)按照下式，计算验证测试样本集中每个样本的验证多数类局部均值：

N = \frac{1}{L} Σ_{g = 1}^{L} Q_{g}

其中，N表示验证测试样本集中每个样本的验证多数类局部均值，L表示验证测试样本集中每个样本的验证多数类局部样本集样本数，Σ表示累加操作，Q_g表示验证测试样本集中每个样本的验证多数类局部样本集中第g个样本；

(6g)将得到的验证测试样本集中每个样本的验证少数类局部均值，添加到该样本的验证少数类局部均值集中；

(6h)将得到的验证测试样本集中每个样本的验证多数类局部均值，添加到该样本的验证多数类局部均值集中；

(6i)判断少数类验证训练样本集的样本数是否小于5，若是，则执行步骤(7)，否则，执行步骤(6c)；

(7)计算验证加权距离：

(7a)按照下式，计算验证测试样本集中每个样本到该样本验证少数类局部均值集和验证多数类局部均值集中每个样本的加权距离：

r = \sqrt{Σ_{t = 1}^{f} {(u_{t} - e_{t})}^{2} w_{t}}

其中，r表示验证测试样本集中每个样本到该样本验证少数类局部均值集和验证多数类局部均值集中每个样本的加权距离，表示开方操作，Σ表示累加操作，f表示验证测试样本集中样本的特征维数，u_t表示验证测试样本集中每个样本的第t个特征分量值，e_t表示验证测试样本集中每个样本每个少数类局部均值的第t个特征分量值，w_t表示特征加权向量的第t个特征分量值；

(7b)将验证测试样本集中每个样本到该样本验证少数类局部均值集中每个样本的加权距离，组成该样本的少数类加权距离集；

(7c)将验证测试样本集中每个样本到该样本验证多数类局部均值集中每个样本的加权距离，组成该样本的多数类加权距离集；

(8)得到验证结果集：

(8a)设验证测试样本集中每个样本的少数类累加集和多数类累加集，并都初始化为空集；

(8b)设验证结果集，并初始化为空集；

(8c)依次将验证测试样本集中每个样本的少数类加权距离集中1个样本添加到该样本的少数类累加集中，累加该样本的少数类累加集中所有样本，得到该样本少数类累加距离；

(8d)依次将验证测试样本集中每个样本的多数类加权距离集中1个样本添加到该样本的多数类累加集中，累加该样本的多数类累加集中所有样本，得到该样本多数类累加距离；

(8e)将验证测试样本集中少数类累加距离大于多数类累加距离的样本作为多数类，将验证测试样本集中少数类累加距离不大于多数类累加距离的样本作为少数类，得到预测结果；

(8f)根据预测结果，计算曲线下面积AUC值，将曲线下面积AUC值添加到验证结果集中；

(8g)判断验证测试样本集中每个样本的少数类加权距离集样本数是否等于该样本的少数类累加集样本数，若是，则执行步骤(8h)，否则，执行步骤(8c)；

(9)判断是否每份少数类验证样本和多数类验证样本都合成过验证测试样本集，若是，则执行步骤(10)，否则，执行步骤(5)；

(10)得到验证局部均值个数：

(10a)将验证最大值初始化为0；

(10b)在每个验证结果集中依次选择的1个样本，累加所选样本，得到验证值；

(10c)判断验证最大值是否大于验证值，若是，则执行步骤(10d)，否则，执行(10e)；

(10d)令验证最大值等于验证值，令验证局部均值个数等于本次执行次数；

(10e)判断是否每个验证样本集中的所有样本都被选择过，若是，则执行步骤(11)，否则，执行步骤(10b)；

(11)计算测试样本的局部均值：

(11a)对于测试样本集中每个样本创建4个集合，并初始化为空集，将其中第1个集合命名为少数类局部样本集，第2个集合命名为多数类局部样本集，第3个集合命名为少数类局部均值集，第4个集合命名为多数类局部均值集；

(11b)分别计算测试样本集中每个样本到少数类样本和多数类样本中每个样本的欧式距离；

(11c)将测试样本集中，每个样本欧式距离最短的5个少数类样本集中样本，添加到该样本的少数类局部样本集中，同时在少数类样本集中删除该5个样本；

(11d)按照下式，计算测试样本集中每个样本的少数类局部均值：

其中，φ表示测试样本集中每个样本的少数类局部均值，ψ表示测试样本集中每个样本的少数类局部样本集样本数，Σ表示累加操作，ε_λ表示测试样本集中每个样本的少数类局部样本集中第λ个样本；

(11e)将测试样本集中，每个样本欧式距离最短的5×c个多数类样本集中样本，添加到该样本的多数类局部样本集中，同时在多数类样本集中删除该5×c个样本，其中，c表示多数类样本的样本数除以少数类样本的样本数所得到的不平衡度；

(11f)按照下式，计算验证测试样本集中每个样本的多数类局部均值：

φ = \frac{1}{θ} Σ_{η = 1}^{θ} β_{η}

其中，φ表示测试样本集中每个样本的多数类局部均值，θ表示测试样本集中每个样本的多数类局部样本集样本数，Σ表示累加操作，β_η表示测试样本集中每个样本的多数类局部样本集中第η个样本；

(11g)将得到的测试样本集中每个样本的少数类局部均值，添加到该样本的少数类局部均值集中；

(11h)将得到的测试样本集中每个样本的多数类局部均值，添加到该样本的多数类局部均值集中；

(11i)判断测试样本集中每个样本的少数类局部均值是否等于验证局部均值个数，若是，则执行步骤(12)，否则，执行步骤(11c)；

(12)计算加权距离：

(12a)按照下式，计算测试样本集中每个样本到该样本少数类局部均值集和多数类局部均值集中每个样本的加权距离：

w d = \sqrt{Σ_{δ = 1}^{f} {({La}_{δ} - {Lb}_{δ})}^{2} w_{δ}}

其中，wd表示测试样本集中每个样本到该样本少数类局部均值集和多数类局部均值集中每个样本的加权距离，表示开方操作，Σ表示累加操作，f表示验证测试样本集中样本的特征维数，La_δ表示测试样本集中每个样本的第δ个特征分量值，Lb_δ表示测试样本集中每个样本每个少数类局部均值的第δ个特征分量值，w_δ表示特征加权向量的第δ个特征分量值；

(12b)将测试样本集中每个样本到该样本少数类局部均值集中每个样本的加权距离组成该样本的少数类加权距离集；

(12c)将测试样本集中每个样本到该样本多数类局部均值集中每个样本的加权距离组成该样本的多数类加权距离集；

(13)得到测试样本集中每个样本的类别：

(13a)将测试样本集中每个样本的少数类加权距离集中前Ln个样本进行累加，得到该样本的少数类累加距离，其中，Ln表示验证局部均值个数；

(13b)将测试样本集中每个样本的多数类加权距离集中前Ln个样本进行累加，得到该样本的少数类累加距离，其中，Ln表示验证局部均值个数；

(13c)将测试样本集中少数类累加距离大于多数类累加距离的样本判定为多数类，将测试样本集中少数类累加距离不大于多数类累加距离的样本，判定为少数类。

本发明与现有方法相比具有如下优点：

第1，由于本发明引入多数类样本的样本数除以少数类样本的样本数所得到的不平衡度，按不同样本数计算局部均值，克服了现有技术应用于不平衡数据分类时，识别率会偏向多数类数据样本的问题，使得本发明提高了少数类数据样本的识别率。

第2，由于本发明引入累加距离，将测试样本到不同样本数局部均值的加权距离进行累加，再比较不同类别的累加距离大小，以此判定测试样本的类别，从而克服了现有技术只计算单一样本数的局部均值，分类性能不稳定的问题，使得本发明提高了分类性能的稳定性。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图1，对本发明实现的步骤作进一步的详细描述。

步骤1，输入训练样本和测试样本。

输入一个包含两种样本数量不同类别的不平衡数据训练样本集，并将两种类别的样本按样本数量多少分别记作少数类样本和多数类样本。

输入测试样本集。

本发明的实施例中，输入的一个包含两种样本数量不同类别的不平衡数据训练样本集是从KEEL数据集(http://www.keel.es/imbalanced.php)中选取数据。

步骤2，归一化处理。

采用最小-最大Min-Max标准化方法，对于数据训练样本集和测试样本集中的所有样本的每一维特征分量进行归一化处理，得到标准化的特征分量值，最小-最大Min-Max标准化方法公式如下。

s = \frac{v - v_{0}}{v - v_{1}}

其中，s表示标准化特征分量值，v表示原特征分量值，v₀表示该维特征分量中的最小值，v₁表示该维特征分量中的最大值。

步骤3，构造特征加权向量。

计算少数类样本到多数类样本每一维特征分量的海灵格Hellinger距离，作为特征加权向量的每一维特征分量值，得到特征加权向量，其中，计算少数类样本到多数类样本每一维特征分量的海灵格Hellinger距离是按照以下步骤进行的。

将数据训练样本集中所有样本每一维特征分量的值域平均分为10个区间，无论数据是离散型还是连续型，都按连续型处理。

按照下式，计算少数类样本到多数类样本每一维特征分量的海灵格Hellinger距离。

h = \sqrt{Σ_{j = 1}^{10} {(\sqrt{\frac{X_{j}}{X_{j} + Y_{j}}} - \sqrt{\frac{Y_{j}}{X_{j} + Y_{j}}})}^{2}}

其中，h表示少数类样本到多数类样本每一维特征分量的海灵格Hellinger距离，Σ表示累加操作，表示开方操作，X_j表示少数类样本在每一维特征分量值域第j个区间上的分布数，Y_j表示多数类样本在每一维特征分量值域第j个区间上的分布数。

步骤4，获得少数类验证样本和多数类验证样本。

将少数类样本随机分为样本数一致的5份，作为5份少数类验证样本。

将多数类样本随机分为样本数一致的5份，作为5份多数类验证样本。

步骤5，获得验证测试样本集和验证训练样本集。

从5份少数类验证样本中任意不重复的选择1份少数类验证样本。

从5份多数类验证样本中任意不重复的选择1份多数类验证样本。

将所选的1份少数类验证样本和1份多数类验证样本合并成验证测试样本集。

将其余4份少数类验证样本合并成少数类验证训练样本集，其余4份多数类验证样本合并为多数类验证训练样本集。

步骤6，计算验证局部均值。

第1步，对于验证测试样本集中每个样本创建4个集合，并初始化为空集，将其中第1个集合命名为验证少数类局部样本集，第2个集合命名为验证多数类局部样本集，第3个集合命名为验证少数类局部均值集，第4个集合命名为验证多数类局部均值集。

第2步，分别计算验证测试样本集中每个样本到该样本少数类验证训练样本集和多数类验证样本集中每个样本的欧式距离，欧式距离公式如下。

d＝||a_μ-b_μ||₂

其中，d表示欧式距离，||.||₂表示二范数操作，a_μ表示验证测试样本集或测试样本集中每个样本的第μ个特征分量值，b_μ表示少数类验证训练样本集和多数类验证样本集或少数类样本和多数类样本中的每个样本的第μ个特征分量。

第3步，将验证测试样本集中，每个样本欧式距离最短的5个少数类验证训练样本集中样本，添加到该样本的验证少数类局部样本集中，同时在少数类验证训练样本集中删除该5个样本。

第4步，按照下式，计算验证测试样本集中每个样本的验证少数类局部均值。

M = \frac{1}{Z} Σ_{k = 1}^{Z} P_{k}

其中，M表示验证测试样本集中每个样本的验证少数类局部均值，Z表示验证测试样本集中每个样本的验证少数类局部样本集样本数，Σ表示累加操作，P_k表示验证测试样本集中每个样本的验证少数类局部样本集中第K个样本。

第5步，将验证测试样本集中，每个样本欧式距离最短的5×Sc个多数类验证训练样本集中样本，添加到该样本的验证多数类局部样本集中，同时在多数类验证训练样本集中删除该5×Sc个样本，其中，Sc表示多数类验证训练样本集样本数对少数类验证训练样本集样本数的比值，如果5×Sc不为整数，则对其取整。

第6步，按照下式，计算验证测试样本集中每个样本的验证多数类局部均值：

N = \frac{1}{L} Σ_{g = 1}^{L} Q_{g}

其中，N表示验证测试样本集中每个样本的验证多数类局部均值，L表示验证测试样本集中每个样本的验证多数类局部样本集样本数，Σ表示累加操作，Q_g表示验证测试样本集中每个样本的验证多数类局部样本集中第g个样本。

第7步，将得到的验证测试样本集中每个样本的验证少数类局部均值，添加到该样本的验证少数类局部均值集中。

第8步，将得到的验证测试样本集中每个样本的验证多数类局部均值，添加到该样本的验证多数类局部均值集中。

第9步，判断少数类验证训练样本集的样本数是否小于5，若是，则执行步骤7，否则，执行第3步。

步骤7，计算验证加权距离。

按照下式，计算验证测试样本集中每个样本到该样本验证少数类局部均值集和验证多数类局部均值集中每个样本的加权距离。

r = \sqrt{Σ_{t = 1}^{f} {(u_{t} - e_{t})}^{2} w_{t}}

其中，r表示验证测试样本集中每个样本到该样本验证少数类局部均值集和验证多数类局部均值集中每个样本的加权距离，表示开方操作，Σ表示累加操作，f表示验证测试样本集中样本的特征维数，u_t表示验证测试样本集中每个样本的第t个特征分量值，e_t表示验证测试样本集中每个样本每个少数类局部均值的第t个特征分量值，w_t表示特征加权向量的第t个特征分量值。

将验证测试样本集中每个样本到该样本验证少数类局部均值集中每个样本的加权距离组成该样本的少数类加权距离集。

将验证测试样本集中每个样本到该样本验证多数类局部均值集中每个样本的加权距离组成该样本的多数类加权距离集。

步骤8，得到验证结果集。

第1步，设验证测试样本集中每个样本的少数类累加集和多数类累加集，并都初始化为空集。

第2步，设验证结果集，并初始化为空集。

第3步，依次将验证测试样本集中每个样本的少数类加权距离集中1个样本添加到该样本的少数类累加集中，累加该样本的少数类累加集中所有样本，得到该样本少数类累加距离。

第4步，依次将验证测试样本集中每个样本的多数类加权距离集中1个样本添加到该样本的多数类累加集中，累加该样本的多数类累加集中所有样本，得到该样本多数类累加距离。

第5步，判断验证测试样本集中每个样本的少数类累加距离是否大于多数类累加距离，若是，则将该样本的类别判定为多数类，否则，判定为少数类，得到预测结果。

第6步，根据预测结果，计算曲线下面积AUC值，将曲线下面积AUC值添加到验证结果集中，其中，计算曲线下面积AUC值的步骤如下。

按照下式，计算验证测试样本集少数类的准确率和验证测试样本多数类的准确率。

S e n c = \frac{T P}{T P + F N}

S p e c = \frac{F P}{T N + F P}

其中，Senc表示验证测试样本集少数类的准确率，Spec表示验证测试样本多数类的准确率，TP表示验证测试样本集中少数类样本被预测为少数类的个数，FN表示验证测试样本集中多数类样本被预测为少数类的个数，TN表示验证测试样本集中多数类样本被预测为多数类的个数，FP表示验证测试样本集中少数类样本被预测为多数类的个数。

按照下式，计算曲线下面积AUC值。

A U C = \frac{S e n c + S p e c}{2}

其中，AUC表示曲线下面积AUC值，Senc表示验证测试样本集少数类的准确率，Spec表示验证测试样本多数类的准确率。

第7步，判断验证测试样本集中每个样本的少数类加权距离集样本数是否等于该样本的少数类累加集样本数，若是，则执行第8步，否则，执行第3步。

步骤9，判断是否验证完毕。

判断是否每份少数类验证样本和多数类验证样本都合成过验证测试样本集，若是，则执行步骤10，否则，执行步骤5。

步骤10，得到验证局部均值个数。

第1步，将验证最大值初始化为0。

第2步，在每个验证结果集中依次选择的1个样本，累加所选样本，得到验证值。

第3步，判断验证最大值是否大于验证值，若是，则执行第4步，否则，执行第5步。

第4步，令验证最大值等于验证值，令验证局部均值个数等于本次执行次数。

第5步，判断是否每个验证样本集中的所有样本都被选择过，若是，则执行步骤9，否则，执行第2步。

步骤11，计算测试样本的局部均值。

第1步，对于测试样本集中每个样本创建4个集合，并初始化为空集，将其中第1个集合命名为少数类局部样本集，第2个集合命名为多数类局部样本集，第3个集合命名为少数类局部均值集，第4个集合命名为多数类局部均值集。

第2步，分别计算测试样本集中每个样本到少数类样本和多数类样本中每个样本的欧式距离。

第3步，将测试样本集中，每个样本欧式距离最短的5个少数类样本集中样本，添加到该样本的少数类局部样本集中，同时在少数类样本集中删除该5个样本。

第4步，按照下式，计算测试样本集中每个样本的少数类局部均值。

其中，φ表示测试样本集中每个样本的少数类局部均值，ψ表示测试样本集中每个样本的少数类局部样本集样本数，Σ表示累加操作，ε_λ表示测试样本集中每个样本的少数类局部样本集中第λ个样本。

第5步，将测试样本集中，每个样本欧式距离最短的5×c个多数类样本集中样本，添加到该样本的多数类局部样本集中，同时在多数类样本集中删除该5×c个样本，其中，c表示多数类样本的样本数除以少数类样本的样本数所得到的不平衡度，如果5×c不为整数，则对其取整。

第6步，按照下式，计算验证测试样本集中每个样本的多数类局部均值。

φ = \frac{1}{θ} Σ_{η = 1}^{θ} β_{η}

其中，φ表示测试样本集中每个样本的多数类局部均值，θ表示测试样本集中每个样本的多数类局部样本集样本数，Σ表示累加操作，β_η表示测试样本集中每个样本的多数类局部样本集中第η个样本。

第7步，将得到的测试样本集中每个样本的少数类局部均值，添加到该样本的少数类局部均值集中。

第8步，将得到的测试样本集中每个样本的多数类局部均值，添加到该样本的多数类局部均值集中。

第9步，判断测试样本集中每个样本少数类局部均值集的样本数是否等于验证局部均值个数，若是，则执行步骤12，否则，执行第3步。

步骤12，计算加权距离。

按照下式，计算测试样本集中每个样本到该样本少数类局部均值集和多数类局部均值集中每个样本的加权距离。

w d = \sqrt{Σ_{δ = 1}^{f} {({La}_{δ} - {Lb}_{δ})}^{2} w_{δ}}

其中，wd表示测试样本集中每个样本到该样本少数类局部均值集和多数类局部均值集中每个样本的加权距离，表示开方操作，Σ表示累加操作，f表示验证测试样本集中样本的特征维数，La_δ表示测试样本集中每个样本的第δ个特征分量值，Lb_δ表示测试样本集中每个样本每个少数类局部均值的第δ个特征分量值，w_δ表示特征加权向量的第δ个特征分量值。

将测试样本集中每个样本到该样本少数类局部均值集中每个样本的加权距离组成该样本的少数类加权距离集。

将测试样本集中每个样本到该样本多数类局部均值集中每个样本的加权距离组成该样本的多数类加权距离集。

步骤13，得到测试样本集中每个样本的类别。

将测试样本集中每个样本的少数类加权距离集中前Ln个样本进行累加，得到该样本的少数类累加距离，其中，Ln表示验证局部均值个数。

将测试样本集中每个样本的多数类加权距离集中前Ln个样本进行累加，得到该样本的少数类累加距离，其中，Ln表示验证局部均值个数。

将测试样本集中少数类累加距离大于多数类累加距离的样本判定为多数类，将测试样本集中少数类累加距离不大于多数类累加距离的样本，判定为少数类。

本发明的效果可以通过以下仿真实验做进一步的说明。

1.仿真条件。

本发明是在CPU为Core(TM)i3-41303.40GHZ、内存4G、WINDOWS7系统上使用MatlabR2008a和KEEL(Opensourceversion,2015-03-23)平台进行的。

2.仿真内容与结果分析。

本发明的仿真实验所使用的实验数据选自KEEL数据集，实验所选用的不平衡数据集和其基本信息如表1所示。

表1.实验所选用的不平衡数据集和其基本信息表

数据集	少数类样本数	多数类样本数	不平衡度
				Vehicle0	199	647	3.25
New-thyroid2	35	180	5.14
				Glass0_1_6vs2	17	175	10.29
Ecoil4	20	316	15.8
				Yeast4	51	1433	28.1

实验中与本发明方法ImbLMC对比的4种方法分别为：局部均值分类器LMC，代价敏感支持向量机SVMCS，代价敏感C4.5决策树C4.5CS，以C4.5决策树为基分类器的数据合成分类方法C4.5+SMOTE。本发明方法ImbLMC和局部均值分类器LMC在Matlab中进行仿真实验，其中局部均值分类器的局部样本个数通过5折交叉验证获得，其余3种方法在KEEL中进行仿真实验，这3种方法的参数设置如表2所示。

表2.三种对比方法在KEEL中进行仿真实验的参数设置

将所选取的每个数据集随机分为样本数相等的5份，运用5折交叉验证，即每一次不重复地使用1份数据当作测试数据集，另外4份作为训练数据集，重复5次，使实验遍历数据集中所有数据。得到实验结果并计算曲线下面积AUC值，如表3所示。

表3.实验结果的曲线下面积AUC值一览表

从表3的实验结果可以看出，本发明方法ImbLMC算法在5组不平衡度各异的数据集上表现出的性能皆优于其他4种方法；同时，局部均值分类器LMC和代价敏感C4.5决策树C4.5CS在Glass0_1_6vs2和Yeast4数据集上表现出不稳定，代价敏感支持向量机SVMCS在Vehicle0数据集上表现出不稳定，以C4.5决策树为基分类器的数据合成分类方法C4.5+SMOTE在Yeast4数据集上表现出不稳定，而本发明方法ImbLMC在5个数据集上都表现了较强的稳定性。

Claims

1.一种基于局部均值的不平衡数据分类方法，包括如下步骤：

(1)输入训练样本和测试样本：

(1b)输入测试样本集；

(2)归一化处理：

(3)构造特征加权向量：

(4)获得少数类验证样本和多数类验证样本：

(5)获得验证测试样本集和验证训练样本集：

(6)获得验证局部均值集：

其中，M表示验证测试样本集中每个样本的验证少数类局部均值，Z表示验证测试样本集中每个样本的验证少数类局部样本集样本数，∑表示累加操作，P_k表示验证测试样本集中每个样本的验证少数类局部样本集中第K个样本；

其中，N表示验证测试样本集中每个样本的验证多数类局部均值，L表示验证测试样本集中每个样本的验证多数类局部样本集样本数，∑表示累加操作，Q_g表示验证测试样本集中每个样本的验证多数类局部样本集中第g个样本；

(7)计算验证加权距离：

其中，r表示验证测试样本集中每个样本到该样本验证少数类局部均值集和验证多数类局部均值集中每个样本的加权距离，表示开方操作，∑表示累加操作，f表示验证测试样本集中样本的特征维数，u_t表示验证测试样本集中每个样本的第t个特征分量值，e_t表示验证测试样本集中每个样本每个少数类局部均值的第t个特征分量值，w_t表示特征加权向量的第t个特征分量值；

(8)得到验证结果集：

(8b)设验证结果集，并初始化为空集；

(9)判断是否验证完毕：

判断是否每份少数类验证样本和多数类验证样本都合成过验证测试样本集，若是，则执行步骤(10)，否则，执行步骤(5)；

(10)得到验证局部均值个数：

(10a)将验证最大值初始化为0；

(11)计算测试样本的局部均值：

其中，φ表示测试样本集中每个样本的少数类局部均值，ψ表示测试样本集中每个样本的少数类局部样本集样本数，∑表示累加操作，ε_λ表示测试样本集中每个样本的少数类局部样本集中第λ个样本；

其中，φ表示测试样本集中每个样本的多数类局部均值，θ表示测试样本集中每个样本的多数类局部样本集样本数，∑表示累加操作，β_η表示测试样本集中每个样本的多数类局部样本集中第η个样本；

(12)计算加权距离：

其中，wd表示测试样本集中每个样本到该样本少数类局部均值集和多数类局部均值集中每个样本的加权距离，表示开方操作，∑表示累加操作，f表示验证测试样本集中样本的特征维数，La_δ表示测试样本集中每个样本的第δ个特征分量值，Lb_δ表示测试样本集中每个样本每个少数类局部均值的第δ个特征分量值，w_δ表示特征加权向量的第δ个特征分量值；

(13)得到测试样本集中每个样本的类别：

2.根据权利要求1所述的基于局部均值的不平衡数据分类方法，其特征在于：步骤(2)所述的最小-最大Min-Max标准化方法是对于给定的每一个数据样本的每一维特征分量，按照下式得到标准化的特征分量值：

3.根据权利要求1所述的基于局部均值的不平衡数据分类方法，其特征在于：步骤(3)所述的计算少数类样本到多数类样本每一维特征分量的海灵格Hellinger距离是按照以下步骤进行的：

第1步，将数据训练样本集中所有样本每一维特征分量的值域平均分为10个区间；

第2步，按照下式，计算少数类样本到多数类样本每一维特征分量的海灵格Hellinger距离：

其中，h表示少数类样本到多数类样本每一维特征分量的海灵格Hellinger距离，∑表示累加操作，表示开方操作，X_j表示少数类样本在每一维特征分量值域第j个区间上的分布数，Y_j表示多数类样本在每一维特征分量值域第j个区间上的分布数。

4.根据权利要求1所述的基于局部均值的不平衡数据分类方法，其特征在于：步骤(6b)、步骤(11b)所述的欧式距离是按照下式计算得到：

d＝||a_μ-b_μ||₂

5.根据权利要求1所述的基于局部均值的不平衡数据分类方法，其特征在于：步骤(8f)所述的计算曲线下面积AUC值的步骤如下：

第1步，按照下式，计算验证测试样本集少数类的准确率和验证测试样本多数类的准确率：

其中，Senc表示验证测试样本集少数类的准确率，Spec表示验证测试样本多数类的准确率，TP表示验证测试样本集中少数类样本被预测为少数类的个数，FN表示验证测试样本集中多数类样本被预测为少数类的个数，TN表示验证测试样本集中多数类样本被预测为多数类的个数，FP表示验证测试样本集中少数类样本被预测为多数类的个数；

第2步，按照下式，计算曲线下面积AUC值：