CN104951809A

CN104951809A - 基于不平衡分类指标与集成学习的不平衡数据分类方法

Info

Publication number: CN104951809A
Application number: CN201510413029.7A
Authority: CN
Inventors: 张向荣; 焦李成; 宋润青; 李阳阳; 白静; 马文萍; 侯彪; 马晶晶
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2015-07-14
Filing date: 2015-07-14
Publication date: 2015-09-30

Abstract

本发明公开了一种基于不平衡分类指标与集成学习的不平衡数据分类方法，主要解决现有技术在不平衡数据上少数类分类精度低的问题。其实现步骤为：(1)选定训练集和测试集；(2)初始化训练样本权重；(3)根据训练样本权重选取部分训练样本对弱分类器进行训练，并用训练好的弱分类器对所有训练样本进行分类；(4)计算弱分类器在训练集上的分类错误率，将错误率与设定的阈值进行比较，并优化错误率；(5)根据错误率计算弱分类器投票权重，并更新训练样本权重；(6)判断弱分类器的训练是否达到最大迭代次数，若达到最大迭代次数，根据弱分类器及其投票权重计算强分类器；否则，返回(3)。本发明提高了少数类的分类精度，可用于不平衡数据的分类。

Description

基于不平衡分类指标与集成学习的不平衡数据分类方法

技术领域

本发明属于数据处理领域，涉及集成学习分类方法，具体是一种基于不平衡分类指标与集成学习的不平衡数据分类方法，可用于不平衡数据的分类与识别。

背景技术

伴随着全球信息技术的飞速发展，功能强大的计算机、数据收集设备和存储设备为人们进行事务管理、信息检索和数据分析提供了大量的数据信息。尽管获得的数据量特别大，但是对人们有用的数据往往只占全部数据的一小部分。这种某类样本数据数量明显少于其他类样本的数据集被称作不平衡数据集，不平衡数据集的分类问题大量存在于现实生活之中。例如，检测公民的信用申请是否存在欺诈，一般情况下欺诈申请要远少于合法申请；利用诊疗数据诊断病人的疾病，如心脏病患者要远少于健康的人。在这些实际应用中，人们更关心的是数据集中的少数类，即样本数目远少于其他类样本的一类样本，而且这些少数类的错分代价往往非常大，因此需要有效提高少数类的分类精度。

近几年来，不平衡数据集的分类问题越来越受到数据挖掘和机器学习研究领域的关注，国内外学者对不平衡数据的研究主要有两个方面：一是基于数据采样的方法，其主要目的是通过对数据进行预处理降低数据的不平衡度，如模拟增加少数类样本的少数类样本合成过采样技术SMOTE；二是基于分类算法的方法，Veropoulos等人提出的不同惩罚参数的支持向量机Biased-SVM，为各类样本指派不同的惩罚参数，从一定程度上抵消了数据不平衡度对支持向量机的影响。

面对不平衡数据集的学习问题，研究的困难主要来自于不平衡数据本身的特点：不平衡数据集中的少数类样本不足，样本的分布并不能很好的反映整个类的实际分布；多数类通常会夹杂噪声数据，使得两类样本往往会出现不同程度的重叠。此外，传统的机器学习领域的分类方法，在直接应用于不平衡数据时，如果没有考虑数据的不平衡性，容易将少数类样本错分为多数类，尽管整体的分类精度比较高，但对少数类的分类精度非常低。

发明内容

本发明的目的在于针对上述已有技术的不足，提出一种基于不平衡分类指标与集成学习的不平衡数据分类方法，以提高分类器对少数类的分类精度。

为实现上述目的，本发明技术方案包括如下步骤：

(1)输入一个包含两类数据的不平衡数据集，并将样本较多的类记作多数类，样本较少的类记作少数类，从该不平衡数据集中随机选取十分之九的样本作为训练样本，将剩余的样本作为测试样本，并设定最大迭代次数T；

(2)设训练样本初始权重服从均匀分布，即每一个(x_i,y_i)∈S，其中i＝1,2,...,N，t＝1，N表示训练样本的个数，S表示训练集，x_i表示第i个训练样本，y_i表示第i个训练样本的类别标识，D_t表示第t轮中训练样本的样本权重；

(3)根据第t轮中训练样本的样本权重D_t选取第t轮生成的弱分类器的训练样本，用选取的训练样本对支持向量机进行训练，获得第t轮生成的弱分类器h_t，用弱分类器h_t对所有训练样本进行分类，得到训练样本的预测类标h_t(x_i)，其中i＝1,2,...,N；

(4)计算第t轮生成的弱分类器h_t在训练集上的错误率：其中，D_t(x_i,y_i)表示第t轮中训练样本x_i的样本权重，h_t(x_i)表示第t轮训练后生成的弱分类器h_t对第i个训练样本x_i的预测类标，y_i表示第i个训练样本的类别标识；

(5)将错误率ε_t与设定的阈值k＝0.5进行比较：若ε_t≥k，令最大迭代次数T＝t-1，转到步骤(9)；若ε_t＜k，则执行步骤(6)；

(6)计算不平衡问题的评价指标G，用G优化ε_t，得到优化后的错误率ε_t ^*＝ε_t×(1-G)^λ，其中λ是惩罚参数；

(7)根据优化后的错误率ε_t ^*计算第t轮生成的弱分类器h_t的投票权重：

α_{t} = \frac{1}{2} \times l o g (\frac{1 - {ϵ_{t}}^{*}}{{ϵ_{t}}^{*}});

(8)计算第t+1轮中训练样本权重：其中，

D_{t + 1}^{*} (x_{i}) = D_{t} (x_{i}) \times \{\begin{matrix} \exp (- α_{t}), h_{t} (x_{i}) = y_{i} \\ 1, h_{t} (x_{i}) &NotEqual; y_{i} \end{matrix}

为中间变量，式中D_t(x_i)表示第t轮中训练样本x_i的样本权重，α_t表示第t轮生成的弱分类器的投票权重，h_t(x_i)表示第t轮训练后生成的弱分类器h_t对训练样本x_i的预测类标，y_i表示第i个训练样本x_i的类别标识，N表示训练样本的个数；

(9)判断t是否达到最大迭代次数T：若t＜T，则t加1，返回步骤(3)；若t≥T，输出强分类器：其中，α_t表示第t轮生成的弱分类器的投票权重，x_j表示第j个测试样本，y_j表示测试样本x_j的类别标识，h_t(x_j)表示第t轮生成的弱分类器h_t对测试样本x_j的预测类标。

本发明与现有技术相比具有如下优点：

1)本发明由于在集成算法中，通过不平衡问题评价指标G来优化弱分类器在训练集上错误率，并将优化后的错误率用到训练样本权重的更新和弱分类器投票权重的求取中，提高了分类器对少数类的分类精度，使集成算法更适合用于解决不平衡分类问题。

2)本发明由于根据训练样本权重选取部分训练样本对支持向量机进行训练，避免了过拟合，减少了计算量，提高了计算速度。

以下结合附图对本发明的实施例及效果作进一步详细描述。

附图说明

图1是本发明的实现流程图；

图2是本发明与现有技术在不平衡数据集上得到的不平衡问题评价指标F对比图。

具体实施方式

参照图1，本发明的具体实现步骤如下：

步骤1，选定训练集和测试集，并设定最大迭代次数T。

输入一个包含两类数据的不平衡数据集，并将样本较多的类记作多数类，样本较少的类记作少数类，从该不平衡数据集中随机选取十分之九的样本作为训练样本，将剩余的样本作为测试样本，并设定最大迭代次数T。

步骤2，初始化训练样本的权重。

设训练样本初始权重服从均匀分布，即每一个(x_i,y_i)∈S，其中i＝1,2,...,N，t＝1，N表示训练样本的个数，S表示训练集，x_i表示第i个训练样本，y_i表示第i个训练样本的类别标识，D_t表示第t轮中训练样本的样本权重。

步骤3，从训练集中选取部分训练样本训练支持向量机。

(3a)对第t轮中训练样本的样本权重D_t进行排序，选择前n个权重较大的样本作为第t轮生成的弱分类器的训练样本；

(3b)用选取的训练样本对支持向量机进行训练，其目标函数为：

\{\begin{matrix} m i n (\frac{1}{2} | | w_{t} | |^{2} + C \underset{i}{Σ} ξ_{i}), \\ s . t . y_{i} (w_{t} \cdot x_{i} + b_{t}) &GreaterEqual; 1 - ξ_{i}, ξ_{i} &GreaterEqual; 0 \end{matrix},

其中，C是惩罚参数，w_t表示通过第t轮训练支持向量机得到的最优分类平面的权值向量，b_t表示其偏置向量，ξ_i为松弛项，x_i表示第i个训练样本；

(3c)通过求解上述的目标函数，得到第t轮生成的弱分类器h_t，用弱分类器h_t对所有训练样本进行分类，得到训练样本x_i的预测类标h_t(x_i)＝sgn(w_t·x_i+b_t)，其中，sgn(·)是符号函数，w_t表示通过第t轮训练支持向量机得到的最优分类平面的权值向量，b_t表示其偏置向量。

步骤4，利用下式计算第t轮生成的弱分类器h_t在训练集上的错误率ε_t：

ϵ_{t} = Σ_{i = 1, h_{t} (x_{i}) &NotEqual; y_{i}}^{N} D_{t} (x_{i}, y_{i})

其中，D_t(x_i,y_i)表示第t轮中第i个训练样本x_i的样本权重，h_t(x_i)表示第t轮训练后生成的弱分类器h_t对第i个训练样本x_i的预测类标，y_i表示第i个训练样本的类别标识。

步骤5，将错误率ε_t与设定的阈值k＝0.5进行比较：若ε_t≥k，令最大迭代次数T＝t-1，转到步骤10；若ε_t＜k，则执行步骤6。

步骤6，计算不平衡问题的评价指标G，用G优化ε_t。

(6a)计算少数类的分类精度和多数类的分类精度其中，TP表示预测类标为少数类且实际类标也为少数类的样本数目，FP表示预测类标为少数类但实际类标为多数类的样本数目，FN表示预测类标为多数类但实际类标为少数类的样本数目，TN表示预测类标为多数类且实际类标为多数类的样本数目；

(6b)依据上述计算得到的Se和Sp，计算Se和Sp的几何均值该几何均值是不平衡问题的评价指标；

(6c)依据上述计算得到的不平衡问题评价指标G，优化错误率ε_t，即ε_t ^*＝ε_t×(1-G)^λ，其中λ的数值根据交叉验证方法确定，优化后的错误率不仅与被分错的样本的权重有关，还充分考虑到了不平衡问题的特性，更适合评价不平衡问题分类结果。

步骤7，根据优化后的错误率计算第t轮生成的弱分类器h_t的投票权重α_t：

α_{t} = \frac{1}{2} \times l o g (\frac{1 - {ϵ_{t}}^{*}}{{ϵ_{t}}^{*}})

这个式子表示错误率越大，投票权重α_t就越小，以确保分类结果更好的弱分类器有更大的投票权重。

步骤8，计算第t+1轮中训练样本权重D_t+1(x_i)：

D_{t + 1} (x_{i}) = \frac{D_{t + 1}^{*} (x_{i})}{Σ_{i = 1}^{N} D_{t + 1}^{*} (x_{i})}

其中，

D_{t + 1}^{*} (x_{i}) = D_{t} (x_{i}) \times \{\begin{matrix} \exp (- α_{t}), h_{t} (x_{i}) = y_{i} \\ 1, h_{t} (x_{i}) &NotEqual; y_{i} \end{matrix}

为中间变量，式中D_t(x_i)表示第t轮中训练样本x_i的样本权重，α_t表示第t轮生成的弱分类器的投票权重，h_t(x_i)表示第t轮训练后生成的弱分类器h_t对训练样本x_i的预测类标，y_i表示第i个训练样本x_i的类别标识，N表示训练样本的个数。这个式子表示被弱分类器h_t分对的训练样本权重会减小，被弱分类器h_t分错的训练样本权重不变，以确保被弱分类器h_t分错的样本被选中的可能性更大。

步骤9，用第t轮生成的弱分类器h_t对测试样本x_j进行预测，得到第t轮生成的弱分类器h_t对测试样本x_j的预测类标h_t(x_j)：

h_t(x_j)＝sgn(w_t·x_j+b_t)

其中，sgn(·)是符号函数，w_t表示通过第t轮训练支持向量机得到的最优分类平面的权值向量，b_t表示其偏置向量，x_j表示第j个测试样本。

步骤10，判断t是否达到最大迭代次数T。

若t＜T，则t加1，返回步骤(3)；若t≥T，输出强分类器：其中，α_t表示第t轮生成的弱分类器的投票权重，h_t(x_j)表示第t轮训练后生成的弱分类器h_t对测试样本x_j的预测类标，y_j是测试样本x_j的类别标识。

本发明的效果可以通过以下仿真实验进一步说明：

一、实验条件和参数设置

在MATLAB仿真环境下，基于支持向量机LibSVM工具箱，设置参数如表1-3所示，其中：

表1是SVM参数设置；

表2是弱分类器支持向量机的训练样本个数；

表3是本发明参数λ的取值，并设置最大迭代次数T＝20。

表1：SVM参数设置

UCI标准数据集	pima	car	ionophere	wdbc
					SVM核函数	高斯核	高斯核	线性核	线性核
SVM惩罚参数c	8000	30	10	1000
					SVM高斯核参数g	3	10	--	--

表2：弱分类器的训练样本个数

UCI标准数据集	pima	car	ionophere	wdbc
					弱分类器的训练样本个数	553	323	158	87

表3：本发明参数λ的取值

UCI标准数据集	pima	car	ionophere	wdbc
					本发明参数λ	0.2	3	8	0.8

二、实验内容与结果分析

表4是实验中使用的4个UCI标准数据集。pima数据集描述了皮马印度人得糖尿病的情况，针对只有少数人得糖尿病的特点，本发明可以帮助医生减小糖尿病的误检率。car数据集描述了汽车的部分特征与用户满意度的关系，针对只有少部分汽车令客户不满意的特点，本发明可以帮助汽车制造商更好地设计汽车。ionosphere数据集是雷达对电离层的检测数据，针对少部分雷达会返回错误数据的情况，本发明可以帮助研究人员更好地识别出返回错误数据的雷达。wdbc数据集是美国威斯康辛州的人得乳腺癌是否是恶性的情况，针对只有少数人得恶性乳腺癌的特点，本发明可以帮助医生减小恶性乳腺癌的误检率。

表4：4个UCI标准数据集

UCI标准数据集	总样本数	特征维数	少数类样本数	多数类样本数
					pima	768	8	268	500
car	449	6	69	1210
					ionophere	351	34	126	225
wdbc	569	32	212	357

用本发明和现有技术支持向量机SVM、集成算法AdaBoost对表4中4个UCI标准数据集分别进行分类对比实验，并对分类结果用不同的评价指标进行评价，评价结果如表5-7和图2所示，其中：

表5是少数类的分类精度Se；

表6是不平衡分类问题的评估指标G；

表7是不平衡分类问题的评估指标F；

将表7的实验结果绘制成柱状图，如图2所示。

表5：少数类的分类精度Se对比实验结果

数据集	SVM	AdaBoost	本发明
				pima	0.5426	0.5429	0.5494
car	0.8991	0.9082	0.9082
				ionophere	0.8373	0.8342	0.8485
wdbc	0.8636	0.8751	0.8801

表6：不平衡分类问题的评估指标G对比实验结果

数据集	SVM	AdaBoost	本发明
				pima	0.6457	0.6520	0.6564
car	0.9418	0.9471	0.9475
				ionophere	0.9021	0.9059	0.9137
wdbc	0.9119	0.9157	0.9168

表7：不平衡分类问题的评估指标F对比实验结果

数据集	SVM	AdaBoost	本发明
				pima	0.5408	0.5566	0.5603
car	0.8435	0.8541	0.8653
				ionophere	0.8841	0.894	0.9021
wdbc	0.8934	0.8987	0.8990

从表5可以看出，本发明方法相比现有技术取得了更高的少数类的分类精度。从图2和表6-7可以看出，本发明方法相比现有技术取得了更高的F值和G值。

综上实验所述，本发明针对不平衡数据分类问题，提出了一种基于集成学习的不平衡数据分类方法，通过在4个UCI标准数据集上对本发明方法和现有技术实施分类对比实验，验证了本发明方法相比现有技术，提高了少数类的分类精度，对不平衡数据能够获得更好的分类精度。

Claims

1.基于不平衡分类指标与集成学习的不平衡数据分类方法，包括如下步骤：

(7)根据优化后的错误率计算第t轮生成的弱分类器h_t的投票权重：

α_{t} = \frac{1}{2} \times \log (\frac{1 - {ϵ_{t}}^{*}}{{ϵ_{t}}^{*}});

(8)计算第t+1轮中训练样本权重：其中，

D_{t + 1}^{*} (x_{i}) = D_{t} (x_{i}) \times \{\begin{matrix} \exp (- α_{t}), h_{t} (x_{i}) = y_{i} \\ 1, h_{t} (x_{i}) &NotEqual; y_{i} \end{matrix}

2.根据权利要求1所述的基于不平衡分类指标与集成学习的不平衡数据分类方法，其中步骤(3)所述的用选取的训练样本对支持向量机进行训练，按如下步骤进行：

(3a)对第t轮训练样本的样本权重D_t进行排序，选择前n个权重较大的样本作为第t轮弱分类器的训练样本；

(3b)用选取的训练样本对支持向量机进行训练，获得第t轮的弱分类器h_t，用弱分类器h_t对所有训练样本进行分类，得到训练样本x_i的预测类标h_t(x_i)＝sgn(w_t·x_i+b_t)，其中，sgn(·)是符号函数，w_t表示通过第t轮训练支持向量机得到的最优分类平面的权值向量，b_t表示其偏置向量。

3.根据权利要求1所述的基于不平衡分类指标与集成学习的不平衡数据分类方法，其中步骤(6)所述的计算不平衡问题的评价指标G，按如下步骤进行：

(6b)依据上述计算得到的Se和Sp，计算Se和Sp的几何均值该几何均值是不平衡问题的评价指标。