CN105975611A

CN105975611A - 自适应组合降采样增强学习机

Info

Publication number: CN105975611A
Application number: CN201610330862.XA
Authority: CN
Inventors: 李喆; 吕卫; 褚晶辉
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2016-05-18
Filing date: 2016-05-18
Publication date: 2016-09-28

Abstract

本发明涉及一种自适应组合降采样增强学习机，包括：根据和计算不平衡数据集的不平衡率；将全部的负样本通过不放回抽样均分为IR个独立不相交的子集，使各负样本子集中的样本数量与正样本数量接近；不平衡数据集中的全部正样本分别与各负样本子集进行组合，得到IR个平衡的子训练集；设迭代次数为T，用Real Adaboost算法分别对各平衡子集进行训练，得到T个不同的分类模型；使用一个平衡且与不平衡数据集数据分布相同的验证集进行分类实验，对输出的加权投票结果利用OTSU法寻找最优阈值。本发明可以在不平衡数据集上获得更好的分类效果。

Description

自适应组合降采样增强学习机

技术领域

本发明涉及机器学习与数据挖掘技术，具体涉及一种针对不平衡数据集的集成分类器。

背景技术

分类是机器学习技术最为重要的任务之一。当前，已经得到深入研究并广泛投入应用的支持向量机、线性判别分析及决策树等经典分类器在对样本进行训练时均以获得最高整体准确率为目标。对于二分类问题，若两类样本分别包含的样本数基本相等，则经典分类器可以通过训练获得良好的分类效果。然而，若正样本(少数类中的样本)和负样本(多数类中的样本)数量相差过大，经典分类器将无法给出良好的分类结果。例如，若某数据集中包含1个正样本和99个负样本，则将全部数据均分入负样本将获得99％的整体准确率，但由于其无法将正负样本分开，故这一数据毫无意义。为解决数据不平衡问题对正样本分类准确率带来的影响，迄今为止科研人员已提出多种方法。根据其操作对象的不同，这些方法主要可以分为数据级操作方法和算法级操作方法。

数据级操作方法主要通过改变训练集的正负样本数据分布来达到数据平衡，增加正样本的数量或减少负样本的数量均为可行方法。专利“一种分类器的构建方法”(CN104766098A)同时使用上述两种方法，既保证了采样后训练样本的代表性，也避免了过高的运算复杂度。然而，数据级方法也存在一定缺陷，即重采样过程对噪声较为敏感，个别远离同类大部分样本点的离群点可能会对最终的分类性能产生明显影响。

算法级操作方法主要通过对分类规则及数学模型进行优化来解决数据不平衡问题，常用的方法是对不同类的样本给出不同的错分代价或进行增强学习(boosting)，通过多个弱分类器的叠加与投票获得性能较好的整体分类器。专利“一种基于代价敏感支持向量机的遥感图像自动解译方法”(CN103218625A)通过引入代价敏感算法来优化支持向量机，增大将正样本分错的惩罚系数，以此提高正样本的分类准确率；专利“基于不平衡分类指标与集成学习的不平衡数据分类方法”(CN104951809A)使用boosting算法不断增加错分样本的权重，使其在下一轮学习中被再次错分所需付出的代价变大，“迫使”错分的样本在下一轮迭代中给出同之前相反的分类结果，由此提高分类准确率。但算法级操作方法同样存在一定的局限性：若引入代价敏感参数，则代价损失函数的确定需要依靠先验知识确定，而这样的先验知识不仅难以获得，且不能保证准确；而增强学习方法仍然知识一种通用分类器的优化方法，并未刻意关注正样本，因此增强学习后数据不平衡问题虽得到缓解，但仍然存在。

为克服上述技术的缺陷并将其优势相结合，近年来，将数据级操作和算法级操作相结合的集成学习方法已经成为热门研究方向。集成学习框架可以将包括重采样、代价敏感、阈值投票等方法在内的多种机器学习方法进行融合并按照一定的顺序执行，以此达到扬长避短的目的。专利“组合降采样极限学习机”(CN104573708A)将投票算法与降采样技术相结合，在降低了错误分类方差的同时也减小了运算复杂度。同时，由于投票算法的作用，离群点对最终分类结果的影响也可减小。然而，该发明中得到的分类结果受各子分类器分类性能影响较大，分类性能不够稳定。

从上述分析可以看出，当前，集成学习方法虽已开始得到应用并展现出良好的发展前景，但其性能仍存在一定的提升空间。

发明内容

本发明提供一种集成分类器，在不平衡数据集上获得更好的分类性能。技术方案如下：

一种自适应组合降采样增强学习机，设不平衡数据集的正负样本总数为n，其中正样本的数目为n_p，负样本的数目为n_n，n_p<n_n，该方法的技术方案如下：

(1)根据n_p和n_n计算不平衡数据集的不平衡率IR；

(2)将全部的负样本通过不放回抽样均分为IR个独立不相交的子集，使各负样本子集中的样本数量与正样本数量接近；

(3)不平衡数据集中的全部正样本分别与各负样本子集进行组合，得到IR个平衡的子训练集；

(4)设迭代次数为T，用Real Adaboost算法分别对各平衡子集进行训练，得到T个不同的分类模型；

(5)使用一个平衡且与不平衡数据集数据分布相同的验证集进行分类实验，对输出的加权投票结果利用OTSU法寻找最优阈值。

(6)对待分类的样本进行分类时，将其输入分类模型中，经各分类模型加权投票后将投票结果同步骤(5)中给出的最优阈值进行比较，若不小于最优阈值则判定为正样本，反之判定为负样本。

本发明受集成分类器设计思想启发，设计一种基于组合降采样的集成分类器。通过将子分类器用RealAdaboost算法进行优化，提高其单独分类性能；子分类器的结果融合采用加权投票方法，根据子分类器的分类错误率赋予不同权重，且最终的分类阈值根据投票结果自适应，有效提高了分类精度。经实验比较，本发明在多个分类器评价指标上具有明显优势。

附图说明

图1为Real Adaboost算法流程图。

图2为本发明系统流程图。

具体实施方式

下面结合附图对本发明作进一步详细的说明：

(1)取得测试和训练数据：示例中使用KEEL机器学习开源数据库中的红酒品质分类数据库，共有1599个红葡萄酒样本。其中，正样本为数据库中评分为4的红葡萄酒(评分取值为从0到10的整数)，包含样本53个，即n_p＝53；负样本为数据库中的其他全部1536个样本，即n_n＝1536。按(1)式计算不平衡率，

IR＝round(n_n/n_p) (1)

不平衡比例约为1:29。对各样本提取糖度、PH值、液体密度、硫含量等共11维样本，进行归一化处理。

(2)正负样本中，分别取一半样本为训练集，四分之一样本为验证集，另外四分之一样本为测试集。

(3)对负样本进行29次不放回均匀降采样，使降采样得到的各负样本子集中的样本个数同训练集中正样本的个数基本相同。将训练集中全部正样本分别与29个负样本相结合，得到29个平衡的子训练集。

(4)用上述得到的29个平衡训练集训练子分类器，分类算法为Real Adaboost，具体流程如图1所示。设训练迭代次数T＝10，各样本的权值为D，则训练步骤可描述为：

1.将各训练样本的权值均初始化为D₁(i)＝1/(n_p+n_s),i＝1,...,(n_p+n_s)。随后在迭代结束之前循环执行步骤2至步骤6：

2.将训练集中的特征按取值不同划分为若干个不相交的子空间,记为X₁,...,X_n。

3.如(1)式所示，计算该轮迭代中每个子空间中样本的总权值

{W_{l}}^{j} = P (x_{i} &Element; X_{j}, y_{i} = l) = Σ_{i : x_{i} &Element; X_{j}^y_{i} = l} D_{t} (i) - - - (1)

其中，l可取+1或-1，分别为正负样本的标签。通过上式计算可以得到每个子空间中正负类的累积样本权。若权值越高，则证明训练样本之前被分错的次数越多，即分类错误越多。

4.计算样本输出,对于任意x_i∈X_j，定义

h (x_{i}) = \frac{1}{2} \ln \frac{W_{+ 1}^{j} + ϵ}{W_{- 1}^{j} + ϵ} - - - (2)

其中，ε为一个很小的正常量，用于保证输出的平滑性。由此可见，不同的子空间中分类器h将给出不同的输出，而同一子空间内的取值将有相同的输出。

5.定义归一化因子Z为各子空间中正负样本的累积样本权之积的和乘以2，即

Z = 2 Σ_{j} \sqrt{W_{+ 1}^{j} W_{- 1}^{j}} - - - (3)

由于W值表示样本权重，且在Real Adaboost算法中分类错误的样本将获得更高的权重，故Z可以表征分类误差。通过机器学习寻优训练选取在该轮迭代中使Z值最小(即分类误差最小)的分类参数，将该子空间的分类器h_t作为该轮迭代的输出函数，即为该轮迭代训练得到的分类器。

6.按(4)式更新样本权值

对各样本的权值进行归一化处理后即可开始下一轮迭代。本发明中，步骤2至步骤6循环执行共10次；

7.最终得到的强分类器可表示为

H (x) = s i g n (Σ_{t = 1}^{T} h_{t} (x) - b) - - - (5)

其中，b为一判别阈值，通常默认为0。同时，可定义强分类器给出的分类结果置信度

C o n f = | (Σ_{t = 1}^{T} h_{t} (x) - b) | - - - (6)

本发明中，Real Adaboost结构中的基分类器采用C4.5决策树。其中，设置每个属性中至少包含两个样本，置信度为0.25，决策树训练完成后进行后剪枝处理。正样本数据标签为+1，负样本数据标签为-1。

(5)根据训练算法迭代完成后各子分类器最终的分类错误率决定其在最终的投票中得到的权重。

α_{i} = \frac{1}{2} l n \frac{1 - ϵ_{i}}{ϵ_{i}} - - - (7)

(6)将验证集样本输入已经完成训练及权值分配的分类系统，用OTSU法寻找阈值，即在集合[-1,1]内寻找最佳阈值分界点th，使分类结果以该点为界生成两类，则两类各有一中心点。计算两中心点方差，取值范围内使两类方差最大的阈值即为分类器最终的阈值。

完成加权投票后为全体验证集样本寻找合适的阈值th，使被th分出的两类获得最大的类间方差，此时的th即为分类系统的自适应阈值。

(7)测试：将待分类样本输入分类系统，输出加权投票结果后与阈值进行比较，若大于阈值则分入正类(+1)，反之分入负类(-1)。

表1给出了直接运用C4.5决策树分类器对不平衡数据集进行分类、用组合降采样极限学习机进行分类及本发明所使用的自适应组合降采样增强学习机方法进行分类分别得到的测试结果。本发明采用以下几个指标对分类器性能进行评价：

表1 分类算法结果与比较(同一指标下最好的结果用黑体标出)

由表1可以看出，在数据高度不平衡的情况下，直接用简单分类器进行分类完全无法正确识别正样本，而本发明所使用的方法同时获得了理想的灵敏度和特异性结果，取得了对正负样本的分类准确率的最佳折中，展现出了良好的分类性能。

Claims

1.一种自适应组合降采样增强学习机，设不平衡数据集的正负样本总数为n，其中正样本的数目为n_p，负样本的数目为n_n，n_p<n_n，该方法的技术方案如下：

(1)根据n_p和n_n计算不平衡数据集的不平衡率IR；