CN102945280A

CN102945280A - 一种基于非平衡数据分布的多异质基分类器融合分类方法

Info

Publication number: CN102945280A
Application number: CN2012104603668A
Authority: CN
Inventors: 不公告发明人
Original assignee: Di Yun
Current assignee: Di Yun
Priority date: 2012-11-15
Filing date: 2012-11-15
Publication date: 2013-02-27

Abstract

本发明公开了一种基于非平衡数据分布的多异质基分类器融合分类方法，它涉及数据挖掘领域中的非平衡数据分类技术；首先利用基于差异采样率的重采样算法对样本进行预处理，包括过采样和欠采样两个过程，从而为不同的基分类器分配不同的待分类样本；计算各基分类器的分类错误率，进而计算出对应的权重；由过采样专家和欠采样专家统计各自结果；根据分类决策函数融和最后预测结果得到样本所述类别；本发明利用基于多异质基分类器融合分类方法从海量数据中发现少数类样本重要的特性，可以有效提高少数类样本精度，进而达到提高数据集整体分类精度的目的。

Description

一种基于非平衡数据分布的多异质基分类器融合分类方法

技术领域

本发明所涉及数据挖掘的技术领域，特别是涉及一种基于非平衡数据分布的多异质基分类器融合分类方法。

背景技术

近年来，随着数据挖掘研究的日益深入与应用的不断扩展，越来越多的研究者愈发感受到在一些复杂数据环境下，传统数据挖掘技术已难以适应新形势的不断变化。其中，针对非平衡数据分布环境的数据挖掘方法，逐渐成为该领域中的热点问题。自Nathalie Japkowicz全面提出面向非平衡数据集的学习后，基于非平衡数据分布环境的数据分类问题首次成了一个专门的研究主题和未来的研究重点之一。传统的分类方法着眼于提高数据集整体分类精度,倾向偏置多数类样本，忽略了少数类样本的精度，故已不适合非平衡数据的分类问题。

多分类器融合方法从系统论角度出发，不但融合多种重采样技术，而且能充分利用各基分类器的结果，故而能达到较好的精度，具有较稳定的鲁棒性。融合分类器不易出现过学习，同时具有较强的泛化能力。融合分类器本身具有的这种独特优势使其成为近年来数据挖掘领域中的研究热点。如在人脸识别及表情识别领域，不同分类器可以利用不同特征，采用某种组合策略，从而将多个分类器融合，使其优势互补，从而提高整体分类的准确率和鲁棒性。

2000年Thomas G.Dietterich从统计因素、计算因素和表示因素等三个方面深入分析了融合学习的有效性。1996年和1995年Breiman，Freund分别介绍和讨论了Bagging和Boosting这两种最典型的基分类器融合方法。Freund进而提出了AdaBoost算法，该算法可以非常容易地应用到实际问题中。但这些方法仅适用于正常态数据集中，并不适应于非平衡数据集，就当前的研究进展来看，适用于非平衡数据分布环境的基分类器融合方法仍为鲜见，尤其是在算法的多样性与分类准确度尤其是在提高少数类样本精度方面仍面临着难以突破的瓶颈问题。

发明内容

本发明的目的在于克服现有技术的不足，提出了一种基于非平衡数据分布的多异质基分类器融合分类方法。

为了实现上述发明目的，采用的技术方案如下：

一种基于非平衡数据分布的多异质基分类器融合分类方法，包括：

决策者利用基于差异采样率的重采样算法对样本进行预处理，包括过采样和欠采样两个过程；在基于差异采样率重采样算法中，在过采样和欠采样过程中均可为不同基分类器赋予不同的采样率，从而确保各基分类器拥有不同的样本数量；

利用基于差异采样率重采样算法对Undersample专家和Oversample专家的N个基分类器分别赋予训练样本，然后使其分别独立生成新样本；

计算各基分类器的分类错误率，进而计算出对应的权重；

由Undersample专家和Oversample专家统计各自结果；

融和最后预测结果。

所述基于差异采样率重采样算法对样本进行预处理的过程（以过采样过程为例），具体为：

A、计算正类样本数量minsize和负类样本数量maxsize；

B、计算maxsize与minsize的差值subsize；

C、计算采样因子samfactor=subsize/n，其中n为基分类器数量；

D、计算各基分类器的样本数量minsamplesizei=minsize+samfasctor·oversamratei，其中，oversamratei为第i个基分类器的过采样率；

所述各基分类器分类错误率和对应权重的计算方法为：计算基分类器h_t:X →{-1,1}，该基分类器在分布D_t上的误差为：

那么该基分类器的权重：

所述Undersample专家和Oversample专家统计结果的过程具体为：对于10个样本子集，仅分别独立保留最后一次迭代时生成的基分类器h_t(x)，在Undersample生成的10个样本子集

（Oversample生成的10个样本子集

）上皆生成相应的基分类器h_i(x)，i＝1,2...10；对在

上的10个基分类器进行10交叉验证，分别计算各自错误率ε_i，令该基分类器的权重为

i＝1,2...10；Undersample专家和Oversample专家最后预测结果分别为：

i＝1,2...10；如果Result_Undersample≥0则Undersample expert的融和结果为正类，否则为负类；如果Result_Oversample≥0则Oversample expert的融和结果为正类，否则为负类。

所述融和最后预测结果具体为：经过分类决策函数，输出分类结果Result：

与现有技术相比，本发明具有以下优点：

本发明首先利用基于差异采样率的重采样技术为各集分类器分配样本，避免了各基分类器训练完全相同的样本，保持了基分类器的多样性，从而尽可能避免了过适应；与等权重方法不同，我们利用样本识别的置信度设置基分类器的权重；采用的基分类器权重w_i与Adaboost算法中基分类器权重相统一，且ε_i经过多次交叉验证得到，反映了基分类器性能优劣；又因为基分类器性能要优于随机分类结果，即p_t(h_t(x)|x)≥0.5，故

w_{i} = \frac{1}{2} \ln (\frac{1 - ϵ_{i}}{ϵ_{i}}) = \frac{1}{2} \ln (\frac{1 - (1 - p_{t} (h_{t} (x) | x))}{1 - p_{t} (h_{t} (x) | x)}) = \frac{1}{2} \ln (\frac{p_{t} (h_{t} (x) | x)}{1 - p_{t} (h_{t} (x) | x)}) &GreaterEqual; 0,

第i基分类器的权重w_i根据置信度设置，置信度越大，权重越大，反之亦然，从而论证了w_i、ε_i与p_t(h_t(x)|x)的内在统一性，进而说明了基分类器权重计算方法的合理性；本发明仅利用了最后一轮生成的基分类器，而该基分类器从理论上是最优的；然后在10个不同样本集上对10个不同基分类器进行测试，并根据分类精度决定其权重，利用加权的投票机制代替平均投票机制；为正类样本设置较大偏置，在决策输出层只要有一个专家提交正类结果，则最终分类结果为正类。

附图说明

附图是本发明基于非平衡数据分布的多异质基分类器融合分类方法的工作流程图。

具体实施方式

下面结合附图对本发明作进一步的说明。

本发明在非平衡数据分布下的基于异质基分类器的融和分类实施过程如附图所示，具体包括步骤：

Step 1利用基于差异采样率的重采样算法对样本进行预处理，包括过采样和欠采样两个过程，从而为不同的基分类器分配不同的待分类样本；以过采样过程为例，具体为：

A、计算正类样本数量minsize和负类样本数量maxsize；

B、计算maxsize与minsize的差值subsize；

C、计算采样因子samfactor=subsize/n，其中n为基分类器数量；

D、计算各基分类器的样本数量minsamplesizei=minsize+samfactor·oversamratei，其中，oversamratei为第i个基分类器的过采样率；

Step 2计算各基分类器的分类错误率，进而计算出对应的权重；计算基分类器h_t:X →{-1,1}，该基分类器在分布D_t上的误差为：那么该基分类器的权重：

α_{t} = \frac{1}{2} \ln (\frac{1 - ϵ_{t}}{ϵ_{t}});

Step 3由Undersample专家和Oversample专家统计各自结果；对于10个样本子集，仅分别独立保留最后一次迭代时生成的基分类器h_t(x)，在Undersample生成的10个样本子集

（Oversample生成的10个样本子集

）上皆生成相应的基分类器h_i(x)，i＝1,2...10；对在

i＝1,2...10；Undersample专家和Oversample专家最后预测结果分别为：和

i＝1,2...10；如果Result_Undersample≥0则Undersample expert的融和结果为正类，否则为负类；如果Result_Ovesample≥0则Oversample expert的融和结果为正类，否则为负类。

Step 4根据所述Undersample专家和Oversample专家统计各自结果和分类决策函数融和最后预测结果，若分类决策函数即若Result_Undersample+Result_Oversample大于或等于0，则融合结果为正类，反之为负类。