CN105243394A

CN105243394A - 一种类不平衡对分类模型性能影响程度的评价方法

Info

Publication number: CN105243394A
Application number: CN201510732754.0A
Authority: CN
Inventors: 于巧; 姜淑娟; 张艳梅; 王兴亚
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2015-11-03
Filing date: 2015-11-03
Publication date: 2016-01-13
Anticipated expiration: 2035-11-03
Also published as: CN105243394B

Abstract

本发明涉及一种类不平衡对分类模型性能影响程度的评价方法，包括下列步骤：(1)分类模型库构建；(2)新数据集构造；(3)分类模型对新数据集进行预测；(4)分类模型性能评价；(5)影响程度等级评定。本发明首先采用机器学习中典型的分类算法构建分类模型库；然后，选取类不平衡数据集作为基准数据集，并在此基础上构建一组不平衡率依次递增的新数据集，选取不同的分类模型对这组新数据集分别进行分类和预测；最后，采用变异系数来评价分类模型的性能变异程度并划分等级，从而评价类不平衡对不同分类模型性能的影响程度，对于类不平衡问题的研究具有指导意义。针对不同的分类模型，本发明提供的类不平衡对分类模型性能影响程度的评价方法具有较高的普适性。

Description

一种类不平衡对分类模型性能影响程度的评价方法

技术领域

本发明属于数据挖掘和机器学习领域，涉及一种分类模型的评价方法，且特别是关于一种类不平衡对分类模型性能影响程度的评价方法。

背景技术

分类是数据挖据领域中的重要技术，是指在已知类别的数据上，通过学习构建一个分类模型，然后对其他未知类别的数据进行预测的过程。在构建分类模型的过程中，往往需要结合机器学习中的算法或模型来提高分类的准确度。

随着数据挖掘和机器学习领域的不断发展，类不平衡问题也逐步成为这些领域的研究热点。一般地，类不平衡是指不同类别间样本数量分布的不均衡现象。对于二分类问题，数据集中往往包含正类样本和负类样本，且一般情况下，正类样本属于少数类，而负类样本属于多数类，其中正类样本(少数类)为待检测类。因此，当负类样本数远远高于正类样本数时，就表现出类不平衡问题。

在实际应用中，类不平衡问题是普遍存在的，如文本分类、欺诈检测和医学诊断等领域。然而，因类不平衡问题的存在，传统分类模型的性能可能会受到一定的影响。目前，解决类不平衡问题的方法也有很多，主要分为两大类：一类是从数据集分布角度，通过改变数据集的样本分布状态来降低类不平衡产生的影响，主要通过采样法来实现；另一类是从学习算法角度，针对不同算法在处理类不平衡问题时的不足加以改进，从而取得更好的分类性能，这类方法主要有代价敏感学习和集成学习等。然而，在解决分类不平衡问题的同时，往往需要与特定的分类模型相结合或者在某些分类模型下进行验证，上述方法未充分考虑到类不平衡问题对分类模型本身产生的影响。在类不平衡情况下，不同分类模型的性能可能会受到不同程度的影响，即有的分类模型的性能极易受到影响，而有的分类模型的性能保持相对稳定。因此，掌握不同分类模型在类不平衡情况下的稳定性，可在实际应用中有针对性地选择合理的分类模型，对类不平衡问题的研究具有指导意义。

发明内容

为了探究类不平衡对不同分类模型性能的影响程度，本发明提供一种类不平衡对分类模型性能影响程度的评价方法。首先，采用机器学习中典型的分类算法构建分类模型库；然后，选取类不平衡数据集作为基准数据集，并在此基础上构建一组不平衡率依次递增的新数据集，选取不同的分类模型对这组新数据集分别进行分类和预测；最后，采用变异系数来评价分类模型的性能变异程度并划分等级，从而评价类不平衡对不同分类模型性能的影响程度。

为了达成上述目的，本发明提供一种类不平衡对分类模型性能影响程度的评价方法。具体步骤如下。

(1) 分类模型库构建，采用机器学习中典型的分类算法来构建分类模型库，包括C4.5、K近邻、朴素贝叶斯和RIPPER四种基本模型，其中C4.5是一种典型的决策树算法，而RIPPER是一种基于规则的分类方法，同时还包括AdaBoost和Bagging两种集成模型。初始化分类模型并对各模型的运行参数进行设置。特别地，该分类模型库并不仅包含以上6种分类模型，其具有可更新性，可实现分类模型的增加、修改和删除等功能。

(2) 新数据集构造，选取类不平衡数据集作为基准数据集。对于一个原始的类不平衡数据集D，即基准数据集D，定义不平衡率(Imbalance Ratio, IR)，其计算如公式①所示：

IR = ⌊ n ₂/ n ₁⌋ ①

其中，n ₁表示正类样本数，n ₂表示负类样本数，且n ₂远远大于n ₁。

设计一种新数据集构造算法，通过该算法将原始的类不平衡数据集D转化为一组不平衡率依次递增的新数据集newD。

(3) 分类模型对新数据集进行预测，假设原始数据集的不平衡率IR的值为r。在步骤(1)中的分类模型库中选取待评价的分类模型，对步骤(2)中得到的每个新数据集newD分别进行分类和预测，并采用AUC(Area Under the Curve)指标来评价各个分类模型的预测结果，从而得到一组不同不平衡率下的AUC值，记为集合S={AUC _i }，i=1,2,…,r。其中，AUC指标是评价分类模型性能的最常用指标，AUC值越大，说明该分类模型的性能越好，预测结果也越准确。特别地，为了降低步骤(2)中新数据集构造带来的随机误差，集合S中每个AUC取100次重复实验的平均值。

(4) 分类模型性能评价，根据步骤(3)得到的预测结果，计算集合S={AUC _i }中所有AUC值的平均值μ和标准差σ，计算过程如公式②③所示。同时，采用标准差σ与平均值μ的比值，即变异系数CV (Coefficient of Variation)，来衡量不同不平衡率下AUC值的变异程度，消除了平均值不同对变异程度比较的影响，从而更好地评价类不平衡对不同分类模型性能的影响程度。变异系数CV计算如公式④所示：

平均值 ②

标准差 ③

变异系数 (μ>0) ④

变异系数CV值越大，说明在类不平衡情况下，该分类模型性能的变异程度越大。

在步骤(1)构建的分类模型库基础上，选取Camel-1.0和JEdit-4.3这两个类不平衡数据集作为基准数据集进行实验，这两个数据集的不平衡率IR分别为25和43。通过实验得到各分类模型的平均值μ、标准差σ和变异系数CV值，如表1所示：

表1 各分类模型的平均值μ、标准差σ和变异系数CV值

由表1中的结果可得，变异系数CV值是不同的，说明类不平衡对不同分类模型性能的影响程度是不同的，也就是说，在类不平衡情况下，不同分类模型性能的稳定程度是有差异的。

(5) 影响程度等级评定，变异系数CV值越大，说明类不平衡问题对该分类模型性能的影响程度越大。根据步骤(4)中的实验结果划分为A，B，C，D四个等级：

A. 0% < CV <= 5%，基本无影响；

B. 5% < CV <= 10%，有一定影响；

C. 10% <CV <= 20%，有明显影响；

D. CV > 20%，有强烈影响。

由表1中各分类模型的变异系数CV值和步骤(5)中的等级划分可得，类不平衡问题对K近邻算法、朴素贝叶斯、AdaBoost和Bagging这四种分类模型的性能基本无影响，即在类不平衡情况下这四种模型的性能相对稳定，对RIPPER模型的性能有一定的影响，而对C4.5模型的性能有明显影响。

本发明方法不仅能够评价分类模型库中列举的6种分类模型的稳定程度，同样地，对于其他分类模型也是普遍适用的。因此，对于不同的分类模型来说，本发明方法具有较高的普适性。

综上所述，本发明提供并实施了一种类不平衡对分类模型性能影响程度的评价方法，有效地衡量了类不平衡情况下不同分类模型性能的稳定性，从而在实际应用中可以有针对性地选择合理的分类模型，对于类不平衡问题的研究具有指导意义。

进一步，其中上述步骤(1)的具体步骤如下：

步骤(1) -1：起始状态；

步骤(1) -2：选取一个待评定的分类模型；

步骤(1) -3：初始化分类模型，并对各模型的运行参数进行设置；

步骤(1) -4：继续增加分类模型，重复步骤(1) -2和步骤(1) -3，直至所有分类模型增加完毕；

步骤(1) -5：分类模型库构建完毕。

进一步，其中上述步骤(2)的具体步骤如下：

步骤(2) -1：起始状态；

步骤(2) -2：选取类不平衡数据集作为基准数据集；

步骤(2) -3：对于一个原始的类不平衡数据集D，即基准数据集D，定义不平衡率IR= ⌊ n ₂/ n ₁⌋，n ₁表示正类样本数，n ₂表示负类样本数；

步骤(2) -4：设计一种新数据集构造算法，具体算法如图3所示。通过该算法将原始的类不平衡数据集D转化为一组不平衡率依次递增(即IR=1,2,…,r)的新数据集newD；

步骤(2) -5：新数据集构造完毕。

进一步，其中上述步骤(3)的具体步骤如下：

步骤(3) -1：起始状态；

步骤(3) -2：在步骤(1)中的分类模型库中选取待评价的分类模型，对步骤(2)中得到的每个新数据集进行分类和预测；

步骤(3) -3：采用AUC(Area Under the Curve)指标来评价各个分类模型的预测结果，并取100次重复实验的平均值作为最终的预测结果，记为集合S={AUC _i }；；

步骤(3) -4：分类模型对新数据集进行预测完毕。

进一步，其中上述步骤(4)的具体步骤如下：

步骤(4) -1：起始状态；

步骤(4) -2：根据步骤(3)得到的预测结果，计算集合S={AUC _i }中所有AUC值的的平均值μ和标准差σ，计算过程如公式②③所示：

平均值 ②

标准差 ③

步骤(4) -3：采用标准差σ与平均值μ的比值，即变异系数CV (Coefficient of Variation)，来衡量不同不平衡率下AUC值的变异程度。计算过程如公式④所示：

变异系数 (μ>0) ④

步骤(4) -4：分类模型性能评价完毕。

进一步，其中上述步骤(5)的具体步骤如下：

步骤(5) -1：起始状态；

步骤(5) -2：等级划分，根据变异系数CV值划分为A，B，C，D四个等级：

A. 0% < CV <= 5%，基本无影响；

B. 5% < CV <= 10%，有一定影响；

C. 10% < CV <= 20%，有明显影响；

D. CV > 20%，有强烈影响；

步骤(5) -3：根据变异系数CV值来评定类不平衡对不同分类模型性能的影响程度；

步骤(5) -4：影响程度等级划分完毕。

本发明通过构建分类模型库以及在类不平衡数据集上构建新数据集，然后选取不同的分类模型对所有的新数据集分别进行分类和预测，并采用变异系数来评价分类模型的性能变异程度，最后根据不同分类模型在新数据集上的性能变异程度划分等级，从而更好地探究类不平衡情况下不同分类模型性能的变化趋势。同时，针对不同的分类模型，本发明提供的类不平衡对分类模型性能影响程度的评价方法具有较高的普适性。

附图说明

图1为本发明实施例的一种类不平衡对分类模型性能影响程度的评价方法的整体框架图。

图2为图1中S1所示的分类模型库构建流程图。

图3为图1中S2所示的新数据集构造的具体算法。

图4为图1中S3、S4和S5所示的影响程度评定流程图。

具体实施方式

为了更了解本发明的技术内容，特举具体实例并配合所附图式说明如下。

一种类不平衡对分类模型性能影响程度的评价方法，其特征在于，包括下列步骤。

S1 分类模型库构建，采用机器学习中典型的分类算法来构建分类模型库，初始化分类模型并对各模型的运行参数进行设置。同时，分类模型库具有可更新性，可实现分类模型的增加、修改和删除等功能。

S2 新数据集构造，对于一个原始的类不平衡数据集，即基准数据集，采用本发明设计的新数据集构造算法将其转化为一组不平衡率依次递增的新数据集。

S3 分类模型对新数据集进行预测，在S1中的分类模型库中选取待评价的分类模型，对S2中得到的每个新数据集进行分类和预测，并采用AUC(Area Under the Curve)指标来评价各个分类模型的预测结果，且AUC值取100次重复实验的平均值。

S4 分类模型性能评价，根据S3中得到的预测结果，计算不同类不平衡率下AUC值的平均值μ和标准差σ，然后计算标准差σ与平均值μ的比值，即变异系数CV (Coefficient of Variation)，从而更好地衡量各分类模型在不同不平衡率下性能的变异程度。

S5 影响程度等级评定，根据变异系数CV值来划分等级，从而评定类不平衡对不同分类模型性能的影响程度。

图2为图1中S1所示的分类模型库构建流程图。具体步骤如下：

步骤 1：起始状态；

步骤 2：选取一个待评定的分类模型；

步骤 3：分类模型初始化并设置运行参数；

步骤 4：继续增加分类模型，重复步骤 2和步骤 3，直至所有分类模型增加完毕；

步骤 5：分类模型库构建完毕。

图3为图1中S2所示的新数据集构造的具体算法。具体步骤如下：

步骤 1：起始状态；

步骤 2：根据分类特征将原始的类不平衡数据集D分为正类样本集D ₁和负类样本集D ₂(行1)，并分别统计D ₁和D ₂包含的样本数，记为n ₁和n ₂ (行2-行3)，则原始数据集D的不平衡率r =⌊ n ₂/ n ₁⌋ (行4)；

步骤 3：创建两个数据集newD和restD(行5-行6)；

步骤 4：对数据集restD进行随机化处理，然后采用随机采样法从数据集restD中无放回地选取n ₁个样本，并把选取的样本保存到数据集newD中构成新的数据集，同时将选取的样本从数据集restD中删除，从而保证选取的样本不重复(行9-行11)；

步骤 5：记录新数据集newD(行16)；

步骤 6：重复执行步骤4和步骤5，直至数据集restD为空(行7-行17)；

步骤 7：返回所有构造的数据集newD(行18)，且这些新数据集的不平衡率依次递增，即IR=1,2,…,r；

实际上，该算法主要是通过随机采样法来实现的，且保证不重复采样，最终将原始的类不平衡数据集D转化为一组不平衡率依次递增的新数据集newD，从而更好地探究分类模型性能在类不平衡情况下的变化趋势。

图4为图1中S3、S4和S5所示的影响程度评定流程图。具体步骤如下：

步骤1：起始状态；

步骤2：从S1构建的分类模型库中选取一个待评价的分类模型；

步骤3：利用该分类模型对S2构造的新数据集分别进行预测；

步骤4：采用AUC指标来评价分类模型的预测结果，并取100次重复实验的平均值；

步骤5：根据不同类不平衡率下的AUC值计算平均值μ、标准差σ和变异系数CV；

步骤6：根据变异系数CV值来评定影响程度等级；

步骤7：影响程度评定完毕。

Claims

1.一种类不平衡对分类模型性能影响程度的评价方法，其特性在于，首先，采用机器学习中典型的分类算法构建分类模型库；然后，选取类不平衡数据集作为基准数据集，并在此基础上构建一组不平衡率依次递增的新数据集，选取不同的分类模型对这组新数据集分别进行分类和预测；最后，采用变异系数来评价分类模型的性能变异程度并划分等级，从而评价类不平衡对不同分类模型性能的影响程度；具体包括下列步骤：

(1) 分类模型库构建，采用机器学习中典型的分类算法来构建分类模型库，初始化分类模型并对各模型的运行参数进行设置；同时，该分类模型库具有可更新性，可实现分类模型的增加、修改和删除等功能；

(2) 新数据集构造，选取类不平衡数据集作为基准数据集，对于一个原始的类不平衡数据集D，即基准数据集D，定义不平衡率(Imbalance Ratio, IR)，其计算如公式①所示：

IR = ⌊ n ₂/ n ₁⌋ ①

其中，n ₁表示正类样本数，n ₂表示负类样本数，且n ₂远远大于n ₁；

设计一种新数据集构造算法，并通过该算法将原始的类不平衡数据集D转化为一组不平衡率依次递增的新数据集newD；

(3) 分类模型对新数据集进行预测，假设原始数据集D的不平衡率IR的值为r，在步骤(1)中的分类模型库中选取待评价的分类模型，对步骤(2)中得到的每个新数据集newD分别进行分类和预测，并采用AUC(Area Under the Curve)指标来评价各个分类模型的性能，从而得到一组不同不平衡率下的AUC值，记为集合S={AUC _i }，i=1,2,…,r；特别地，为了降低步骤(2)中新数据集构造带来的随机误差，集合S中每个AUC取100次重复实验的平均值；

(4) 分类模型性能评价，根据步骤(3)得到的预测结果，计算集合S={AUC _i }中所有AUC值的平均值μ和标准差σ，如公式②③所示；同时，采用标准差σ与平均值μ的比值，即变异系数CV (Coefficient of Variation)，来衡量不同不平衡率下AUC值的变异程度，消除了平均值不同对变异程度比较的影响，从而更好地评价类不平衡对不同分类模型性能的影响程度，变异系数CV计算如公式④所示：

平均值 ②

标准差 ③

变异系数 (μ>0) ④

(5) 影响程度等级评定，变异系数CV值越大，说明类不平衡问题对该分类模型性能的影响程度越大；根据变异系数CV值划分为A，B，C，D四个等级：

A. 0% < CV <= 5%，基本无影响；

B. 5% < CV <= 10%，有一定影响；

C. 10% < CV <= 20%，有明显影响；

D. CV > 20%，有强烈影响；

最后，根据变异系数CV值来评价类不平衡对不同分类模型性能的影响程度。

2.根据权利要求1所述的一种类不平衡对分类模型性能影响程度的评价方法，其特征在于，在步骤(1)中，采用机器学习中典型的分类算法来构建分类模型库，初始化分类模型并对各模型的运行参数进行设置；同时，该分类模型库具有可更新性，可实现分类模型的增加、修改和删除等功能。

3.根据权利要求1所述的一种类不平衡对分类模型性能影响程度的评价方法，其特征在于，在步骤(2)中，定义不平衡率 (Imbalance Ratio, IR)，并设计一种新数据集构造算法，通过该算法将原始的类不平衡数据集转化为一组不平衡率依次递增的新数据集。

4.根据权利要求1所述的一种类不平衡对分类模型性能影响程度的评价方法，其特征在于，在步骤(3)中，假设原始数据集的不平衡率IR的值为r，在步骤(1)中的分类模型库中选取待评价的分类模型，对步骤(2)中得到的每个新数据集分别进行分类和预测，并采用AUC(Area Under the Curve)指标来评价各个分类模型的性能，从而得到一组不同不平衡率下的AUC值，记为集合S={AUC _i }，i=1,2,…,r；特别地，为了降低步骤(2)中新数据集构造带来的随机误差，集合S中每个AUC取100次重复实验的平均值。

5.根据权利要求1所述的一种类不平衡对分类模型性能影响程度的评价方法，其特征在于，在步骤(4)中，根据步骤(3)得到的预测结果，计算S={AUC _i }中所有AUC值的平均值μ和标准差σ；同时，采用标准差σ与平均值μ的比值，即变异系数CV (Coefficient of Variation)，来衡量不同不平衡率下AUC值的变异程度，消除了平均值不同对变异程度比较的影响，从而更好地评价类不平衡对不同分类模型性能的影响程度。

6.根据权利要求1所述的一种类不平衡对分类模型性能影响程度的评价方法，其特征在于，在步骤(5)中，根据变异系数CV值的范围划分为A，B，C，D四个等级：

A. 0% < CV <= 5%，基本无影响；

B. 5% < CV <= 10%，有一定影响；

C. 10% < CV <= 20%，有明显影响；

D. CV > 20%，有强烈影响；

最后，根据各分类模型的变异系数CV值来评价类不平衡对不同分类模型性能的影响程度。