CN108985369A

CN108985369A - 一种用于非平衡数据集分类的同分布集成预测方法及系统

Info

Publication number: CN108985369A
Application number: CN201810735806.3A
Authority: CN
Inventors: 李凤莲; 张雪英; 焦江丽; 陈桂军; 牛壮; 樊宇宙
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2018-07-06
Filing date: 2018-07-06
Publication date: 2018-12-11

Abstract

本发明公开一种用于非平衡数据集分类的同分布集成预测方法及系统。所述预测方法包括：获取数据集；采用同分布随机抽样法将所述数据集构建为多个数据样本子集；对每个所述数据样本子集采用CART决策树方法进行模型训练，得到多个CART决策树分类模型；对测试集采用所述CART决策树分类模型得到初步分类结果；采用投票法对所述初步分类结果进行投票，得到最终分类预测结果。采用本发明的方法或者系统能够提高非平衡数据集中少数类样本的识别率和预测分类的精度。

Description

一种用于非平衡数据集分类的同分布集成预测方法及系统

技术领域

本发明涉及数据挖掘领域，特别是涉及一种用于非平衡数据集分类的同分布集成预测方法及系统。

背景技术

随着互联网的普及以及信息化程度的提高，虽然数据量不断增加，但是有些类别的数据量却占有很少比例，即数据集的类别比呈现出非平衡表特性，而这些数据往往是人们需要研究的重点。集成算法是当前机器学习中比较热门的分类方法，特别是随机森林算法，因为引入随机性使其具有良好的抗噪性，并且不容易出现出过拟合现象。但是目前的集成学习算法及随机森林算法分类模型是以数据类别比平衡的条件构造的，因此在对非平衡数据集进行分类预测时，该模型对少数类样本的识别率并不是很高。

在使用集成方法对非平衡数据集分类问题进行研究时，已有方法是将非平衡数据集中的多数类样本随机分为T个子集，然后分别将这些子集中的样本与少数类样本合成样本子集，通过T个决策树对所有样本子集进行训练，然后将这些决策树并行集成。但这种方法使T个数据集之间的多数类样本完全不同，虽然少数类样本充分训练，但多数类样本训练不足，因此这种方法的分类效果并不理想。

发明内容

本发明的目的是提供一种用于非平衡数据集分类的同分布集成预测方法及系统，提高非平衡数据集中预测分类的精度。

为实现上述目的，本发明提供了如下方案：

一种用于非平衡数据集分类的同分布集成预测方法，所述预测方法包括：

获取数据集；

采用同分布随机抽样法将所述数据集构建为多个数据样本子集；

对每个所述数据样本子集采用CART决策树方法进行模型训练，得到多个CART决策树分类模型；

对测试集采用所述CART决策树分类模型得到初步分类结果；

采用投票法对所述初步分类结果进行投票，得到最终分类预测结果。

可选的，所述数据集包括多数类样本集和少数类样本集。

可选的，所述采用同分布随机抽样法将所述数据集构建为多个数据样本子集，具体包括：

采用K-means方法将所述多数类样本集聚为多个第一样本子集；

随机在每个所述样本子集中抽取设定数量的样本，得到多个第二样本子集；

将所述第二样本子集和所述少数类样本集合并，得到第三数据样本子集。

可选的，抽取样本的数量大于或者等于所述数据集中样本总数量的一半。

为实现上述目的，本发明提供了如下方案：

一种用于非平衡数据集分类的同分布集成预测系统，所述预测系统包括：

获取模块，用于获取数据集；

构建模块，用于采用同分布随机抽样法将所述数据集构建为多个数据样本子集；

训练模块，用于对每个所述数据样本子集采用CART决策树方法进行模型训练，得到多个CART决策树分类模型；

分类模块，用于对测试集采用所述CART决策树分类模型得到初步分类结果；

投票模块，用于采用投票法对所述初步分类结果进行投票，得到最终分类预测结果。

可选的，所述数据集包括多数类样本集和少数类样本集。

可选的，所述构建模块，具体包括：

第一样本子集获取单元，用于采用K-means方法将所述多数类样本集聚为多个第一样本子集；

第二样本子集获取单元，用于随机在每个所述样本子集中抽取设定数量的样本，得到多个第二样本子集；

第三样本子集获取单元，用于将所述第二样本子集和所述少数类样本集合并，得到第三样本子集。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开一种用于非平衡数据集分类的同分布集成预测方法包括：获取数据集；采用同分布随机抽样法将所述数据集构建为多个数据样本子集；对每个所述数据样本子集采用CART决策树方法进行模型训练，得到多个CART决策树分类模型；对测试集采用所述CART决策树分类模型得到初步分类结果；最后采用投票法对所述初步分类结果进行投票，得到最终分类预测结果。显然，本发明将非平衡数据集中的多数类数据样本通过特定抽样法形成数据分布相似的若干个样本集合，然后将这些样本集合与非平衡数据集中的少数类样本分别组成新的样本子集，最终将这些样本集合分别使用CART决策树方法进行分类，提高了预测分类的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例用于非平衡数据集分类的同分布集成预测方法流程图；

图2为本发明实施例同分布随机抽样法示意图；

图3为用于非平衡数据集分类的同分布集成学习方法示意图；

图4为本发明实施例用于非平衡数据集分类的同分布集成预测系统结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例用于非平衡数据集分类的同分布集成预测方法流程图。如图1所示，一种用于非平衡数据集分类的同分布集成预测方法，所述预测方法包括：

步骤101：获取数据集，所述数据集包括多数类样本集和少数类样本集。

步骤102：采用同分布随机抽样法将所述数据集构建为多个数据样本子集；

步骤103：对每个所述数据样本子集采用CART决策树方法进行模型训练，得到多个CART决策树分类模型；

步骤104：对测试集采用所述CART决策树分类模型得到初步分类结果；步骤105：采用投票法对所述初步分类结果进行投票，得到最终分类预测结果。

步骤102，具体包括：

采用K-means方法将所述多数类样本集聚为多个第一样本子集；

抽取样本的数量大于或者等于所述数据集中样本总数量的一半，通过这样设置将会使抽样后的多数类数据集合中必然有与其他抽样后多数类数据集合相同的样本，不仅会使抽样后的多数类数据集合彼此之间保持着高度相同的数据分布，而且由于是随机抽样也使很大一部本样本有较大的差异，这样也保持了多数类数据集合彼此间有一定的差异性，最终使各个多数类样本集合形成“总体相似，局部差异”的结果。

本方法给出了一种基于同分布随机抽样的改进集成森林方法。该方法的创新性包括：1)提出一种同分布抽样法，通过这种抽样法得到的样本子集既可以保持原有数据集的数据分布规律也可以降低样本子集的非平衡率；2)将同分布随机抽样法和集成算法共同构成一种用于非平衡数据集分类的同分布集成学习方法。

本发明方法给出的用于非平衡数据集分类的同分布集成学习方法是将若干个子分类器通过并行的方式组合在一起，从而形成一个强大的分类器。通过对非平衡数据集的数据分布特性进行研究，然后根据本发明提出的同分布随机抽样法将非平衡数据集分成若干个子集，这些样本子集的数据分布特性上可以在总体上相近，但彼此间各不相同，并且各个样本子集的非平衡率均有所降低。因为各个子集的少数类样本均为非平衡数据集中的所有少数类样本，所以少数类样本进行了充分训练，最终使基于同分布随机抽样的改进集成森林方法的分类结果偏向少数类样本所在的类别。

本发明采用一种新的抽样方法——同分布随机抽样法。这种方法是从数据分布的角度考虑抽样问题的。首先通过聚类方法对多数类样本聚类，将分布相近的多数类样本划分为一个集合，然后根据多数类样本的整体分布情况对其多次进行抽样分成多个集合，进而再与少数类样本进行组合形成新的样本子集。

非平衡数据集中的多数类样本数量远远大于少数类样本的数量且这些数据样本并非均匀分布在数据集中，为此通过聚类算法将多数类样本聚类后可将其根据数据分布情况进行划分。同分布随机抽样法使用K-means方法进行聚类，多数类样本划分的个数根据少数类样本的数量而设定，将被划分后的集合看作一个整体，这些集合之间的整体分布情况与整个多数类样本数据的分布情况基本保持一致，因此从这些集合中抽取的样本也将与多数类样本数据的分布情况保持一致。在从聚类处理后的多数类样本数据集合中进行样本抽样时，抽取的样本数目应该超过集合中样本总数量的一半，通过这样设置将会使抽样后的多数类数据集合中必然有与其他抽样后多数类数据集合相同的样本，不仅会使抽样后的多数类数据集合彼此之间保持着高度相同的数据分布，而且由于是随机抽样也使很大一部本样本有较大的差异，这样也保持了多数类数据集合彼此间有一定的差异性，最终使各个多数类样本集合形成“总体相似，局部差异”的结果。最后将这些多数类样本集合与所有少数类样本构成新的数据样本子集。

具体实施例1:

图2为本发明实施例同分布随机抽样法得到样本子集的示意图。如图2所示，同分布随机抽样方法的实现步骤如下：

输入：数据集S

输出：数据样本子集SS₁,SS₂,...,SS_T

步骤1：将数据集分为多数类样本集S^-，少数类样本集S⁺，记多数类样本的数量为m；少数类样本的数量为n；

步骤2：使用K-means方法将多数类样本集S^-聚为n个样本集合S_i ^-，i＝1,2,...,n，每个样本集合S_i ^-的样本数量为m_i，i＝1,2,...,n；

步骤3：随机在S_i ^-中抽取的1/2m_i数量的样本放入S_j中，其中i＝1,2,...,n，j＝1,2,...,T；

步骤4：将所有的S_j，j＝1,2,...,T与少数类样本S⁺组成新的数据样本子集SS_j，j＝1,2,...,T即SS₁,SS₂,...,SS_T，方法结束。

根据现有集成算法的原理以及本发明给出的同分布随机抽样法，本发明给出一种用于非平衡数据集分类的同分布集成学习方法。该方法是在集成学习方法的原理上对随机森林算法进行改进。首先使用同分布抽样法获得数据样本子集，然后将每个样本子集作为各个决策树输入对其进行训练，得到各个决策树分类模型，形成决策树森林。同分布随机抽样法得到样本子集的流程图如图2所示。

图3为用于非平衡数据集分类的同分布集成学习方法示意图。如图3所示，用于非平衡数据集分类的同分布集成学习方法实现步骤如下：

输入：数据集S

输出：分类预测结果P

步骤1：将数据集分为多数类样本集S^-，少数类样本集S⁺，记多数类样本的数量为m，少数类样本的数量为n；

步骤2：使用同分布随机抽样法将数据集S分成T个数据样本子集SS₁,SS₂,...,SS_T；

步骤3：对数据子集SS_i，i＝1,2,...,T中的多数类样本和少数类样本合并放入集合S_(i)，i＝1,2,...,T中；

步骤4：使用T棵CART决策树对T个集合S_(i)分别进行训练建树，并将CART决策树进行分类时的分类结果记为P_i，i＝1,2,...,T；

步骤5：使用投票法对所有的P_i，i＝1,2,...,T进行投票，得到最终分类预测结果P，本方法结束。

图4为本发明实施例用于非平衡数据集分类的同分布集成预测系统结构图。如图4所示，一种用于非平衡数据集分类的同分布集成预测系统，所述预测系统包括：

获取模块401，用于获取数据集，所述数据集包括多数类样本集和少数类样本集；

构建模块402，用于采用同分布随机抽样法将所述数据集构建为多个数据样本子集；

训练模块403，用于对每个所述数据样本子集采用CART决策树方法进行模型训练，得到多个CART决策树分类模型；

分类模块404，用于对测试集采用所述CART决策树分类模型得到初步分类结果；

投票模块405，用于采用投票法对所述初步分类结果进行投票，得到最终分类预测结果。

所述构建模块402，具体包括：

抽取样本的数量大于或者等于所述数据集中样本总数量的一半。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种用于非平衡数据集分类的同分布集成预测方法，其特征在于，所述预测方法包括：

获取数据集；

对测试集采用所述CART决策树分类模型得到初步分类结果；

2.根据权利要求1所述的用于非平衡数据集分类的同分布集成预测方法，其特征在于，所述数据集包括多数类样本集和少数类样本集。

3.根据权利要求2所述的用于非平衡数据集分类的同分布集成预测方法，其特征在于，所述采用同分布随机抽样法将所述数据集构建为多个数据样本子集，具体包括：

采用K-means方法将所述多数类样本集聚为多个第一样本子集；

4.根据权利要求3所述的用于非平衡数据集分类的同分布集成预测方法，其特征在于，抽取样本的数量大于或者等于所述数据集中样本总数量的一半。

5.一种用于非平衡数据集分类的同分布集成预测系统，其特征在于，所述预测系统包括：

获取模块，用于获取数据集；

分类模块，用于对测试集采用所述CART决策树分类模型，得到初步分类结果；

6.根据权利要求5所述的用于非平衡数据集分类的同分布集成预测系统，其特征在于，所述数据集包括多数类样本集和少数类样本集。

7.根据权利要求6所述的用于非平衡数据集分类的同分布集成预测系统，其特征在于，所述构建模块，具体包括：

8.根据权利要求7所述的用于非平衡数据集分类的同分布集成预测系统，其特征在于，抽取样本的数量大于或者等于所述数据集中样本总数量的一半。