CN108763283A

CN108763283A - 一种不平衡数据集过采样方法

Info

Publication number: CN108763283A
Application number: CN201810330218.1A
Authority: CN
Inventors: 徐小龙; 陈稳
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2018-04-13
Filing date: 2018-04-13
Publication date: 2018-11-06

Abstract

本发明涉及一种不平衡数据集过采样方法，将传统过采样方法，与优化后基于密度的聚类算法相结合，有效解决了不平衡数据的分类问题，其中，利用优化的聚类算法去除了少数类的噪声样本，使得合成的样本更加合理有效，为了充分利用了边界样本和核心样本的信息，对核心样本和边界样本采用了不同策略进行过采样。

Description

一种不平衡数据集过采样方法

技术领域

本发明涉及一种不平衡数据集过采样方法，属于数据预处理技术领域。

背景技术

不平衡数据分类问题是机器学习领域内一个重要的研究课题，引起国内外学者的广泛关注。不平衡数据集是指在多类别的数据集中，某些类别样本的数目远小于其他类别样本的数目，各个类别样本的数目存在着严重的不平衡现象。不平衡数据集广泛存在于人们的现实生活和工业生产之中，比如垃圾邮件过滤、文本分类、医疗诊断等都存在数据不平衡问题，在这些领域，相比多数类样本，我们更加关心少数类样本。

目前对不平衡数据集分类的研究，主要集中在算法层面和数据层面。基于算法层面，大都是针对非平衡数据特点提出新的算法或者改进现有的算法，包括集成方法、代价敏感学习方法。虽然能够提高少数类样本的分类准确率，但仍然有局限性，对于不同特征的数据集，其适用的分类算法不一样，即每种分类算法有其最适合的情况。基于数据层面，大都是基于K邻近思想，计算量大，容易受到噪声数据影响。

发明内容

本发明所要解决的技术问题是提供一种采用全新架构设计，能够有效提高数据分类准确性的不平衡数据集过采样方法。

本发明为了解决上述技术问题采用以下技术方案：本发明设计了一种不平衡数据集过采样方法，基于已知各数据样本所属类别，完成数据的过采样，其特征在于，包括如下步骤：

步骤A.针对目标数据样本集中的各个数据样本，进行维度空间坐标转换，获得各个数据样本分别所对应的维度空间坐标，然后进入步骤B；

步骤B.针对目标数据样本集，删除其中与任意数据样本之间不存在密度相连关系的数据样本，更新目标数据样本集，并构建指定少数类核心数据样本集合，以及指定少数类边界数据样本集合，然后进入步骤C；

步骤C.分别针对指定少数类核心数据样本集合中的各个核心数据样本，执行过采样操作，更新目标数据样本集，然后进入步骤D；

步骤D.分别针对指定少数类边界数据样本集合中的各个边界数据样本，执行过采样操作，更新目标数据样本集。

作为本发明的一种优选技术方案，所述步骤B包括如下步骤：

步骤B1.针对目标数据样本集中，除被定义为核心数据样本、待定边界数据样本、噪声数据样本以外的各个数据样本，任意选取一个数据样本，判断以该数据样本维度空间坐标为球心，预设Eps领域内其它数据样本的数量是否小于预设核心判断数量阈值MinPts，是则定义该数据样本为噪声数据样本，并进入步骤B3；否则定义该数据样本为核心数据样本，并进入步骤B2；

步骤B2.构建本次循环中所获核心数据样本所对应的簇，将该核心数据样本划分至该簇中，并针对目标数据样本集中、除被定义为核心数据样本、待定边界数据样本以外的各个数据样本，选择与该核心数据样本之间存在密度相连关系的各个数据样本，将其定义为待定边界数据样本，然后进入步骤B3；

步骤B3.判断目标数据样本集中，除被定义为核心数据样本、待定边界数据样本、噪声数据样本以外，是否存在其它数据样本，是则返回步骤B1；否则进入步骤B4；

步骤B4.分别针对各个待定边界数据样本，首先获得以待定边界数据样本维度空间坐标为球心，预设Eps领域内的各个核心数据样本，接着获得该各个核心数据样本分别所对应簇的簇中心，然后获得该待定边界数据样本分别至该各簇中心的欧式距离，最后将该待定边界数据样本划分至最短欧式距离所对应的簇中，进而完成各个待定边界数据样本向各个簇的划分，然后进入步骤B5；

步骤B5.删除被定义为噪声数据样本，更新目标数据样本集，并基于已知各数据样本所属类别，选择指定少数类所包括的各个核心数据样本，并构建指定少数类核心数据样本集合，以及选择指定少数类所包括的各个边界数据样本，并构建指定少数类边界数据样本集合。

作为本发明的一种优选技术方案，其特征在于，所述步骤B2中，针对目标数据样本集中、除划分至簇中数据样本以外的各个数据样本，若其中任意数据样本p与核心数据样本q之间满足如下关系：

p∈N_Eps(q)

|N_Eps(q)|≥MinPts

则该数据样本p与核心数据样本q之间存在直接密度可达关系，其中，N_Eps(q)表示以核心数据样本q维度空间坐标为球心，预设领域Eps内数据样本的集合，|N_Eps(q)|表示集合N_Eps(q)中元素的数量，MinPts表示预设核心判断数量阈值。

作为本发明的一种优选技术方案，所述步骤C中，分别针对指定少数类核心数据样本集合中的各个核心数据样本，执行如下步骤C1至步骤C4，实现过采样操作，更新目标数据样本集；

步骤C1.基于目标数据样本集，在以核心数据样本维度空间坐标为球心，预设领域范围内随机选择预设数量N₁个随机数据样本，并进入步骤C2；

步骤C2.分别针对该N₁个随机数据样本，获得随机数据样本各个特征值分别与该核心数据样本相应特征值之间的向量差，进而获得各随机数据样本分别所对应的向量差，并进入步骤C3；

步骤C3.从0至1之间选取随机数，并获得该随机数分别与该各随机数据样本所对应向量差的乘积，进而获得该各随机数据样本分别所对应的乘积值，然后进入步骤C4；

步骤C4.获得各随机数据样本所对应乘积值分别与该核心数据样本之和，进而获得该核心数据样本所对应的N₁个合成样本，加入至目标数据样本集当中。

作为本发明的一种优选技术方案，所述步骤D中，首先将属于指定少数类的各个数据样本归为一簇，并获得该簇的簇中心，作为少数类样本簇中心样本，然后分别针对指定少数类边界数据样本集合中的各个边界数据样本，执行如下步骤D1至步骤D4，实现过采样操作，更新目标数据样本集；

步骤D1.获得边界数据样本各个特征值分别与少数类样本簇中心样本相应特征值之间的向量差，即作为该边界数据样本所对应的向量差，然后进入步骤D2；

步骤D2.从0至1之间选取N₁个随机数，并获得该各个随机数分别与该边界数据样本所对应向量差的乘积，作为该边界数据样本所对应的N₁个乘积值，然后进入步骤D3；

步骤D3.获得该边界数据样本所对应N₁个乘积值分别与少数类样本簇中心样本之和，进而获得该边界数据样本所对应的N₁个合成样本，加入至目标数据样本集当中。

本发明所述一种不平衡数据集过采样方法采用以上技术方案与现有技术相比，具有以下技术效果：本发明设计的不平衡数据集过采样方法，将传统过采样方法，与优化后基于密度的聚类算法相结合，有效解决了不平衡数据的分类问题，其中，利用优化的聚类算法去除了少数类的噪声样本，使得合成的样本更加合理有效，为了充分利用了边界样本和核心样本的信息，对核心样本和边界样本采用了不同策略进行过采样。

附图说明

图1是本发明所设计不平衡数据集过采样方法的流程示意图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。

如图1所示，本发明设计了一种不平衡数据集过采样方法，基于已知各数据样本所属类别，完成数据的过采样，其思想是首先，从原始数据集T中任取一个未处理的样本p；若p是核心样本，即生成一个新的簇，然后对这个核心点进行扩充，即寻找从这个核心点出发的所有密度相连的样本点，将核心样本归到该簇中，将所有的非核心样本标记为待定边界样本。若p不是核心样本，将p标记为噪声。重新扫描数据集，重复以上步骤直到所有的样本都标记为止。然后我们待定的边界样本进行划分，将待定的边界样本划分到距离其最近的簇中心所属的簇。然后删除标记为噪声的少数类数据，使得合成的新样本更加合理有效。最后我们分别对核心样本和边界样本进行过采样，对每个核心样本，我们随机选取其邻域内的样本，然后在它们的连线上合成新的样本，对每个边界样本，我们在边界样本和簇中心的连线上合成新样本。

在实际应用当中，本发明所设计一种不平衡数据集过采样方法，具体包括如下步骤：

步骤A.针对目标数据样本集中的各个数据样本，进行维度空间坐标转换，获得各个数据样本分别所对应的维度空间坐标，然后进入步骤B。

步骤B.针对目标数据样本集，删除其中与任意数据样本之间不存在密度相连关系的数据样本，更新目标数据样本集，并构建指定少数类核心数据样本集合，以及指定少数类边界数据样本集合，然后进入步骤C。

针对上述步骤B的操作，具体可以包括如下步骤进行实现：

步骤B1.针对目标数据样本集中，除被定义为核心数据样本、待定边界数据样本、噪声数据样本以外的各个数据样本，任意选取一个数据样本，判断以该数据样本维度空间坐标为球心，预设Eps领域内其它数据样本的数量是否小于预设核心判断数量阈值MinPts，是则定义该数据样本为噪声数据样本，等价的可以定义为从任何一个核心数据样本出发都是密度不可达的，并进入步骤B3；否则定义该数据样本为核心数据样本，并进入步骤B2。

步骤B2.构建本次循环中所获核心数据样本所对应的簇，将该核心数据样本划分至该簇中，并针对目标数据样本集中、除被定义为核心数据样本、待定边界数据样本以外的各个数据样本，若其中任意数据样本p与核心数据样本q之间满足如下关系：

p∈N_Eps(q)

|N_Eps(q)|≥MinPts

则该数据样本p与核心数据样本q之间存在直接密度可达关系，即选择与该核心数据样本之间存在密度相连关系的各个数据样本，将其定义为待定边界数据样本，然后进入步骤B3。其中，N_Eps(q)表示以核心数据样本q维度空间坐标为球心，预设领域Eps内数据样本的集合，|N_Eps(q)|表示集合N_Eps(q)中元素的数量，MinPts表示预设核心判断数量阈值。

步骤B3.判断目标数据样本集中，除被定义为核心数据样本、待定边界数据样本、噪声数据样本以外，是否存在其它数据样本，是则返回步骤B1；否则进入步骤B4。

步骤B4.分别针对各个待定边界数据样本，首先获得以待定边界数据样本维度空间坐标为球心，预设Eps领域内的各个核心数据样本，接着获得该各个核心数据样本分别所对应簇的簇中心，然后获得该待定边界数据样本分别至该各簇中心的欧式距离，最后将该待定边界数据样本划分至最短欧式距离所对应的簇中，进而完成各个待定边界数据样本向各个簇的划分，然后进入步骤B5。

步骤C.分别针对指定少数类核心数据样本集合中的各个核心数据样本，执行如下步骤C1至步骤C4，实现过采样操作，更新目标数据样本集，然后进入步骤D。

步骤C1.基于目标数据样本集，在以核心数据样本维度空间坐标为球心，预设领域范围内随机选择预设数量N₁个随机数据样本，并进入步骤C2。

步骤C2.分别针对该N₁个随机数据样本，获得随机数据样本各个特征值分别与该核心数据样本相应特征值之间的向量差，进而获得各随机数据样本分别所对应的向量差，并进入步骤C3。

步骤C3.从0至1之间选取随机数，并获得该随机数分别与该各随机数据样本所对应向量差的乘积，进而获得该各随机数据样本分别所对应的乘积值，然后进入步骤C4。

针对上述步骤D的操作，首先将属于指定少数类的各个数据样本归为一簇，并获得该簇的簇中心，作为少数类样本簇中心样本，然后分别针对指定少数类边界数据样本集合中的各个边界数据样本，执行如下步骤D1至步骤D4，实现过采样操作，更新目标数据样本集。

步骤D1.获得边界数据样本各个特征值分别与少数类样本簇中心样本相应特征值之间的向量差，即作为该边界数据样本所对应的向量差，然后进入步骤D2。

步骤D2.从0至1之间选取N₁个随机数，并获得该各个随机数分别与该边界数据样本所对应向量差的乘积，作为该边界数据样本所对应的N₁个乘积值，然后进入步骤D3。

将上述所述不平衡数据集过采样方法，应用到实际当中，以Diabetes数据集为例，首先对原始数据集进行聚类，去除噪声，然后分别对核心样本和边界样本进行过采样，具体算法流程如下。

上述步骤A至步骤B，具体执行过程中，设置领域Eps为0.6，MinPts为5，即数据样本p领域内不少于5个数据样本的就是核心数据样本，若p是核心数据样本，即生成一个新的簇，然后对簇进行扩充，即寻找从这个核心数据样本出发的所有密度相连的数据样本，将核心数据样本归到该簇中，将所有的非核心数据样本标记为待定边界数据样本。

进入步骤C，即分别针对指定少数类核心数据样本集合中的各个核心数据样本，执行如下步骤C1至步骤C4，实现过采样操作，更新目标数据样本集，具体执行步骤C1至步骤C4.

上述步骤C在实际应用中，比如核心数据样本为c₁，在其邻域Eps内随机选择一个数据样本c₂，c₁＝[15,136,70,32,110,37.1,0.153,43,1]，c₂＝[9,145,88,34,165,30.3,0.771,53,1]，首先我们计算c₁和c₂的差距d，d＝[-6,9,18,2,55,-6.8,0.618,10]，然后从0到1之间选取随机数，该随机数乘上差距d再加上核心数据样本c₁就得到了合成数据样本[14.38,139.19,76.16,33.23,137.75,34.01,0.48,45.21,1]。

最后执行步骤D，即分别针对指定少数类边界数据样本集合中的各个边界数据样本，执行过采样操作，更新目标数据样本集，应用中，首先将属于指定少数类的各个数据样本归为一簇，并获得该簇的簇中心，作为少数类样本簇中心样本，然后分别针对指定少数类边界数据样本集合中的各个边界数据样本，执行如下步骤D1至步骤D4，实现过采样操作。

上述步骤D在具体的实际应用中，比如少数类数据样本的簇中心C_center,边界数据样本b，C_center＝[4.96,143.5,70.82,22.42,102.7,35.23,0.53,36.95,1]，b＝[0,180,78,63,14,59.4,2.42,25,1]，我们对b进行过采样，计算C_center和b的差距d，d＝[-4.96,36.5,7.18,40.58,-88.7,24.17,1.89,-11.95]，然后从0到1之间选取随机数，将随机数乘上差距d再加上簇中心C_center就得到了合成数据样本[3.82,156.28,76.28,27.7,64.56,49.49,2.08,25.48,1]。

综上，本发明为解决了不平衡数据的分类问题，提出了一种不平衡数据集过采样方法，利用优化的聚类算法将少数类数据分为核心数据样本、边界数据样本、噪声；然后去除少数类的噪声数据，使得合成的数据样本更加有效；最后利用核心数据样本和边界数据样本的信息，针对核心数据样本和边界数据样本采用了不同的策略进行过采样。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种不平衡数据集过采样方法，基于已知各数据样本所属类别，完成数据的过采样，其特征在于，包括如下步骤：

2.根据权利要求1所述一种不平衡数据集过采样方法，其特征在于，所述步骤B包括如下步骤：

3.根据权利要求2所述一种不平衡数据集过采样方法，其特征在于，所述步骤B2中，针对目标数据样本集中、除划分至簇中数据样本以外的各个数据样本，若其中任意数据样本p与核心数据样本q之间满足如下关系：

p∈N_Eps(q)

|N_Eps(q)|≥MinPts

4.根据权利要求1所述一种不平衡数据集过采样方法，其特征在于，所述步骤C中，分别针对指定少数类核心数据样本集合中的各个核心数据样本，执行如下步骤C1至步骤C4，实现过采样操作，更新目标数据样本集；

5.根据权利要求1所述一种不平衡数据集过采样方法，其特征在于，所述步骤D中，首先将属于指定少数类的各个数据样本归为一簇，并获得该簇的簇中心，作为少数类样本簇中心样本，然后分别针对指定少数类边界数据样本集合中的各个边界数据样本，执行如下步骤D1至步骤D4，实现过采样操作，更新目标数据样本集；