CN110275910A

CN110275910A - 一种不平衡数据集的过采样方法

Info

Publication number: CN110275910A
Application number: CN201910535115.3A
Authority: CN
Inventors: 侯雁博; 朱志良
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2019-09-24

Abstract

本发明涉及数据挖掘技术领域，提供一种不平衡数据集的过采样方法。本发明的方法为：首先，采集不平衡数据集，并基于K‑means方法对其聚类，根据每个类的数据集中元素个数划分少数类和多数类；然后，基于SMOTE方法，对少数类数据集进行过采样，得到合成的少数类数据集；接着，对合成的少数类数据集进行有放回的过采样，得到新的少数类数据集，形成新的数据集；最后，基于CCA方法，对新的数据集进行清洗：对新的数据集进行聚类，并计算每个类簇中每个样本与该类簇中其他样本之间的欧氏距离并排序，删除最远的欧氏距离对应的样本，得到清洗后的数据集。本发明能够有效合成更多的少数类样本，增加样本的易学习性，提高样本的有效性。

Description

一种不平衡数据集的过采样方法

技术领域

本发明涉及数据挖掘技术领域，特别是涉及一种不平衡数据集的过采样方法。

背景技术

过采样是处理阶级不平衡问题的一种很有效的方法，其通过复制或合成样本的方式来解决这个问题，以平衡多数类和少数类样本之间的分布。现有不平衡数据集的过采样方法多采用ADASYN过采样算法、B-SMOTE过采样算法，这些方法处理后的样本存在许多噪声，使得过采样后得到的数据有效性太差，从而影响分析结果。

发明内容

针对现有技术存在的问题，本发明提供一种不平衡数据集的过采样方法，能够有效合成更多的少数类样本，增加样本的易学习性，提高样本的有效性。

本发明的技术方案为：

一种不平衡数据集的过采样方法，其特征在于，包括下述步骤：

步骤1：采集不平衡数据集U₀，基于K-means方法，对不平衡数据集U₀进行聚类，得到K个类的数据集{U₀₁,U₀₂,...,U_0q,...,U_0K}，q∈{1,2,...,K}；记数据集U_0q中元素个数为s(U_0q)，若s(U_0q)＜ε则将数据集U_0q归入少数类数据集U_m，若s(U_0q)≥ε则将数据集U_0q归入多数类数据集U_l；

步骤2：基于SMOTE方法，对少数类数据集U_m进行过采样，得到合成的少数类数据集U_new,m；

步骤3：对合成的少数类数据集U_new,m进行有放回的过采样，并在采样过程中合成新的样本，得到新的少数类数据集U'_new,m，形成新的数据集U＝U_l∪U'_new,m；

步骤4：基于CCA方法，对新的数据集U进行清洗以去除噪声：

步骤4.1：基于K-means方法，对数据集U进行聚类，得到K'个类簇；

步骤4.2：对每个类簇，计算该类簇中每个样本与该类簇中其他样本之间的欧氏距离，对得到的该类簇中的所有欧氏距离进行排序，选取最远的欧氏距离对应的样本对进行删除，最终得到清洗后的数据集。

所述步骤2包括下述步骤：

步骤2.1：对少数类数据集U_m＝{x_m1,x_m2,...,x_mi,...,x_mn}中的每个样本x_mi，i∈{1,2,...,n}，以欧氏距离为标准计算该样本x_mi到少数类样本集U_m中所有样本的距离，得到样本x_mi的k近邻；

步骤2.2：根据不平衡数据集U₀中样本不平衡比例设置采样比例以确定采样倍率N，在样本x_mi的k近邻中随机选取M个样本x_mj，在样本x_mi与样本x_mj之间欧氏距离的连线上随机选取一个节点合成新的样本x_new＝x_mi+|x_mi-x_mj|×δ，最终得到合成的少数类数据集U_new,m；其中，δ＝rand(0,1)。

本发明的有益效果为：

本发明采用K-means方法和SMOTE方法对不平衡数据集进行过采样，并通过CAA方法对合成后的数据进行清洗以去除噪声，能够有效合成更多的少数类样本，增加样本的易学习性，提高样本的有效性。

附图说明

图1为本发明的不平衡数据集的过采样方法的流程图。

具体实施方式

下面将结合附图和具体实施方式，对本发明作进一步描述。

如图1所示，为本发明的不平衡数据集的过采样方法的流程图。本发明的不平衡数据集的过采样方法，其特征在于，包括下述步骤：

步骤1：采集不平衡数据集U₀，基于K-means方法，对不平衡数据集U₀进行聚类，得到K个类的数据集{U₀₁,U₀₂,...,U_0q,...,U_0K}，q∈{1,2,...,K}；记数据集U_0q中元素个数为s(U_0q)，若s(U_0q)＜ε则将数据集U_0q归入少数类数据集U_m，若s(U_0q)≥ε则将数据集U_0q归入多数类数据集U_l。

本实施例中，不平衡数据集U₀为电信用户数据集，电信用户数据包括SERV_LEV(服务等级)、CONSUME_GRADE(消费等级)、CREDIT_DEG(信用度)、REMARK(业务员对用户的消费、业务的总结、推荐)、VIP_CODE(会员客户)、CUST_TYPE(记录客户战略分群)、STATUS_CD(客户是否流失，1表示流失，0表示非流失)等共30维数据特征。在步骤1中，采集电信用户数据集，电信用户数据集中电信用户样本总数为569。对电信用户数据集进行K-means聚类，得到K＝16个类的数据集。令阈值ε＝0.5×电信用户样本总数，对数据集进行多数类和少数类的划分，得到包括212个少数类电信用户样本的少数类数据集U_m和包括357个多数类电信用户样本的多数类数据集U_l。

步骤2：基于SMOTE方法，对少数类数据集U_m进行过采样，得到合成的少数类数据集U_new,m。

所述步骤2包括下述步骤：

其中，SMOTE方法即为合成少数类过采样技术(Synthetic MinorityOversampling Technique)。本实施例中，根据电信用户数据集中样本不平衡比例0.59设置采样比例以确定采样倍率N＝0.41，在少数类数据集中每个样本x_mi的k近邻中随机选取M＝16个样本x_mj，合成新的样本，最终得到合成的少数类数据集U_new,m。

然后，将步骤2中新合成的数据集加入到步骤3中，使数据集达到平衡。

步骤3：对合成的少数类数据集U_new,m进行有放回的过采样，并在采样过程中合成新的样本，得到新的少数类数据集U'_new,m，形成新的数据集U＝U_l∪U'_new,m。

本实施例中，步骤3中的过采样方法为ADASYN。

步骤4：基于CCA方法，对新的数据集U进行清洗以去除噪声：

其中，CCA即为典型相关分析(canonical correlation analysis)。采用欧氏距离的方式对每一类簇内的样本进行有效性判断，对于欧氏距离越远的样本，其稀疏性越高、聚集度越低，从而有效性越低，将有效性较低的样本视为难学习样本，成对删除有效性较低的那一类样本，最后剩下的聚集度较高的样本即为需要训练的数据集，也称该类样本为易学习样本。此外，也可以采用本领域技术人员所熟知的其他方式如内积的方式对每一类簇内的样本进行有效性判断，也可以单独删除有效性较低的那一类样本，以得到易学习样本。

本实施例中，基于K-means方法对数据集U进行聚类，得到K'＝23个类簇。最终被清洗掉的样本总数为86，包括多数类样本75个、少数类样本11个。

本实施例中，分别用传统少数类样本合成方法ADASYN与本发明的结合改良后的SMOTE方法与CCA方法的不平衡数据集的过采样方法对电信用户数据集进行过采样，根据分别计算两种方法的精确度，得到传统少数类样本合成方法ADASYN的精确度为0.9379，而本发明的方法相对于传统方法在精确度上提高到了0.9694。其中，TP为预测为正、实际为正的那类数据集，也即本发明中目标类样本的数量；FP为预测为正、实际为负的那类数据集，TP+FP为步骤4中得到的清洗后的数据集中样本总数。

显然，上述实施例仅仅是本发明的一部分实施例，而不是全部的实施例。上述实施例仅用于解释本发明，并不构成对本发明保护范围的限定。基于上述实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，也即凡在本申请的精神和原理之内所作的所有修改、等同替换和改进等，均落在本发明要求的保护范围内。

Claims

1.一种不平衡数据集的过采样方法，其特征在于，包括下述步骤：

步骤4：基于CCA方法，对新的数据集U进行清洗以去除噪声：

2.根据权利要求1所述的不平衡数据集的过采样方法，其特征在于，所述步骤2包括下述步骤：