CN109376179A

CN109376179A - 一种数据挖掘中样本平衡化方法

Info

Publication number: CN109376179A
Application number: CN201810972693.9A
Authority: CN
Inventors: 黄付杰; 戚文平
Original assignee: Suning Consumption Finance Co Ltd
Current assignee: Suning Consumption Finance Co Ltd
Priority date: 2018-08-24
Filing date: 2018-08-24
Publication date: 2019-02-22

Abstract

本发明公开了一种数据挖掘中样本平衡化方法，根据正负样本比例，对多数类中的样本进行等频随机划分。以多数类样本的每一分组，分别与全量的稀疏类样本进行组合，构建分类算法模型。最后使用模型集成的方法将多个模型进行融合。本发明集成了过抽样和欠抽样两种方法的优点，并提高了模型的泛化能力。

Description

一种数据挖掘中样本平衡化方法

技术领域

本发明涉及一种样本平衡化方法，特别是一种数据挖掘中样本平衡化方法。

背景技术

在消费金融行业的风控建模过程中，正负样本比例呈现极端不平衡情况，即：正常客户远远多于逾期客户、正常交易远远多于欺诈交易。在此情形下，对稀有类的正确预测比对多数类的正确预测更有价值，但是当前的分类算法是建立在均衡样本的基础之上，正负样本被等同对待。类分布的不平衡给分类器性能带来严重影响，例如：如果1%的交易是欺诈交易，分类器在预测时将所有交易全部预测为正常交易也可以得到99%的预测准确率，即便它没有检测到任何欺诈交易。为了应对样本的非均衡化问题，有以下几种处理思路：

1、过采样和欠采样：过采样是对稀有类进行重复采样，过采样技术容易放大稀有类中的噪声，导致模型过拟合，因为一些噪声样本可能被多次复制。欠采样是对多数类进行随机抽样，该方法容易丢失大量有用信息，甚至改变决策边界。在实际应用中通常将过采样和欠采样结合使用。

2、样本加权：在分类算法过程中，根据正负样本比例，对稀有类的样本赋予更高的权重，该方法与过抽样技术类似，也容易导致噪声放大从而引起过拟合。

3、惩罚矩阵：惩罚矩阵是对模型预测的结果中错误预测的样本进行惩罚。由于欺诈交易带来的损失远大于正常交易带来的收益，因此应该给两种错误腹部不同的惩罚权重。

4、蒙特卡洛模拟：依照稀有类中的样本的分布特征，模拟出更多的随机样本，从而增加稀有类中的样本量。该技术有一个危险的缺陷：如果生成随机样本的模式并不像设想的那样是随机数，而却构成一些微妙的非随机模式，那么整个的模拟（及其预测结果）都可能是错的。

以上几种方案对于消费金融行业的预测均具有不同的缺陷。

发明内容

本发明所要解决的技术问题是提供一种数据挖掘中样本平衡化方法，提高分类模型的稳定性和泛化能力，减小泛化误差。

为解决上述技术问题，本发明所采用的技术方案是：

一种数据挖掘中样本平衡化方法，其特征在于包含以下步骤：

步骤一：将准备好正样本和负样本分成训练集和测试集；

步骤二：统计训练集的正样本的数量pos_num和负样本的数量neg_num，并计算正样本和负样本的比值pos_neg_r = pos_num/neg_num；

步骤三：对训练集的正负样本比值pos_neg_r四舍五入，取最相近的正整数，得到pos_neg_rN；

步骤四：将训练集的正样本随机分成pos_neg_rN组，每组中的正样本量相同；

步骤五：对训练集的每一组正样本，分别与全体负样本进行组合，使用组合后的数据建模，可得到pos_neg_rN个分类模型；

步骤六：将训练得到的pos_neg_rN个分类模型分别应用于同一个测试集，得到测试集中每个样本的概率预测值p；

步骤七：对每个预测样本的pos_neg_rN个p值求均值，得到每个测试样本真实的预测概率P。

进一步地，所述步骤二中pos_neg_r的值远远大于1。

进一步地，所述步骤五中每个分类模型使用了pos_num/pos_neg_rN个正样本，同时使用了neg_num个负样本。

进一步地，构建的pos_neg_rN个分类模型，使用相同的算法并配置相同的参数。

进一步地，所述步骤七采用求均值方式给每个分类模型赋予相同的权重，所有正样本被随机分到pos_neg_rN个组中，使用平均值对pos_neg_rN个模型进行集成，得到泛化能力最好的最终模型。

进一步地，所述步骤六中共有pos_neg_rN个分类模型，每个样本可得到pos_neg_rN个概率预测值p，在测试集上不需要进行样本的平衡化处理。

本发明与现有技术相比，具有以下优点和效果：

1、充分利用所有样本的信息，避免信息损失。

2、对稀疏类的样本进行了增强，但是避免了噪音放大。

3、模型组合的方式增强了模型的泛化能力。

附图说明

图1是本发明的一种数据挖掘中样本平衡化方法的示意图。

具体实施方式

下面结合附图并通过实施例对本发明作进一步的详细说明，以下实施例是对本发明的解释而本发明并不局限于以下实施例。

如图1所示，本发明实施例以消费金融行业中正常样本和欺诈样本的检测为例，说明样本平衡化的具体操作。

一种数据挖掘中样本平衡化方法，包含以下步骤：

步骤一：根据项目任务准备好欺诈样本与正常样本，并将样本分成训练集和测试集。对训练集的样本进行步骤二-步骤五的操作。

步骤二：统计正常样本（正样本）数量pos_num与欺诈样本（负样本）数量neg_num，计算正常样本与欺诈样本之比：pos_neg_r = pos_num/neg_num。其中pos_neg_r远大于1。

步骤三：对pos_neg_r四舍五入，取最相近的正整数，得到pos_neg_rN。

步骤四：将正常样本随机分成pos_neg_rN组，每组中的正常样本量相同。

步骤五：对每一组正样本，分别与全体负样本进行组合，使用组合后的数据建模，可得到pos_neg_rN个分类模型。每个分类模型使用了pos_num/pos_neg_rN个正样本，同时使用了neg_num个负样本。这样，每个模型使用的正负样本量大体相等。构建的pos_neg_rN个分类模型，应该使用相同的算法并配置相同的参数，这样，其作用才相当于是做样本平衡化。若使用不同的算法和参数，则其意义发生改变，变成了多个模型的组合集成。

步骤六：将训练得到的pos_neg_rN个分类模型分别应用于同一个测试集，得到测试集中每个样本的概率预测值p。由于共有pos_neg_rN个分类模型，因此，每个样本可得到pos_neg_rN个概率预测值p。在测试集上不需要进行样本的平衡化处理。

步骤七：对每个预测样本的pos_neg_rN个p值求均值，得到每个测试样本真实的预测概率P。之所以采取求均值的方式，给每个分类模型赋予相同的权重，是因为所有正样本是被随机分到pos_neg_rN个组中的，使用平均值对pos_neg_rN个模型进行集成，得到的最终模型的泛化能力最好。若通过有监督的的方式给pos_neg_rN个分类模型训练不同的权重，虽然模型的精度会提高，但是模型的泛化能力会减弱，在实际应用中，效果反而会打折扣。故在第步骤七给每个分类模型以相同的权重。

本发明借鉴多模型融合的形式做样本平衡化。但本质上是用一种更复杂的操作替换样本平衡化这一步操作。其原理更类似于LSTM中使用3个门控单元代替RNN中的单个神经元。

与抽样方法相比较，本发明专利有以下特点：

1、每个分类模型中，正负样本比例大体相等，使用的是均衡样本，避免了样本不均衡所引致的偏差。

2、没有对稀疏类的样本进行过抽样，没有放大样本中的噪音。

3、多数类中的每个样本都被使用，没用造成信息的损失。

4、多个分类模型进行集成，进一步提高最终模型的泛化能力。

与模型集成方法相比较，本发明专利有以下特点：

1、bagging，boosting, Randomforest，D-S证据理论等模型组合方法是基于已有样本训练多个模型进行集成，目的是提高模型精度和泛化能力，但是这些组合方法本身并不具备样本平衡化的能力。

2、本发明借鉴了模型组合的方法，作用是融合过抽样和欠抽样两种技术的优点，避免两种技术的不足，同时提升模型的泛化能力。

本说明书中所描述的以上内容仅仅是对本发明所作的举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种修改或补充或采用类似的方式替代，只要不偏离本发明说明书的内容或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种数据挖掘中样本平衡化方法，其特征在于包含以下步骤：

步骤一：将准备好正样本和负样本分成训练集和测试集；

2.按照权利要求1所述的一种数据挖掘中样本平衡化方法，其特征在于：所述步骤二中pos_neg_r的值远远大于1。

3.按照权利要求1所述的一种数据挖掘中样本平衡化方法，其特征在于：所述步骤五中每个分类模型使用了pos_num/pos_neg_rN个正样本，同时使用了neg_num个负样本。

4.按照权利要求3所述的一种数据挖掘中样本平衡化方法，其特征在于：构建的pos_neg_rN个分类模型，使用相同的算法并配置相同的参数。

5.按照权利要求1所述的一种数据挖掘中样本平衡化方法，其特征在于：所述步骤七采用求均值方式给每个分类模型赋予相同的权重，所有正样本被随机分到pos_neg_rN个组中，使用平均值对pos_neg_rN个模型进行集成，得到泛化能力最好的最终模型。

6.按照权利要求1所述的一种数据挖掘中样本平衡化方法，其特征在于：所述步骤六中共有pos_neg_rN个分类模型，每个样本可得到pos_neg_rN个概率预测值p，在测试集上不需要进行样本的平衡化处理。