CN116051288B

CN116051288B - 一种基于重采样的金融信用评分数据增强方法

Info

Publication number: CN116051288B
Application number: CN202310324357.4A
Authority: CN
Inventors: 高英; 梁凌睿; 肖皓朗; 曾行
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2023-03-30
Filing date: 2023-03-30
Publication date: 2023-07-18
Anticipated expiration: 2043-03-30
Also published as: CN116051288A

Abstract

本发明公开了一种基于重采样的金融信用评分数据增强方法。所述方法包括以下步骤：获取金融交易数据集，扩充少数类样本离群点；基于多数类权重的少数类样本过采样，得到两个平衡的样本数据集和；将两个平衡的样本数据集和自适应加权组合，得到最终的平衡样本数据集，完成金融交易数据集的数据增强。在适用性方面，本发明结合过采样与欠采样的优点，能够比单一方法更能适应数据规模以及不平衡率差距较大的复杂数据。在性能方面，本发明能够比目前和传统用于金融信用评分的方法有更好的表现。

Description

一种基于重采样的金融信用评分数据增强方法

技术领域

本发明涉及数据增强领域，具体涉及一种基于重采样的金融信用评分数据增强方法。

背景技术

近年来，重采样方法对于金融交易风险评估中显示出重要的作用，尤其是对于极度不平衡的数据集。目前大多数重采样算法分为欠采样与过采样。欠采样主要是根据一定规则删除某些多数类数据，但对于数据规模较小的数据以及不平衡率较高的数据往往表现不佳；过采样主要是根据一定规则生成某些少数类数据，对于数据规模较大的数据以及不平衡率较低的数据表现则往往不佳。

在金融风险防控领域中，相关研究已经提出了许多应用于不平衡数据集的重采样算法，这些算法按照改变数据集的方式可以分类三类：

1. 欠采样

欠采样算法主要是适当地减少多数类样本使得数据最终分布趋于平衡。欠采样算法可以削减多数类样本在被分类模型分类时的权重。欠采样在平衡样本的过程中常常不容易过拟合，因为它不会重复强调某种信息，但是它可能会从原始数据中删除必要的信息。并且由于该方法只能改变多数类样本，在金融风险防控领域中，所使用的数据集往往存在不平衡较高的情况，欠采样可能会大幅度减少多数类样本的数量，导致模型无法学习原本多数类样本的信息，使得分类效果降低。

2. 过采样

过采样算法主要是按照一定的规律生成个少数类样本。近年来许多学者结合聚类算法以及过采样算法来克服类间与类内不平衡问题，这方面算法主要有ROS（(RandomOver-Sampling，随机过采样））与SMOTE等。过采样算法不会删除原始数据的信息，但是为了平衡少数类样本的权重，过采样可能会重复生成少数类样本信息，容易导致模型过拟合。过采样算法可以缓解类间不平衡到一定程度，其对于数据量较小的样本可以取得不错的效果，但是不能缓解类内不平衡度，当数据量较大的时候往往效果不佳。

3. 复合采样

随着机器学习在各个领域大放异彩，金融风险防控领域开始探索更加复杂高效的符合重采样算法。一些结合欠采样与过采样的复合重采样算法也逐渐被提出，如MWMOTE（多数类加权少数类过采样技术），K-means SMOTE等。Haibo He等人提出了ADASYN方法，其不仅可以减少原始不平衡数据分布带来的学习偏差，还可以自适应地将决策边界转移到难以学习的样本上。相关研究表明，符合重采样算法能弥补单一欠采样或者过采样的部分不足之处，能一定程度捕获数据信息。然而，目前存在的重采样算法仅适用于某种特定类型的数据集，且在某个评估指标下表现优异，在使用其他类型数据集或者其他评估指标时效果往往不佳，欠缺适用性。因此重采样方法仍然存在较大的提升空间。

发明内容

在实际金融信贷数据集中，边界处或者多数类样本中往往存在一些少数类样本，这些样本在模型决策阶段往往会被当作噪声删除。然而实际上这些样本往往也蕴藏着一些重要信息。因此，本方法针对金融信贷数据集离群点问题，设计了一个能应用在金融风险防控领域中，对金融交易数据（如信用贷款、在线支付）进行重采样的方法，可以将金融数据中占比较少但是更为重要的少数类违约样本的信息进行深度挖掘，对其进一步扩充，对于占比较高的信用良好的数据进行适度剔除。

本发明的目的至少通过如下技术方案之一实现。

一种基于重采样的金融信用评分数据增强方法，包括以下步骤：

S1、获取金融交易数据集，扩充少数类样本离群点；

S2、基于多数类权重的少数类样本过采样，得到两个平衡的样本数据集和；是经过ROS以及MWMOTE生成的数据集，是经过RUS以及MWMOTE生成的数据集；

S3、将两个平衡的样本数据集和自适应加权组合，得到最终的平衡样本数据集，完成金融交易数据集的数据增强。

进一步地，步骤S1中，对于数据集，将其划分为多数类集合以及少数类集合，其元素分别为和。

进一步地，步骤S1中，根据数据集的大小以及不平衡度，对其进行少数类样本离群点扩充，具体包括以下步骤：

S1.1、通过RUS（Random Under-Sampling，随机欠采样）削弱多数类样本的数量以降低模型对其关注：

其中，是需要删去的多数类样本的数量；是指数据集S经过RUS采样后的数据集，需要删去的多数类样本的数量=多数类样本数-（少数类样本数*1.5），计算结果若小于0则取0；

S1.2、通过ROS对少数类样本进行随机生成，增强模型对于少数类样本的关注度：

其中，是需要复制的少数类样本的数量，=多数类样本数-（少数类样本数*1.5），计算结果若小于0则取0；是指数据集S经过ROS采样后的数据集。

进一步地，步骤S2中，对于数据集S经过RUS和ROS采样后的数据集和内属于少数类样本的每个点，计算点的少数邻居集：

其中，表示的是点的k ₁个邻居，即为与点欧氏距离最近的k ₁个点；表示的是属于少数类集合，k ₁默认取值为5。

进一步地，对于少数邻居集内的点，计算其多数类边界集：

其中，表示的是点的最近邻多数类集合，表示的是点的k ₂个邻居，k ₂是选取的邻居数，默认取值为5。

进一步地，得到少数类信息集，计算公式如下：

其中，表示的是点的最近邻少数类集合，表示的是点的k ₃个邻居；

于是，得到包含少数类与多数类信息更深层次的少数类信息集。

进一步地，为了挖掘少数类信息集的深度信息，引入信息权重，由如下公式确定：

点和点是数据集中的任意两个点。亲密因子计算方法如下，当点不属于点的最近邻多数类集合时，，否则由下述公式计算：

归一化的欧氏距离，

其中，表示点和点的欧氏距离。

和是自定义常数，是截断函数，在上述公式中，截断函数作用于归一化的欧氏距离的倒数，目的是忽略过大的值，并将他们相应的分配给亲密因子；

定义截断函数如下：

是任意实数。

进一步地，稀疏聚类中的少数类样本比稠密聚类中的少数类样本更重要；稠密因子，用于调节稀疏的聚类的少数类样本数量，稀疏的聚类比密集的聚类有更多的合成样本，两个聚类距离决策边界是相等的，计算公式如下：

其中，表示的是少数类信息集里面的样本点，距离近的样本包含更多的信息，距离越近的样本比距离越远的样本赋予了更高的权重；当稀疏聚类的成员与决策边界等距时，稠密因子赋予它们比密集聚类成员更高的权值。

进一步地，通过MWMOTE将初步重采样后的不平衡样本分别进行进一步重采样，得到两个平衡的样本数据集和，具体如下：

根据信息权重，对于少数类中的每个元素，计算选择权重，计算点的选择概率权重,，表示的是少数类信息集里区分于的元素；

初始化储存最终数据集的集合，使用K-means聚类将聚类成M’个簇，M’为人为设定参数；

从至循环，为生成的少数类样本数量，为多数类样本数-少数类样本数：

A1、根据所有少数类样本的概率权重，得到概率分布，根据概率分布，从选择一个样本，找到，使得；

A2、随机从第k个簇选择一个样本；

A3、根据，将新样本加入到中：，直至循环结束，返回，其中，为随机数；

当对由数据集经过RUS采样后的数据集执行MWMOTE操作，则得到数据集，；当对由数据集经过ROS采样后的数据集执行MWMOTE操作，则得到数据集，。

进一步地，步骤S3中，自适应地将两个平衡的样本数据集和加权组合；

根据数据量的大小自适应地同时对多数类样本进行欠采样以及对少数类样本进行过采样，有效应对不同规模以及不同不平衡度的数据集；

根据原始数据集大小第自适应地将两个平衡的样本加权组合：

得到最终的平衡样本数据集，其中，是数据的不平衡度，是数据的规模，是调节系数，是经过ROS以及MWMOTE生成的数据集，是经过RUS以及MWMOTE生成的数据集。

相比与现有技术，本发明的优点在于：

在适用性方面，本发明结合过采样与欠采样的优点，能够比单一方法更能适应数据规模以及不平衡率差距较大的复杂数据。在性能方面，本发明能够比目前和传统用于金融信用评分的方法有更好的表现。

附图说明

图1为本发明实施例中一种基于重采样的金融信用评分数据增强方法的步骤流程图。

图2为本发明实施例中扩充少数类样本离群点步骤流程图。

图3为本发明实施例中获得两个平衡的样本数据集和的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合附图并举实施例，对本发明的具体实施进行详细说明。

实施例：

一种基于重采样的金融信用评分数据增强方法，如图1所示，包括以下步骤：

S1、获取金融交易数据集，如图2所示，扩充少数类样本离群点；

对于数据集，将其划分为多数类集合以及少数类集合，其元素分别为和。

根据数据集的大小以及不平衡度，对其进行少数类样本离群点扩充，具体包括以下步骤：

S1.1、通过RUS削弱多数类样本的数量以降低模型对其关注：

其中，是需要删去的多数类样本的数量；是指数据集经过RUS采样后的数据集，需要删去的多数类样本的数量=多数类样本数-（少数类样本数*1.5），计算结果若小于0则取0；

其中，是需要复制的少数类样本的数量，需要复制的少数类样本的数量=多数类样本数-（少数类样本数*1.5），计算结果若小于0则取0；是指数据集经过ROS采样后的数据集。

S2、如图3所示，基于多数类权重的少数类样本过采样，得到两个平衡的样本数据集和；

对于数据集经过RUS和ROS采样后的数据集和内属于少数类样本的每个点，计算点的少数邻居集：

其中，表示的是点的个邻居，即为距离点最近的个点，距离指的是欧氏距离，表示的是属于少数类集合，是选取的邻居数，默认取值为5。

进一步地，对于少数邻居集内的点，计算其多数类边界集：

其中，表示的是点的最近邻多数类集合，表示的是点的个邻居，是选取的邻居数，默认取值为5。

进一步地，为了得到少数类信息集，计算公式如下：

其中，表示的是点的最近邻少数类集合，示的是点的个邻居；

点是数据集中的任意两个点。亲密因子计算方法如下，当点不属于点的最近邻多数类集合时，，否则由下述公式计算：

归一化的欧氏距离，

其中，表示点和点的欧氏距离，表示特征空间的维度。

和是自定义常数，是截断函数，在上述公式中，截断函数作用于归一化的欧氏距离的倒数，目的是忽略过大的值，并将他们相应的分配到亲密因子；

定义截断函数如下：

是任意实数。

进一步地，稀疏聚类中的少数类样本比稠密聚类中的少数类样本更重要；稠密因子，的作用就是调节稀疏的聚类的少数类样本数量，这意味着稀疏的聚类应该比密集的聚类有更多的合成样本，因为这两个聚类距离决策边界是相等的，因此，可以得到计算公式：

其中，表示的是少数类信息集里面的元素。

距离越近的样本比距离越远的样本赋予了更高的权重，因为认为距离近的样本包含更多的信息；当稀疏聚类的成员与决策边界等距时，稠密因子赋予它们比密集聚类成员更高的权值。

A1、根据所有少数类样本的概率权重，得到概率分布，根据概率分布，从选择一个样本，可以找到，使得；

A2、随机从第k个簇选择一个样本；

S3、将两个平衡的样本数据集和自适应加权组合，得到最终的平衡样本数据集，完成金融交易数据集的数据增强；

自适应地将两个平衡的样本数据集和加权组合，能根据数据量的大小自适应地同时对多数类样本进行欠采样以及对少数类样本进行过采样，可以有效应对不同规模以及不同不平衡度的数据集；

得到最终的平衡样本，其中，是数据的不平衡度，是数据的规模，是调节系数，是经过第一阶段ROS以及MWMOTE生成的数据集，是经过第一阶段RUS以及MWMOTE生成的数据集。

对客户信用评分数据集进行标准模型比较试验。

实施例1：采用的数据信息如下所示。

数据来源：德国数据集（来自于UCI数据库），该数据库收集了大量开放数据集，包括机器学习、数据挖掘等领域的数据集。

数据类型：德国数据集是一个二分类问题的数据集，包括20个属性变量（包括7个定量特征，13个定性特征），涉及年龄、性别、职业、贷款金额、信用卡数量、账户余额、历史信用记录等方面的信息。

数据精度：德国数据集的精度和准确性较高，原始数据集中不存在明显的异常值和缺失值。

数据量：德国数据集包含1000条记录，20个属性变量。

数据格式：德国数据集以文本文件的形式存储，可以使用常见的数据处理软件进行读取和处理。

数据使用范围：德国数据集常用于探索性数据分析、分类模型的训练和测试，以及模型性能评估等领域。

数据隐私和安全：德国数据集的隐私信息已经脱敏，确保了数据的安全性和隐私保护。

数据访问和共享：UCI数据库提供了对德国数据集的免费访问和下载，同时也允许研究者将自己的数据集上传到数据库共享。

实施例2：采用的数据信息如下所示。

数据来源：澳大利亚数据集（来自于UCI数据库），该数据库收集了大量开放数据集，包括机器学习、数据挖掘等领域的数据集。

数据类型：澳大利亚数据集是一个分类问题的数据集，包括14个属性变量（其中6个是定量特征，8个是定性特征），涉及贷款金额、账户余额、借款人的工作类型、工资收入、是否有房贷等方面的信息。

数据精度：澳大利亚数据集的精度和准确性较高，原始数据集中不存在明显的异常值和缺失值。

数据量：澳大利亚数据集包含690条记录，14个属性变量。

数据格式：澳大利亚数据集以文本文件的形式存储，可以使用常见的数据处理软件进行读取和处理。

数据使用范围：澳大利亚数据集常用于探索性数据分析、分类模型的训练和测试，以及模型性能评估等领域。

数据隐私和安全：澳大利亚数据集的隐私信息已经脱敏，确保了数据的安全性和隐私保护。

数据访问和共享：UCI数据库提供了对澳大利亚数据集的免费访问和下载，同时也允许研究者将自己的数据集上传到数据库共享。

实施例3：采用的数据信息如下所示。

数据来源：Give-credit数据集（来自于2011年举办的Give me some creditcontest比赛，该比赛由Kaggle平台主办，旨在通过预测个人信用风险的模型来帮助银行降低坏账率）。

数据类型：Give-credit数据集是一个二分类问题的数据集，包括10个属性变量（其中5个是定量特征，5个是定性特征），涉及贷款金额、贷款用途、借款人的收入、家庭人口数、是否违约等方面的信息。

数据精度：Give-credit数据集的精度和准确性较高，经过数据收集、处理、清洗和校验后。数据集中不存在明显的异常值和缺失值。

数据量：Give-credit数据集包含150000条记录，10个属性变量。

数据格式：Give-credit数据集以文本文件的形式存储，可以使用常见的数据处理软件进行读取和处理。

数据使用范围：Give-credit数据集常用于探索性数据分析、二分类模型的训练和测试，以及模型性能评估等领域。

数据隐私和安全：Give-credit数据集的隐私信息已经脱敏，确保了数据的安全性和隐私保护。

数据访问和共享：Kaggle平台提供了对Give-credit数据集的免费访问和下载，同时也允许研究者将自己的数据集上传到平台共享。

本实施例中，从Give-credit数据集中去除含缺失值的客户样本，处理后的数据集由120,269个客户样本组成。

实施例4：采用的数据信息如下所示。

数据来源：car-loan数据集（来源于2021年举办的车辆贷款违约预测挑战赛，该比赛由科大讯飞主办，旨在通过建立预测模型来预测车辆贷款违约情况）。

数据类型：car-loan数据集是一个二分类问题的数据集，包括53个属性变量（其中42个是定量特征，11个是定性特征），涉及贷款金额、贷款用途、借款人的收入、信用记录、资产成本、是否逾期等方面的信息。

数据精度：car-loan数据集的精度和准确性较高，经过数据收集、处理、清洗和校验的过程后。数据集中不存在明显的异常值和缺失值。

数据量：car-loan数据集包含150000条记录，53个属性变量。

数据格式：car-loan数据集以文本文件的形式存储，可以使用常见的数据处理软件进行读取和处理。

数据使用范围：car-loan数据集常用于探索性数据分析、二分类模型的训练和测试，以及模型性能评估等领域。

数据隐私和安全：car-loan数据集的隐私信息已经脱敏，确保了数据的安全性和隐私保护。

数据访问：科大讯飞平台提供了对car-loan数据集的免费访问和下载。

在本实施例中，从car-credit数据集中去除含缺失值的客户样本，处理后的数据集由146009个样本组成。

表1给出了四个数据集的概要。

每个数据集由信用良好的客户与信用不良的客户组成两类的样本，从表1中可以看出，它们都是不平衡数据集。

表1四个数据集的概要表

为了更好地对比不同重采样方法的优劣，本实施例中引入14种用于对比的基准重采样方法，包括经典重采样方法以及近期提出的的重采样方法。然后，处理后的平衡数据集分别进入分类模型中进行训练，为了检验重采样方法的适用性，本实施例中采用12种分类模型，包括经典机器学习模型以及集成学习方法。为了对模型结果进行更全面的分析，本实施例中整合了一些目前相关研究，引入了6种评估指标，旨在从不同角度对模型特点进行挖掘。

为了直观看出各种方法的性能以及差异，表2为各重采样方法基于四个数据集的在每个评估指标下的平均排名。

表2各重采样方法基于四个数据集的在每个评估指标下的平均排名表

由表2可以看出，AS-MWMOTE在6个评价指标上的客户信用评分性能综合表现最佳。AS-MWMOTE对于单一的MWMOTE与ROS而言，较为显著地提高了整体性能，对于RUS而言提高了其稳定性，综合了以上方法的优点，形成了一个更优秀更稳定的方法。

可以看到，AS-MWMOTE在Precision与Accuracy两个指标下排名相对不佳，这是由于重采样特性导致。由于本方法将少数类样本复制直至平衡，使得少数类样本比例大于实际少数类样本比例，导致在Precision与Accuracy两个指标下排名较低。但本发明认为这是值得的，因为实际场景下，对于违约样本的误判损失代价远比好样本的误判大。而AS-MWMOTE对于其他指标评估指标下表现足够优秀。此外，Precision与Accuracy两个指标下表现优秀的重采样方法（如None，为不采样）实际在其他指标表现不佳，远不如AS-MWMOTE，所以本实施例中认为AS-MWMOTE综合表现最优秀。

根据结果来看，AS-MWMOTE之所以在性能以及稳定性上表现优秀，是因为其方法能够结合多种重采样方法的优势，首先通过RUS以及ROS初步降低不平衡率的步骤可以增强重采样方法对于不同数据的适应性以及稳定程度，降低后续MWMOTE捕捉数据信息的难度。其次，通过MWMOTE操作，可以得到结合多数类样本以及少数类样本信息及其边界信息的信息权重，能够深度发掘样本信息。最后，以及的拼合操作使得最终数据集能够结合过采样以及欠采样的优势，进而在性能以及稳定性上表现出优秀的性能。

Claims

1.一种基于重采样的金融信用评分数据增强方法，其特征在于，包括以下步骤：

S1、获取金融交易数据集S，扩充少数类样本离群点；对于金融交易数据集S，将其划分为多数类集合以及少数类集合，其元素分别为和；根据金融交易数据集S的大小以及不平衡度，对其进行少数类样本离群点扩充，具体包括以下步骤：

S1.1、通过RUS削弱多数类样本的数量以降低模型对其关注：

其中，是需要复制的少数类样本的数量，=多数类样本数-（少数类样本数*1.5），计算结果若小于0则取0；是指数据集S经过ROS采样后的数据集；

对于数据集S经过RUS和ROS采样后的数据集和内属于少数类集合的每个点，计算点的少数邻居集：

其中，表示的是点的k ₁个邻居，即为与点欧氏距离最近的k ₁个点；表示的是属于少数类集合的部分；

对于少数邻居集内的点，计算其多数类边界集：

其中，表示的是点的最近邻多数类集合，表示的是点的k ₂个邻居，k ₂是选取的邻居数；

获得少数类信息集，计算公式如下：

引入信息权重，挖掘少数类信息集的深度信息，由如下公式确定：

点和点数据集S中的任意两个样本点，亲密因子计算方法如下，当第i个点不属于第j个点的最近邻多数类集合时，，否则由下述公式计算：

，

其中，归一化欧氏距离，表示点和点的欧氏距离，表示特征空间的维度；为稠密因子，用于调节稀疏的聚类的少数类样本类数量；和是自定义常数，是截断函数，在上述公式中，截断函数作用于归一化欧氏距离的导数，并将结果相应的分配到亲密因子；

定义截断函数如下：

是任意实数；

稀疏聚类中的少数类样本比稠密聚类中的少数类样本更重要；稠密因子，用于调节稀疏的聚类的少数类样本数量，稀疏的聚类比密集的聚类有更多的合成样本，两个聚类距离决策边界是相等的，计算公式如下：

其中，表示的是少数类信息集里面的样本点；

通过MWMOTE将初步重采样后的不平衡样本分别进行进一步重采样，得到两个平衡的样本数据集和，具体如下：

A2、随机从第k个簇选择一个样本；

当对由数据集经过RUS采样后的数据集执行MWMOTE操作，则得到数据集，；当对由数据集经过ROS采样后的数据集执行MWMOTE操作，则得到数据集，；

S3、将两个平衡的样本数据集和自适应加权组合，得到最终的平衡样本数据集，完成金融交易数据集S的数据增强；

自适应地将两个平衡的样本数据集和加权组合；