CN111127184B

CN111127184B - 一种分布式组合信用评估方法

Info

Publication number: CN111127184B
Application number: CN201911061595.0A
Authority: CN
Inventors: 张鹏; 丁海洋; 顾宁; 卢暾
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2019-11-01
Filing date: 2019-11-01
Publication date: 2023-05-30
Anticipated expiration: 2039-11-01
Also published as: CN111127184A

Abstract

本发明属于信用评估技术领域，具体为一种分布式组合信用评估方法。本发明方法包括：通过分布式二分均值聚类算法，分析属性的对信用评估的重要性，并在计算样本间距离时通过加权的方式考虑属性重要性的不同，有效地将用户划分到信用类似的类簇中；采用基于变量加权聚类的组合技术，对用户特征数据进行建模，具体是将用户按相似性划分到不同聚簇，然后训练多个不同类别间任意两个聚簇的判别分类器，并通过加权的策略组合它们的分类结果，从而构建用户信用评估模型；然后，利用该模型依据用户特征数据自动地对其信用状况作出判别。本发明大大提升了信用评估方法的计算效率和可扩展性，也提高了在大数据信用评估应用中的适用性。

Description

一种分布式组合信用评估方法

技术领域

本发明属于信用评估技术领域，具体涉及一种分布式组合信用评估方法。

背景技术

随着经济水平的增长，人们消费观念的转变，以及互联网金融的发展，越来越多的用户选择使用白条、借呗等信用产品。信用产品和服务的涌现极大地便利了人们的生活，然而其所带来的信用违约、金融欺诈也日益增多。传统的基于信用评估专家逐一审核的方式，存在周期长、成本高等问题，已很难适应当前信用需求的快速发展。基于数据分析、机器挖掘等理论和技术的自动化信用评估方法，为这些风险的应对提供了有效的解决思路。然而，当前信用消费的高速增长对信用评估技术提出了新的要求，一方面信用产品的特殊性要求信用评估方法具有较高的准确度，以降低信用违约的风险；另一方面基于互联网的服务场景要求其具有较高的效率，以缩短用户的等待时间。

针对信用评估所面临的问题与挑战，本发明提出了一种分布式组合信用评估方法，该方法能通过对用户特征数据的自主学习生成信用评估模型，实现对用户信用的自动判别，同时该方法能通过增加用于计算过程的计算节点数目，实现在大数据场景下的高效评估。

发明内容

为了解决信用评估所面临的准确度相对较低和评估效率不足的问题，本发明改进了基于聚类的组合信用评估方法及其实现技术，提出一种分布式的组合信用评估方法。

本发明提出的分布式的组合信用评估方法，主要包含两个部分：一是分布式聚类，用于划分训练模型所需的数据集，二是组合，用于生成评估信用好坏的分类模型。

本发明的核心要点如下：

(一)分布式聚类

采用基于变量加权的分布式二分均值聚类方法，划分训练模型所需的数据集；具体是通过分布式二分均值聚类算法，分析属性的对信用评估的重要性，并在计算样本间距离时通过加权的方式考虑属性重要性的不同，有效地将用户划分到信用类似的类簇中。

聚类是一种样本划分、聚簇发现方法，多用于无监督的分类任务中。均值聚类技术采用欧几里得距离度量样本间相似性，并用簇内样本均值作为类簇的中心，对于给定的样本集合D，均值聚类通过寻找一组D的划分C＝{C₁,C₂,…,C_k}，使得簇内样本到簇中心的距离尽可能地近，同时距其它簇中心尽可能地远，即使得所得划分的簇内平方和误差之和最小化，其可以形式化地表示为：

其中，x∈D表示数据集中样本，d(·,·)为欧几里得距离。

在传统的均值聚类中，假定所有的属性对样本间距离的度量都同等重要，然而在信用评分领域，这种假设很难成立。因而，在本发明中，依据属性重要性的不同对其赋予了不同的权重系数，从而将样本间距离定义为：

其中，w_i为属性的重要性加权系数，其定义如下：

其中N_c为标称属性i的取值总个数，N_n表示数值属性j的取值总个数，IV(·)表示属性的信息值，其值越大表示该属性所含有的信息量越大，即越重要，其计算方式为：

其中，n_c为属性i取值为c的总个数，n_c,+、n_c,-分别表示正、负样本中属性i取值为c的个数，WOE_c为标称属性值c证据权重，定义如下：

F(·)表示属性的F-score值，度量了特征取值在正负样本上的差异程度，F-score值越大表明特征取值在正负样本上的差异度越大，即特征越重要，其计算方式为：

其中，

为数值属性i的均值，

分别表示为数值属性i在正负样本中的均值，n₊、n_-分别表示正、负样本的个数。

本发明利用上述加权距离度量方法，分布式地实现了二分均值聚类过程，从而实现了样本数据集的高效划分。具体过程如附图1、附图2所示，并行化的二分均值聚类主要包含以下步骤：

步骤1：将样本数据均匀地分布于P个计算节点上，初始时所有样本属于同一个簇；

步骤2：使用并行K-均值聚类过程，将簇内误差平方和最大的簇分裂为两个子簇,具体地：

步骤2.1：计算数据分片中样本所属的类簇，并生成簇中心-簇样本集合映射表；

步骤2.2：合并来自不同计算节点的同一簇中心对应的样本集合，计算其均值并更新簇中心；

步骤3：重复步骤2I次，从中选取最优的分裂结果；

步骤4：重复步骤2和步骤3，直至满足停止条件。

(二)组合，生成评估信用分类模型。

采用基于变量加权聚类的组合技术，对用户特征数据进行建模；具体是将用户按相似性划分到不同聚簇，然后训练多个不同类别间任意两个聚簇的判别分类器，并通过加权的策略组合它们的分类结果，从而构建用户信用评估模型；然后，利用该模型依据用户特征数据自动地对其信用状况作出判别。

基于变量加权聚类的组合技术的具体步骤如下(见附图3所示)：

步骤一：基本模型训练

基本分类器的性能以及它们之间的相关性是影响组合模型的性能的两个关键因素，在基于聚类的组合模型中，通过对样本聚类，然后在生成的簇上训练最优基本模型的方法，可以提高基础模型间的差离性，进而提高组合模型的性能。

基本模型的训练过程如下：

步骤1.1：原始数据集D_T按照类别标签不同，划分为正样本数据集

负样本数据集

步骤1.2：使用K-means算法分别在正、负样本数据集上聚类，得到正样本簇集合：

负样本簇集合：

步骤1.3：来自正、负样本的簇两两组合，从而形成N_T＝K⁺×K^-个训练子集，对每一个训练子集：

步骤1.3.1：采用Subagging抽样方法，每次都强制选择全部的少数类样本，然后以不放回抽样随机抽取等量的多数类别样本；

步骤1.3.2：对每一个抽样结果使用单分类器生成算法，训练生成一个最优分类器；

步骤1.3.3：重复步骤1.3.1、步骤1.3.2T次，得到一组分类器:Mⁱ _Subbaging＝{m₁,m₂,…,m_T}，其中，T由多数类别中的样本被抽中的概率为p决定，T＝(ln(1-p))/(ln(1-n_minority/n_majority))，其中，n_minority为少数类别样本个数，n_majority为多数类别样本个数；

步骤1.4：得到基本分类器集合：

步骤二：组合预测

在使用组合模型对信用未知用户进行评估时，主要包含两个阶段，首先对于基本分类器组中的分类器依次计算其对用户发生违约概率的预测值，其次组合这些预测值形成最终的预测结果，具体过程如下：

步骤2.1：对于在第i个训练子集上生成的第j个基本分类器计算其对用户x发生信用违约的概率的预测值Predict_i,j(x)；

步骤2.2：对于在第i个训练子集上生成基本分类器组，计算其组内模型输出值的均值Predict_i(x)；

步骤2.3：通过线性系数W^T组合不同训练子集上得到的预测均值：

其中，W^T通过梯度下降法求得；

步骤2.4：通过logistic函数将组合值映射到(0,1)范围内：

当P(x^P)高于0.5时，输出评估结果为“违约”，否则输出“不违约”。

本发明的有益效果是：

本发明结合信用评估数据的特点，通过加权距离度量方法，改进了传统的聚类过程，使得聚类结果与实际信用情况更加一致，基于此聚类过程和线性加权组合策略提升了信用评估的准确度；将计算过程分布于多个计算节点，大大提升了信用评估方法的计算效率和可扩展性，提高了其在大数据信用评估应用中的适用性。

附图说明

图1为并行化K-均值聚类过程。

图2为并行化二分均值聚类过程。

图3为组合模型训练和预测过程。

图4为计算集群拓扑图。

图5为训练过程加速比。

图6为训练过程可扩展性。

图7为预测过程加速比。

图8为预测过程可扩展性。

具体实施方式

以Spark分布式计算平台为例，其计算集群拓扑如附图4所示，该部分给出了并行化K-均值聚类伪代码、并行化二分均值聚类伪代码以及模型训练和预测过程的伪代码，见附录1、附录2、附录3、附录4。PAKDD2010是金融机构为PAKDD 2010数据挖掘挑战赛提供的在私有标签信用卡申请数据上做信用评估的数据集，其汇总情况见表1所示。将PAKDD 2010数据集随机等分为5份，以逻辑回归模型作为基础分类器，5轮交叉验证实验的平均准确度(ACC)和受试者工作特性曲线下面积指标(AUC)，见表2所示，本发明达到了良好的分类性能。从PAKDD2010数据集中随机有放回地抽取5万、10万、15万和20万条记录分别用D-5，D-10，D-15以及D-20表示，用作不同规模的训练数据集，通过记录模型训练过程开始和完成之间的时间间隔，其加速比、可扩展性统计结果如图5，图6所示。通过图5、图6可以看出，随着节点数目的增加，加速比呈现上升趋势，可扩展性系数随着计算节点数目的增多，呈现先下降后趋于稳定的趋势，这表明增加用于训练过程的计算节点数目，可以有效减少训练过程的耗时，且数据规模越大，计算过程的可扩展性越好。通过D-5数据集训练生成组合模型，然后通过统计其对不同规模数据集预测过程的耗时，其加速比及可扩展性实验结果如图7，图8所示。通过图7、图8可以看出，对于规模较大的数据集，预测过程的加速比呈现线性上升趋势，计算过程具有线性的可扩展性，这表明本发明在大规模数据下具有良好的适用性。

以上所述仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的原则和精神之内所作的任何修改、等同替换和改进等，均就包含在本发明的保护范围之内。

表1.PAKDD 2010数据集统计汇总情况

表2.算法性能指标

附录1.并行化K-均值聚类

附录2.并行化二分均值聚类

附录3.基本模型训练

附录4.预测过程