CN107194803A

CN107194803A - 一种p2p网贷借款人信用风险评估的装置

Info

Publication number: CN107194803A
Application number: CN201710361864.XA
Authority: CN
Inventors: 梁雪春; 潘登; 夏美娟
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2017-05-19
Filing date: 2017-05-19
Publication date: 2017-09-22

Abstract

本发明公开了一种P2P网贷借款人信用风险评估的装置，所述装置包括：数据采集模块，用于采集评估P2P网贷借款人信用风险的原始数据；指标体系构建模块，用于建立P2P网贷借款人信用风险评估指标体系；数据处理模块，用于结合构建的P2P网贷借款人信用风险评估指标体系，将采集到的原始数据进行缺失值处理、离群值处理和数据归一化处理；评估模型构建模块，用于通过机器学习算法构建P2P网贷借款人信用风险评估模型；评估模型应用模块，用于利用构建的P2P网贷借款人信用风险评估模型对P2P网贷借款人信用风险进行量化以及评估。本发明公开的技术方案，能够对P2P网贷违约客户有更精确更高效的评估。

Description

一种P2P网贷借款人信用风险评估的装置

技术领域

本发明涉及数据处理技术领域，具体涉及一种P2P网贷借款人信用风险评估的装置。

背景技术

近年来，随着互联网技术的迅猛发展，P2P网贷迸发出强大的活力，愈来愈受到国内外市场的关注和认可。P2P网络借贷指以有资质的互联网第三方平台作为中介，借款人发放借款标，投资人通过竞标向借款人放贷的行为。在平台审核之后，借款人可发布其融资需求信息，包含数额、借款利率、还款期限、还款方式、借款用途及保证还款的形式等，投资人根据借款人发布信息，做出投资决策，这一模式为很多无法从银行及其他信贷机构获得贷款支持的小微企业主、个人消费者提供了一条新的融资渠道。它的社会价值主要体现在满足个人资金需求、发展个人信用体系和提高社会闲散资金利用率三个方面。P2P网贷最大的优势是填补了传统金融的大空白。传统金融产品，无论是银行理财、基金、股票、还是信托，他们服务的对象都不包括小微企业和普通的小市民，起点也高。而P2P平台的出现，填补了这一空白，P2P主要服务于小微企业的小额融资，主要的投资人也多为普通的市民、上班族，大大激活了国人的投资热情，丰富了人们投资理财的选择。

然而由于市场经济中存在着大量的信息不对称现象，使得信用风险成为了社会中的主要矛盾。P2P网贷本质上是一种信用贷款，而投资人往往不能够全面了解借款人的信用情况，往往会容易产生借款人违约的道德风险问题。一方面，目前P2P网贷借款人信用风险指标体系缺乏相对统一的标准；另一方面，作为风控核心的风险评估模型处于初级阶段，现有的风险评估模型预测准确率不高，并不能真实有效地反映借款者的信用水平。

发明内容

本发明的目的在于提供一种P2P网贷借款人信用风险评估的装置，能够提高风险评估的预测准确度。

本发明为解决上述技术问题采用以下技术方案：

一种P2P网贷借款人信用风险评估的装置，所述装置包括：

数据采集模块，用于采集评估P2P网贷借款人信用风险的原始数据；

指标体系构建模块，用于建立P2P网贷借款人信用风险评估指标体系；

数据处理模块，用于结合构建的P2P网贷借款人信用风险评估指标体系，将采集到的原始数据进行缺失值处理、离群值处理和数据归一化处理；

评估模型构建模块，用于通过机器学习算法构建P2P网贷借款人信用风险评估模型；

评估模型应用模块，用于利用构建的P2P网贷借款人信用风险评估模型对P2P网贷借款人信用风险进行量化以及评估。

进一步地，所述数据处理模块用于对原始数据进行数据泛化、缺失值处理、标准化处理、离群值处理和分层抽样处理。

进一步地，所述数据处理模块包括：

数据泛化单元，用于将数据集从第一概念层抽象到第二概念层，在抽象过程中包括数据字符转换和数据离散化的操作；其中，数据离散化包括把连续型数据切分为若干段，以区分自变量和目标变量。

进一步地，所述数据处理模块包括：

缺失值处理单元，用于删除缺失值，其中，所述缺失值的样本比例低于指定阈值并且所述缺失值在样本中随机出现；通过变量间关系预测缺失数据，并利用蒙特卡罗随机模拟方法生成多个完整数据集，再对各个所述完整数据集分别进行分析，并对分析结果进行汇总处理。

进一步地，所述数据处理模块包括：

标准化处理单元，用于将数据按比例缩放，使其固定在一个特定区域并对数据标准化；其中，所述标准化包括将数据映射至起始值和终止值分别为0和1的区间中或者利用对数运算对所述数据进行处理。

进一步地，所述数据处理模块包括：

离群值处理单元，用于通过箱式图来对数据点进行判断，当数据点与箱体下四分位数或上四分位数之间的距离超出距离阈值时，或者当数据点超过箱体图最大值时，将该数据点确定为离群值。

进一步地，所述数据处理模块包括：

分层抽样单元，用于在建立借款人信用风险评估模型之前，从数据集中分别抽取出训练集与测试集，其中，所述训练集用于构造模型，所述测试集用于评价模型。

进一步地，所述评估模型构建模块包括：

寻优模型构建单元，用于利用混沌布谷鸟算法CCS对Xgboost算法进行参数寻优，以构建CCS-Xgboost模型；

模型训练单元，用于通过历史交易数据对所述CCS-Xgboost模型进行训练，并把训练后的CCS-Xgboost模型作为P2P网贷借款人信用风险的评估模型。

进一步地，所述评估模型应用模块包括：

数据输入单元，用于用于把新数据输入到经过训练的CCS-Xgboost模型中，以输出P2P网贷借款人信用风险预测评估结果。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

一方面，针对目前P2P网贷借款人信用风险指标体系缺乏相对统一的标准的问题，本发明结合P2P网贷所特有的性质，构建了P2P网贷借款人信用风险评估指标体系，为后续借款人信用风险评估模型的研究奠定了基础。另一方面，针对现有的风险评估模型预测准确率不高，并不能真实有效地反映借款者的信用水平的问题，本发明进一步地构建了CCS-Xgboost模型作为P2P网贷借款人信用风险的评估模型，提高了预测准确率与泛化性能。

附图说明

图1是构建P2P网贷借款人信用风险评估指标体系流程图；

图2是P2P网贷借款人数据预处理流程图；

图3是P2P网贷借款人数据平衡化算法流程图；

图4是基于CCS算法的Xgboost优化流程图；

图5是P2P网贷借款人信用风险评估流程图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本发明提供一种P2P网贷借款人信用风险评估的装置，所述装置包括：

在本实施方式中，所述数据处理模块用于对原始数据进行数据泛化、缺失值处理、标准化处理、离群值处理和分层抽样处理。

在本实施方式中，所述数据处理模块包括：

在本实施方式中，所述评估模型构建模块包括：

在本实施方式中，所述评估模型应用模块包括：

具体地，如图1所示，本发明构建P2P网贷借款人信用风险指标体系，主要是为了P2P网贷平台能够在借款人借贷的过程中，为风控人员提供贷前、贷中、贷后提供决策支持信息。本发明主要通过对知名P2P平台所采用的借款人信用指标进行研究和分析，并参照商业银行个人贷款所采用信用评价指标，结合以往的信用评价指标体系的研究成果和方法，综合考量，建立科学合理的P2P网贷借款人信用风险评估指标体系。

P2P网贷平台所采用的借款人信用风险指标很大程度上类似于于商业银行的个人信用风险指标。然而，传统金融机构与互联网金融存在着本质的差别，所以P2P网贷借款人指标体系不仅需要借鉴商业银行的个人指标体系，更要融入社交元素、网络交易记录、第三方征信等这些指标，这样才能全面覆盖借款人信用指标，有效地反应借款人的真实信用水平。本发明所构建的P2P网贷借款人信用风险评估初选指标具体如下：

1.基本信息

借款人的基本信息能够反映借款人自身的特征信息，借款人基本信息是P2P网贷平台最容易了解的信息，能够从侧面反映借款人的实际还款能力。主要包括借款人的年龄、性别、婚姻状况、教育程度、房产情况、工作年限、社交人脉资源等。

2.偿还能力信息

借款人的偿还能力信息能够明确地判断借款人的偿还能力，是借款人信用风险评估体系中比较重要的指标。主要包括借款人平均月收入、月偿还额、月偿还额占月收入比重等。

3.个人征信信息

借款人的个人征信信息主要是借款人在征信报告中反映两年来的信用行为记录，能在一定程度上反映借款人的道德素质和对所借款项的偿还意愿。主要包括借款人当前是否有违约债务、过去2年逾期次数、过去2年最大逾期天数、循环贷款使用额度、过去6个月内征信记录被查询次数、信用卡使用年限等。

4.公开信息

借款人的公开信息着重考察借款人的遵纪守法状况，也能从一定程度上也能够反映借款人的还款意愿。主要包括不良公开记录次数(诉讼记录、互联网交易毁约记录、社交污点等)等，支付宝提供的芝麻评分也可作为一项参照依据。

5.贷款产品特征信息

贷款产品特征信息是借款人向P2P网贷平台所申请的贷款品种，这些指标是影响借款人贷款违约的信用风险的重要指标。主要包括贷款利率、贷款期限、贷款金额等。

如图2所示，P2P网贷交易记录具有噪声和离群点多、特征维度高等特点，只有经过有效合理地数据预处理过程，才能够使得模型分析有更好地决策作用，而且也节约了大量的时间和处理成本。

其中，数据泛化是将数据转换成一种适合数据挖掘的形式，用简洁概要的方式描述数据，是将数据集从较低的概念层抽象到较高的概念层的过程。主要有数据字符转换，数据离散化等。数据字符转换目的是为了后续建模导入数据方便，同时分析更直观。离散化指把连续型数据切分为若干“段”，使得自变量和目标变量之间的关系变得清晰化。主要有等距、等频、优化离散等方法。

如果数据分析建立在有缺失值的情况下结果往往是不可靠的，这就要求在数据预处理过程中要考虑缺失值处理的问题。常用的缺失值处理方法有三种：(1)直接删除缺失值，但前提是缺失样本的比例较少且是随机出现的，这样删除缺失值后对分析结果影响不大；(2)替换缺失值，处理简单且不会减少样本信息，但当缺失值不是随机出现时会产生偏差；(3)多重插补法，通过变量间关系来预测缺失数据，利用蒙特卡罗随机模拟方法生成多个完整数据集，再对这些数据集分别进行分析，最后对这些分析结果进行汇总处理。

通过将数据按比例缩放，使其固定在一个特定区域，对数据标准化，便于数据挖掘过程。通常标准化包括(0，1)标准化以及log标准化，具体计算如下：

第一、采用最小-最大规范化方法对初始数据进行线性变换处理，处理之后的数据都在[0，1]区间内，公式如下：

其中，X_ij为数据第i个指标的第j个样本的原属性值，为数据第i个指标的第j个样本的新属性值，min(X_ij)表示第i个指标所有样本数据属性值的最小值，而max(X_ij)表示第i个指标所有样本数据属性值的最大值。

第二、log函数标准化，采用以10为底的log函数进行转换从而实现数据的归一化，归一化之后的数据同样在[0，1]区间内，公式如下：

其中，X_ij为数据第i个指标的第j个样本的原属性值，为数据第i个指标的第j个样本的新属性值，max(X_ij)表示第i个指标所有样本数据属性值的最大值。

然而，标准化后数据的离群值依旧存在，故需对离群值进一步处理。

离群值检测，也被称为异常值检测，目的是检测出特征明显不同于其它数据的观测值。离群值可以通过统计软件R作观察值的箱式图来判断，如果数据点距离箱体下四分数或上四分位数处过大，甚至当数据点超过箱体图最大值以上，则可视该数据点为离群值。

在建立借款人信用风险评估模型之前，需要分别从数据集中抽取出训练集与测试集，前者用于构造模型，后者用于评价模型。数据抽样要尽量选用科学合理的抽样方法，常见的抽样方法包括随机抽样、分层抽样及整群抽样。

如图3所示，假设某个数据集有两类数据，若两类数据的样本量相似且边界清晰，则称它为平衡数据集。非平衡数据集就是正类(少数类)样本量远远少于负类(多数类)样本量，非平衡数据分类问题在日常生活和生产过程中很常见，如恶意欠费识别、卫星图像检测、交易欺诈侦破、医疗病例诊断、网络入侵监测等。通常情况下，只对少数类样本的分类更感兴趣，如在文本挖掘中，可能只对文本中的某个主题感兴趣，而这个主题在整个文件集中可能只占很小的部分；在金融欺诈交易中，往往只对产生严重后果的欺诈交易感兴趣。因此，对非平衡数据集中少数类样本的正确分类要比对多数类样本分类准确的意义更具有实际应用价值，需要更加关注对非平衡数据集的分类研究。

而P2P网贷借款人数据则属于典型非平衡数据集，在平衡化处理中本发明采用KM-SMOTE算法。SMOTE是一种基于重采样技术的新采样算法，通过增加少数类样本的数目来使数据集达到平衡，并且在一定程度上缓解了传统过抽样容易出现的过拟合问题。SMOTE算法原理：对一非平衡数据集T的每一个少数类样本X，寻找其k个最近邻样本，且这k个最近邻样本均属于少数类样本。设置少数类样本的采用倍率为n，从k个最近邻样本中随机选取n个样本。在这n个样本与少数类样本之间的直线内进行随机插值，得到n个插值样本P_i，这样对于每一个少数类样本均产生了n个合成样本。少数类样本就被扩充了n倍。

SMOTE算法插值公式如下：

P_i＝X+rand(0,1)*(y_i-X),i＝1,2,…,n

其中X是非平衡数据内的少数类样本，P_i是X与第y_i个最近邻的矢量差，rand(0,1)是(0，1)之间的随机数。

SMOTE算法采样倍率n由数据集的非平衡性决定，即多数类样本与少数类样本之间的非平衡程度，计算公式如下：

n＝round(IL)

K-Means算法是由Hartigan提出的一种基于距离划分的聚类算法。其基本思想是：首先在数据集内任意选择k个样本作为初始聚类中心，这样就将数据样本分成k个簇，再计算每个数据样本到初始聚类中心的欧氏距离，依次将各数据样本划分到与之最近的簇内；计算每个簇的数据样本的均值，若不符合聚类目标准则，则继续执行上述聚类过程，直至簇内的数据样本相似度高，而簇间数据样本相似度低。K-Means算法快速、简单且适合处理大批量数据的特性，已被广泛应用于数据挖掘领域中。

设有n个数据样本X＝{x₁,x₂,…,x_n}∈R^d，其中x_j＝(x_j1,x_j2,…,x_jd)^T为d维向量。具体步骤如下：

步骤1：随机选取k个样本数据，作为k个初始聚类中心，聚类中心集合为C＝{c₁,c₂,…,c_k}^T；c_i的计算公式如下：

其中c_i表示第i个簇的中心位置，i＝1,2,…,k，n_i是c_i中样本数据的个数，x_j代表属于c_i所属簇内的样本数据。

步骤2：计算其余数据样本到每一个簇内中心c_i的欧氏距离，再将各个数据样本划分到距离c_i最小的簇中。d(x_j,c_i)表示样本数据x_j与聚类中心c_i之间的欧式距离，计算公式如下：

步骤3：根据公式(3-2)重新计算各个簇中k个聚类中心值；

步骤4：若满足使目标函数公式(3-4)最小或保持不变，则迭代过程结束，K-Means聚类操作完成。最小化目标函数公式如下：

其中，S_i是第i个类别中样本的簇集合，c_i是S_i内所有样本x_j的聚类中心点。

由于SMOTE算法在少数类样本合成扩充过程中，插值规则设置较简单且插值随机性较大，过采样就容易造成模糊数据样本的正负边界；同时也忽略了少数类数据的分布情况，这样往往使得分类不能够取得良好的效果。K-means算法可以有效弥补SMOTE算法所存在缺陷，并且提高非平衡数据的分类准确率。因此，本发明运用K-Means算法与SMOTE算法结合，构成KM-SMOTE算法，来合成新的少数类样本数据。

KM-SMOTE算法核心思想：首先通过对少数类样本数据进行K-Means聚类操作，对少数类样本数据进行了划分，形成k个聚类，且分布均匀。选取每个聚类的簇心，即簇内的中心点。接着以每一个簇心与之簇内的少数类样本为直线，利用修正后SMOTE过采样插值公式在其间进行随机插值，合成少数类样本数据。

KM-SMOTE算法的核心包括少数类样本的边界点确定、危险点判定、插值公式修正三个部分：

1.边界点确定

对少数类样本数据，求得其k个近邻，判断k个近邻是否存在多数类样本数据，若存在，则将该少数类样本点记为边界少数类样本点，并计入边界数据样本点集合中。

2.危险点判定

对少数类样本数据K-Means聚类后，判断每个簇内的数据样本中边界样本数据点个数，若大于一个，则需要对该簇C_i，进行再一次判定。若该聚类簇心u_i到边界少数类样本X的欧氏距离d_p比u_i到少数类样本X对应的k近邻中属于多数类近邻点之间的欧氏距离d_q小，且X的k个近邻均为多数类，则称少数类样本X类危险点，需剔除，再次计算该聚类簇心，直至不存在危险点。

3.修正插值公式

(1)计算少数类样本数据聚类后的簇心C_i到簇内每一个数据点的欧氏距离D，即D＝{d₁,d₂,d₃…}，取其中的最大欧氏距离D_max。

(2)计算簇心到少数类数据样本数据点X的欧氏距离d_x，并计算与D_max与d_x的比值H_ij，并取整H＝[H_ij]。

(3)则新的插值公式为：

X_new＝u_i+rand(0,H)*(X-u_i),i＝1,2,…,k

其中X_new为新的插值样本点，u_i为簇心，X是以u_i为簇心的簇的一个少数类样本数据点，rand(0,H)是[0，H]之间的某一随机数。

KM-SMOTE算法的具体步骤如下：

Step1：求得所有少数类数据的k个近邻，判断出少数类样本数据的边界点，并将其归入边界点集合中。

Step2：利用K-Means算法对少数类样本数据进行聚类，分为K个聚类，记录每一个聚类的簇心u_i＝{u₁,u₂,…,u_k}。

Step3：利用危险点判定方法，判断是否存在少数类样本点为危险点，若存在则剔除该少数类样本点，重新计算簇心，直至不存在危险点。

Step4：利用上述修正的插值公式，合成新的少数类样本点。

Step5：由于采样倍率设置原因，插值后若少数类样本比多数类样本多，则需要剔除少数类样本合成过程中可能产生过拟合的数据，直至非平衡数据内多数类样本与少数类样本达到相对均衡。

如图4所示，Xgboost算法是在Gradient Boosting Decision Tree基础上发展起来的，全名是eXtreme Gradient Boosting，它以其出色分类性能和鲁棒性在模式识别问题上得到了较为广泛的使用。在同等情况下，Xgboost算法比同类算法快10倍以上，Xgboost能利用CPU多线程并行加速树的构建，支持YARN，MPI等多个平台，实现分布式运算，可进一步提高训练速度。它的基本原理与GBDT算法相似，但它比传统的GBDT算法，更进步的地方在于：传统的GBDT只利用了一阶的导数信息，而xgboost对损失函数进行二阶的泰勒展开，求得模型的最优解的效率更高。

大多数机器学习算法的参数选择对分类效果有很大的影响而参数的选择实际上是一个优化过程，因此优化算法被应用于机器学习算法的参数选择上。比如，遗传算法(Genetic algorithm，GA)和粒子群算法(Particle swarm optimization，PSO)曾应用于SVM参数的优化。但是，遗传算法具有搜索速度慢和参数依赖等问题。粒子群算法在处理复杂的多峰搜索问题时容易产生早熟收敛和局部寻优能力较差的缺陷。布谷鸟搜索算法(Cuckoo Search，CS)具有控制参数少、搜索路径优、全局搜索能力强等优点，效果明显胜于PSO、GA等算法。虽然布谷鸟算法相对于其他一些传统搜索算法有着算法简单，操作参数少，易于实现的优点，但其也存在着容易陷入局部最优，搜索速度慢的缺点。当算法进行n次迭代后，鸟窝的最优位置不发生变化时，就可以认为算法出现早熟现象。混沌(Chaos)是一种非线性系统中普遍存在的现象，混沌变量的变化在一定的范围内具有遍历性、随机性和规律性。将混沌变量引入到CS算法中，即混沌布谷鸟算法(CCS)，可以有效避免陷入局部最优，提高搜索速度和精确度。

在xgboost集成学习框架中，参数收缩步长(shrinkage)和子节点中最小的样本权重阀值(min_child_weight)，直接影响着xgboost算法分类的表现性能：过大的shrinkage将导致算法无法收敛，过小的shrinkage将导致算法过拟合。min_child_weight是子节点中最小的样本权重和阀值，如果一个叶子节点的样本权重和小于min_child_weight则拆分过程结束。过小的min_child_weight将导致算法过拟合，过大的min_child_weigh会导致算法对线性不可分数据的分类性能。为提高参数寻优效果和加快参数寻优速度，避免传统参数寻优中用到的机械枚举寻优法带来的投机性、随机性和计算量大等弊端，同时为了避免GA算法、PSO算法和模拟退火算法(Simulate Anneal Arithmetic，SAA)局部寻优能力差等劣势，鉴于CCS算法在参数优化方面的良好表现，本发明应用CCS算法对xgboost中的(shrinkage，min_child_weight)参数寻优。首先，以模型分类准确率作为适应度函数，设定shrinkage和min_child_weight的初始值(即初始反应物)。然后，利用CCS算法优化参数shrinkage和min_child_weight，随后利用训练子集训练xgboost，同时利用测试子集测xgboost模型，计算分类精度。最后分类精度为依据判断shrinkage和min_child_weight是否符合终止条件。若符合条件，则输出最佳参数shrinkage和min_child_weight，若不符合，则继续使用CCS算法优化，直到符合终止条件为止。

如图5所示，将用来评估P2P网贷借款人信用风险的最原始数据通过数据采集模块采集到评估装置中，采集P2P借款人基本数据、客户信用数据、客户偿还能力数据，采集P2P平台真实交易历史数据。在综合多方面考虑的基础上建立有效合理的P2P网贷借款人信用风险评估指标体系，P2P网贷借款人信用风险评估初选指标有借款人基本信息、偿还能力信息、个人征信信息、公开信息和贷款产品特征信息。结合构建的P2P网贷借款人信用风险评估指标体系将采集到的原始数据进行缺失值处理、离群值处理和数据归一化等转化处理。通过优化、集成理论以及机器学习算法构建P2P网贷借款人信用风险评估模型，利用混沌布谷鸟算法(CCS)对Xgboost算法进行参数寻优从而构建CCS-Xgboost模型，通过历史交易数据有监督的训练评估模型，把训练后的CCS-Xgboost模型作为P2P网贷借款人信用风险的评估模型。应用构建的P2P网贷借款人信用风险评估模型对P2P网贷借款人信用风险进行量化、自动化评估。把新数据输入到CCS-Xgboost评估模型中，模型自动输出P2P网贷借款人信用风险预测评估结果，从而对P2P网贷借款人信用风险进行量化、自动化评估。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种P2P网贷借款人信用风险评估的装置，其特征在于，所述装置包括：

2.根据权利要求1所述的装置，其特征在于，所述数据处理模块用于对原始数据进行数据泛化、缺失值处理、标准化处理、离群值处理和分层抽样处理。

3.根据权利要求2所述的装置，其特征在于，所述数据处理模块包括：

4.根据权利要求2所述的装置，其特征在于，所述数据处理模块包括：

5.根据权利要求2所述的装置，其特征在于，所述数据处理模块包括：

6.根据权利要求2所述的装置，其特征在于，所述数据处理模块包括：

7.根据权利要求2所述的装置，其特征在于，所述数据处理模块包括：

8.根据权利要求1所述的装置，其特征在于，所述评估模型构建模块包括：

9.根据权利要求8所述的装置，其特征在于，所述评估模型应用模块包括：