CN113222743A - 基于因子得分K-Means聚类的网贷借款者信用评级方法 - Google Patents

基于因子得分K-Means聚类的网贷借款者信用评级方法 Download PDF

Info

Publication number
CN113222743A
CN113222743A CN202110631024.7A CN202110631024A CN113222743A CN 113222743 A CN113222743 A CN 113222743A CN 202110631024 A CN202110631024 A CN 202110631024A CN 113222743 A CN113222743 A CN 113222743A
Authority
CN
China
Prior art keywords
factor
credit
credit rating
sample data
borrower
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110631024.7A
Other languages
English (en)
Inventor
陈荣达
金骋路
陈鑫浩
周寒娴
包薇薇
汪圣楠
俞静婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Finance and Economics
Original Assignee
Zhejiang University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Finance and Economics filed Critical Zhejiang University of Finance and Economics
Priority to CN202110631024.7A priority Critical patent/CN113222743A/zh
Publication of CN113222743A publication Critical patent/CN113222743A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明公开了一种基于因子得分K‑Means聚类的网贷借款者信用评级方法,包括以下步骤:S1:获取样本数据,先对样本数据进行预处理,然后再进行标准化处理;S2:应用步骤S1中标准化后的样本数据输出KMO统计量和Bartlett的球形度检验显著性值,确定适合做因子分析的样本数据;S3:输出适合做因子分析的样本数据的公因子方差,运用因子分析提取公因子方差中的公共因子,再利用旋转成分矩阵来解释各个公共因子的含义并命名,最后根据因子得分矩阵计算因子得分;S4:通过K‑Means聚类算法对样本数据进行聚类分析;S5:引入违约回收率指标,作为信用等级判断的量化标准。本发明可以合理区分不同级别下的借款人的信用风险,具有信用评级准确性高的优点。

Description

基于因子得分K-Means聚类的网贷借款者信用评级方法
技术领域
本发明涉及信息技术领域,具体涉及一种基于因子得分K-Means聚类的网贷借款者信用评级方法。
背景技术
自2013年起,网贷行业在中国井喷式发展,然而随着行业规模的不断扩大,各种问题逐渐暴露,高比例的问题平台以及暴雷事件的屡屡出现。更多问题主要集的P2P网贷机构,也在2020年11月中旬彻底归零。目前,从事网贷的主体有1)小额贷款公司,通常没有金融牌照;2)消费金融公司,主要由银行分离出去的银行子公司,和银行一样持有金融牌照;3)商业银行,相对监管严格、运营正规。
然而,严格管理网络借贷机构的同时,对网贷的借款者进行有效的信用风险分析是整个行业持续健康发展亟待解决的关键问题。建立一个科学有效的网络借贷借款者的信用评级方法,对于违约风险越来越显著的网贷行业十分重要。
现有的网贷信用评级研究主要基于网贷平台或机构。中华人民共和国知识产权局专利号为CN108510387A的“一种P2P网络借贷平台运营风险评估的系统”主要通过对大量网贷平台数据进行分析归纳出备选特征表,侧重平台的风险指数进行相关性分析,从而选取出主要特征对模型进行训练,确保模型的准确率和提高工作效率。中华人民共和国知识产权局专利号为CN111611215A的“一种基于区块链的网贷风险数据共享方法及系统”同样针对网贷平台,将相关数据包写入区块链和数据库,根据预设的激励机制对所述待共享网贷风险数据企业进行数据上报操作的奖惩处理,基于区块链平台和有效的奖惩激励机制让助贷公司、商业银行、网贷平台之间风险数据可以有效共享,从而保证了网贷公司在做风控和营销时候数据维度的全面性和有效数据的完整性。而国外对于网贷借款者信用评级相关的专利和研究更少,主要原因是通常在国外成熟市场已经建立了较为完善的社会征信体系,并将网络借贷行业纳入到了征信体系。与此不同,在国内即使是已正式接入中国人民银行金融信用信息基础数据库(即征信系统)的人人贷等网贷平台,在网贷借款人的信用评级过程中依然存在较大问题,人人贷采用的信用评分标准,只要借款者按要求填写了信息便可以评定信用分数,而提供附加的信息越多,其信用分数也越高,过去的还款记录也会对信用分数产生实质性的影响。形成信用分数后,按照其所属的分数区间,人人贷划分了AA、A、B、C、D、E、HR七个信用评级,每个信用评级都有不同的服务费率,但是数据统计显示人人贷的信用评级机制并没有在违约回收率的角度上起到区分借款者的作用。
现有已公开的网贷信用评级相关专利或者已执行的网贷借款人的信用评级方法存在以下不足:主要基于网贷平台整体作为信用评级对象,依据国内现有的征信数据二建立的评级无法合理区分不同级别下的借款人的信用风险,反而出现信用评级高的借款人具有较大数量、较高违约率的情况。
发明内容
本发明的目的在于,提供一种基于因子得分K-Means聚类的网贷借款者信用评级方法。本发明可以合理区分不同级别下的借款人的信用风险,具有信用评级准确性高的优点。
为解决上述技术问题,本发明提供的技术方案如下:基于因子得分K-Means聚类的网贷借款者信用评级方法,包括以下步骤:
S1:获取样本数据,先对样本数据进行预处理,然后再进行标准化处理,从而消除样本数据中量纲和正负向的影响;
S2:KMO和Bartlett的球形检验:应用步骤S1中标准化后的样本数据输出KMO统计量和Bartlett的球形度检验显著性值,确定适合做因子分析的样本数据;
S3:输出适合做因子分析的样本数据的公因子方差,运用因子分析提取公因子方差中的公共因子,再利用旋转成分矩阵来解释各个公共因子的含义并命名,最后根据因子得分矩阵计算因子得分;
S4:利用步骤S3中输出的因子得分,通过K-Means聚类算法对样本数据进行聚类分析,并用silhouette函数计算每次聚类的轮廓系数,通过对比代表每次聚类结果质量的轮廓系数,选出最优的一次聚类作为网贷平台借款者信用评级的结果;
S5:引入违约回收率指标,作为信用等级判断的量化标准。
上述的基于因子得分K-Means聚类的网贷借款者信用评级方法,步骤S1中,所述预处理还包括将包含文字信息转化为数字信息。
前述的基于因子得分K-Means聚类的网贷借款者信用评级方法,所述的样本数据包括正向指标数据、负向指标数据和区间指标数据,所述正向指标数据、负向指标数据和区间指标数据的标准化公式分别如下:
正向指标数据:
Figure BDA0003103496600000041
负向指标数据:
Figure BDA0003103496600000042
区间指标数据:
Figure BDA0003103496600000043
式中:xij为分别为正向指标数据、负向指标数据和区间指标数据的计算数值;vij为样本变量;i为对应的借款人序号;j为对应的某一借款人的观测序号,n为总样本数;a为为最优区间的左边界;b为最优区间的右边界,区间指标年龄的最优区间为[31,45]。
前述的基于因子得分K-Means聚类的网贷借款者信用评级方法,用SPSS20.0对标准化后的样本数据进行Z-Score标准化处理,使得样本数据满足均值为0,方差为1。
前述的基于因子得分K-Means聚类的网贷借款者信用评级方法,步骤S3中,命名的公共因子为历史信用状况因子、还款能力因子、资产状况因子、工作状况因子、宏观环境因子和网贷产品因子。
前述的基于因子得分K-Means聚类的网贷借款者信用评级方法,所述历史信用状况因子F1、还款能力因子F2、资产状况因子F3、工作状况因子F4、宏观环境因子F5和网贷产品因子F6的因子得分分别如下:
F1=0.101X1-0.072X2+0.534X3-0.59X4-0.049X5+0.27X6+0.653X7-0.347X8+0.38X9+0.39X10+0.656X11+0.29X12+0.321X13+0.183X14+0.335X15
F2=0.019X1+0.359X2-0.201X3+0.205X4+0.24X5++0.312X6-0.265X7+0.2X8-0.086X9-0.138X10-0.058X11+0.876X12+0.863X13-0.037X14+0.065X15
F3=0.368X1+0.401X2+0.34X3+0.179X4+0.089X5-0.203X6-0.296X7+0.452X8+0.518X9+0.5X10+0.032X11-0.087X12-0.081X13-0.313X14+0.062X15
F4=0.285X1-0.161X2+0.127X3+0.381X4+0.446X5+0.564X6-0.047X7-0.369X8-0.125X9-0.011X10+0.029X11-0.145X12-0.154X13-0.339X14+0.226X15
F5=-0.649X1-0.074X2-0.114X3-0.19X4+0.598X5+0.195X6+0.073X7+0.258X8+0.192X9+0.204X10+0.011X11-0.073X12-0.073X13-0.099X14-0.21X15
F6=-0.081X1+0.562X2-0.314X3-0.153X4+0.144X5-0.168X6+0.221X7+0.028X8-0.262X9-0.062X10+0.118X11-0.133X12-0.132X13-0.153X14+0.595X15
式中:X1为年龄;X2为学历;X3为婚姻;X4为金额;X5为利率;X6为期限;X7为收入;X8为公司规模;X9为工作年限;X10为房产房贷;X11为车产车贷;X12为还清比例;X13为严重逾期比例;X14为认证信息;X15为地区人均可支配收入。
前述的基于因子得分K-Means聚类的网贷借款者信用评级方法,步骤S4中,将K-Means聚类算法的K值设定为2到10,再分别进行聚类分析,并对比每次聚类结果的轮廓系数,选取轮廓系数较大,聚类质量最好的K值作为K-Means聚类算法的固定K值。
与现有技术相比,本发明首先获取样本数据,先对样本数据进行预处理,用于对极端以及缺失的数据进行剔除,然后再进行标准化处理,从而消除样本数据中量纲和正负向的影响,再通过对标准化处理后的样本数据进行因子分析,可以有效地起到降低指标维度的效果,然后给出因子得分为K-Means聚类做准备,经过K-Means聚类输出最终聚类结果,最后引入违约回收率指标,作为信用等级判断的量化标准,由此本发明实现了对平台现有借款者的信用评级,确保各信用级别的网贷借款人之间差异显著,且评级越高的借款者数量越少,解决了现行网贷信用评级方法的“倒金字塔”问题。此外,本发明的因子分析的关键在于把初始的指标数据分到降维的各个组,并依据初始指标与降维后的指标的相关性,给予不同的系数,相关性越高,系数越大。这样,通过降维就形成了几个相关性较低的指标,同时也要求降维后的指标能够包括初始指标的大部分信息。通过降维所得到的指标就是公共因子。本发明因子分析中在降维后得到的指标在数量上会远比初始指标要少,故用降维后的指标进行分析,可以起到减少计算量的作用。其次,提取公共因子并不是对初始指标的放弃,而是对初始指标进行的重新组合。再次,通过因子分析后得到的指标之间并没有显著的相关性,从而避免了指标之间存在相关性对研究产生的负面影响。最后,可以对通过降维所得到的指标进行解释并命名,从而更好地分析包含在该指标内地信息。本发明具体提取了六个关键性因子,使得指标更加简洁,同时能够指标克服相关性,使得结果能够更加吻合信用评级的“金字塔”型,即高信用评级的借款者数量要少于低信用评级的借款者数量,结果更加合理准确。
附图说明
图1为特征值的碎石图;
图2为某网络平台的边界核拟合图;
图3为本发明的边界核拟合图。
具体实施方式
下面结合实施例和附图对本发明作进一步的说明,但并不作为对本发明限制的依据。
实施例:基于因子得分K-Means聚类的网贷借款者信用评级方法,包括以下步骤:
S1:获取样本数据,以某中国网贷平台已经成交的标的资产样本为例,并选择其中发生过违约的14558个违约标的资产为样本,先对其进行预处理,使得极端以及缺失的数据进行剔除,其中预处理还包括先将包含文字信息转化为数字信息(即定性某些指标的打分标准,如表1所示),共得到13467组数据。
Figure BDA0003103496600000071
Figure BDA0003103496600000081
表1
由于样本数据中既有正向指标(还清比例、认证信息、地区人均可支配收入),又有负向指标(金额、利率、期限、严重逾期比例),还有区间指标(年龄),对于正向指标,比如收入,其数值越大表明借款者的还款能力越强,故标准化后的得分越高。对于负向指标,比如金额,其数值越大表明借款者面临的还款压力越高,故标准化后的得分越低。对于区间指标,比如年龄,偏离最佳区间越远,借款者的财务状况往往会越差,因此标准化后的得分越低。考虑不同类型的数据会有量纲和正负向的影响,而常规的标准化方法仅仅能够消除量纲的影响,不能消除正负向的影响,因此本发明对所述正向指标数据、负向指标数据和区间指标数据的标准化公式分别如下:
正向指标数据:
Figure BDA0003103496600000082
负向指标数据:
Figure BDA0003103496600000091
区间指标数据:
Figure BDA0003103496600000092
式中:xij为分别为正向指标数据、负向指标数据和区间指标数据的计算数值;vij为样本变量;i为对应的借款人序号;j为对应的某一借款人的观测序号,n为总样本数;a为为最优区间的左边界;b为最优区间的右边界,区间指标年龄的最优区间为[31,45]。
利用上述的公式从而消除正负向的影响。最后,本文用SPSS20.0对标准化后的数据进行Z-Score标准化处理,使得数据满足均值为0,方差为1的条件,为因子分析作准备。
S2:KMO和Bartlett的球形检验:应用步骤S1中标准化后的样本数据输出KMO统计量和Bartlett的球形度检验显著性值,确定适合做因子分析的样本数据;
KMO和Bartlett球形检验是用于检验所选取的指标是否适合做因子分析的方法,其结果如表2所示。
Figure BDA0003103496600000101
表2
在表2中,KMO统计量为0.642,表明本发明所选取的指标适合进行因子分析。Bartleet的球形度检验显著性值为0.000,表明在99%的显著性水平下,指标之间存在相关关系。因此本发明所选取的指标适合做因子分析。
S3:输出适合做因子分析的样本数据的公因子方差,如表3所示,表3中第一列为样本数据中指标的名称,第二列为初始的变量共同度,其数值为1.000,原因在于该指标是指将所有的初始指标都作为公共因子时,公共因子能对初始指标所包含信息的解释程度。第三列为最终的变量共同度,其数值的含义是所提取的公共因子对于初始指标所包含信息的解释程度,越高的数值表明遗漏的信息越少,比如还清比例的提取共同度为0.903,说明5个公共因子解释了还清比例指标90.3%。
Figure BDA0003103496600000102
Figure BDA0003103496600000111
表3
运用因子分析提取公因子方差中15个网贷借款者信用评级指标中的公共因子,根据特征值迭代判断提取的公因子数量为6个,结果如表4所示:
Figure BDA0003103496600000112
表4
在表4中,第一部分为初始特征值,其数据根据特征值降序排列,特征值越高,表明该因子包含越多的初始指标的信息。当特征值低于1,则意味着该因子包含的信息甚至不如初始指标。故在第二部分提取平方和载入中,仅仅提取了特征值大于1的因子。在第二部分提取平方和载入中,特征值最大的因子的特征值为2.330,其方差贡献率为15.534%,说明该因子对原15个初始指标的解释度为15.534%。特征值第2至第6的因子的方差贡献度分别为13.498%、9.474%、7.668%、7.249%、6.949%。从第7个因子开始,其初始特征值小于1,故本发明提取6个公共因子,对15个初始指标的解释度累计为60.371%,较为充分的概括了初始指标所包含的信息。从图1的碎石图中也可以发现,碎石图曲线在左端较为陡峭,并逐渐变得平缓,从第7个因子开始特征值低于1,说明可以提取6个公共因子。
提取6个公共因子后,便借助于旋转成分矩阵来解释各个因子的含义,并对各个因子进行命名;采用最大方差法所得的旋转成分矩阵如表5所示:
Figure BDA0003103496600000121
表5
从表5中可以看出各个公共因子所包含的15个初始指标的信息,越大的系数表明包含的信息越多,从而与相应的指标越接近。在表5中,公共因子1在还清比例和严重预期比例上有很高的载荷,其系数分别为0.948和0.946,主要反映网贷借款者的历史信用状况,将其命名为历史信用状况因子。公共因子2在金额和收集上有很高的载荷,其系数分别为-0.759和0.701,主要反映网贷借款者的还款能力,将其命名为还款能力因子。公共因子3在婚姻、房产房贷和车产车贷上有很高的载荷,其系数分别为0.687、0.643和0.763,主要反映网贷借款者的资产状况,将其命名为资产状况因子。公共因子4在公司规模和学历上有较高的载荷,其系数分别为-0.709和-0.516,主要反映网贷借款者的工作状况,将其命名为工作状况因子。公共因子5在地区人均可支配收入上有很高的载荷,其系数为0.719,主要反映网贷借款者所处地区的宏观经济环境,将其命名为宏观环境因子。公共因子6在利率和期限上有很高的载荷,其系数分别为0.798和0.501,主要反映网贷产品的状况,将其命名为网贷产品因子。
在完成对6个公共因子进行命名之后,需要计算各个公共因子(历史信用状况因子F1、还款能力因子F2、资产状况因子F3、工作状况因子F4、宏观环境因子F5和网贷产品因子F6)的得分,使用SPSS20.0计算可得每个借款者的主因子得分,如表6所示:
Figure BDA0003103496600000131
Figure BDA0003103496600000141
表6
从表6因子得分矩阵中可以看出各个公共因子与15个初始指标之间的关系。由表(因子得分矩阵)可计算因子得分;所述历史信用状况因子F1、还款能力因子F2、资产状况因子F3、工作状况因子F4、宏观环境因子F5和网贷产品因子F6的因子得分分别如下:
F1=0.101X1-0.072X2+0.534X3-0.59X4-0.049X5+0.27X6+0.653X7-0.347X8+0.38X9+0.39X10+0.656X11+0.29X12+0.321X13+0.183X14+0.335X15
F2=0.019X1+0.359X2-0.201X3+0.205X4+0.24X5++0.312X6-0.265X7+0.2X8-0.086X9-0.138X10-0.058X11+0.876X12+0.863X13-0.037X14+0.065X15
F3=0.368X1+0.401X2+0.34X3+0.179X4+0.089X5-0.203X6-0.296X7+0.452X8+0.518X9+0.5X10+0.032X11-0.087X12-0.081X13-0.313X14+0.062X15
F4=0.285X1-0.161X2+0.127X3+0.381X4+0.446X5+0.564X6-0.047X7-0.369X8-0.125X9-0.011X10+0.029X11-0.145X12-0.154X13-0.339X14+0.226X15
F5=-0.649X1-0.074X2-0.114X3-0.19X4+0.598X5+0.195X6+0.073X7+0.258X8+0.192X9+0.204X10+0.011X11-0.073X12-0.073X13-0.099X14-0.21X15
F6=-0.081X1+0.562X2-0.314X3-0.153X4+0.144X5-0.168X6+0.221X7+0.028X8-0.262X9-0.062X10+0.118X11-0.133X12-0.132X13-0.153X14+0.595X15
式中:X1为年龄;X2为学历;X3为婚姻;X4为金额;X5为利率;X6为期限;X7为收入;X8为公司规模;X9为工作年限;X10为房产房贷;X11为车产车贷;X12为还清比例;X13为严重逾期比例;X14为认证信息;X15为地区人均可支配收入。
S4:利用步骤S3中输出的因子得分,使用matlab2014a的keans函数实现K-Means聚类算法,对网贷平台借款者的样本数据进行100次聚类分析,并用matlab2014a的silhouette函数计算每次聚类的轮廓系数,通过对比代表每次聚类结果质量的轮廓系数,选出最优的一次聚类作为网贷平台借款者信用评级的结果;
本发明采用枚举法,将K-Means聚类算法的K值设定为2到10,再分别进行聚类分析,并对比每次聚类结果的轮廓系数,选取轮廓系数较大,聚类质量最好的K值作为K-Means聚类算法的固定K值。本实施例中在K=5时,轮廓系数较大,聚类质量相对较好。为了避免K-Means聚类算法的局部最优问题,本文固定K=5,再将K-means聚类算法重新运行100次,并从中选出轮廓系数最大的聚类结果作为最终的结果。本文程序运行的结果显示,轮廓系数的最大值为0.1465,处于0到0.5之间,聚类效果较好。
S5:引入违约回收率指标,作为信用等级判断的量化标准。
本实施例中各类指标标准化后的算术平均值结果如表7所示:
Figure BDA0003103496600000151
Figure BDA0003103496600000161
表7
为了验证本发明的网贷借款者信用评级方法能否在违约回收率的角度上起到区分借款者的作用,申请人应用边界核方法和Kruskal-Wallis检验对比本发明以及选取的该平台(人人贷)对样本的现有信用评级统计(如表8所示),检验本发明信用评级结果。
信用评级 AA A B C D E HR
违约样本数 79 148 158 344 1644 1741 10444
回收率均值 64.51% 75.52% 62.74% 62.06% 59.91% 57.53% 56.54%
表8
该网贷平台的信用评级Kruskal-Wallis检验结果(如表9所示),并作边界核拟合(如图2所示)。
A B C D E HR
AA 5.23** 0.12 0.36 1.74 4.06** 3.37*
A 10.44*** 16.57*** 34.41*** 43.87*** 35.13***
B 0.14 1.82 4.47** 4.58**
C 1.58 6.62** 5.93**
D 5.38** 6.48**
E 0.09
表9
本发明信用评级Kruskal-Wallis检验结果(如表10所示),并作边界核拟合(如图3所示)。
B C D E
A 96.06*** 135.47*** 279.1*** 310.31***
B 770.61*** 199.36*** 224.08***
C 158.69*** 212.25***
D 0.51
表10
对比表9和表10中可以看出,表10中除了D和E的违约回收率分布在10%的显著性水平下没有显著差异外,其他的信用评级之间的违约回收率分布均有差异。因此,相比于人人贷的信用评级机制,本发明的信用评级方法在违约回收率的角度上起到了区分用户的作用。对比图2和图3可以看出,在本发明的信用评级方法下,图3中除了D和E的曲线外,不同信用级别的违约回收率拟合曲线有相当大的差异,信用评级较低的违约回收率拟合曲线呈现出向左倾斜的趋势,而越高的信用评级越有向右倾斜的趋势,而D和E的曲线相似的程度较高,这与Kruskal-Wallis检验的结果相吻合。值得注意的是,本发明的基于违约回收率的因子得分K-Means聚类信用评级方法能够在违约回收率角度上起到区分借款者的作用,同时各个信用评级的借款者数量呈现出“金字塔”型,即高信用评级的借款者数量要少于低信用评级的借款者数量,要优于现有信用评级方法。本发明的方法提取了6个关键性因子,指标更加简洁,同时能够指标克服相关性,使得结果能够更加吻合信用评级的“金字塔”型,结果更加合理准确。

Claims (7)

1.基于因子得分K-Means聚类的网贷借款者信用评级方法,其特征在于:包括以下步骤:
S1:获取样本数据,先对样本数据进行预处理,然后再进行标准化处理,从而消除样本数据中量纲和正负向的影响;
S2:KMO和Bartlett的球形检验:应用步骤S1中标准化后的样本数据输出KMO统计量和Bartlett的球形度检验显著性值,确定适合做因子分析的样本数据;
S3:输出适合做因子分析的样本数据的公因子方差,运用因子分析提取公因子方差中的公共因子,再利用旋转成分矩阵来解释各个公共因子的含义并命名,最后根据因子得分矩阵计算因子得分;
S4:利用步骤S3中输出的因子得分,通过K-Means聚类算法对样本数据进行聚类分析,并用silhouette函数计算每次聚类的轮廓系数,通过对比代表每次聚类结果质量的轮廓系数,选出最优的一次聚类作为网贷平台借款者信用评级的结果;
S5:引入违约回收率指标,作为信用等级判断的量化标准。
2.根据权利要求1所述的基于因子得分K-Means聚类的网贷借款者信用评级方法,其特征在于:步骤S1中,所述预处理还包括将包含文字信息转化为数字信息。
3.根据权利要求1所述的基于因子得分K-Means聚类的网贷借款者信用评级方法,其特征在于:所述的样本数据包括正向指标数据、负向指标数据和区间指标数据,所述正向指标数据、负向指标数据和区间指标数据的标准化公式分别如下:
正向指标数据:
Figure FDA0003103496590000021
负向指标数据:
Figure FDA0003103496590000022
区间指标数据:
Figure FDA0003103496590000023
式中:xij为分别为正向指标数据、负向指标数据和区间指标数据的计算数值;vij为样本变量;i为对应的借款人序号;j为对应的某一借款人的观测序号,n为总样本数;a为为最优区间的左边界;b为最优区间的右边界,区间指标年龄的最优区间为[31,45]。
4.根据权利要求1所述的基于因子得分K-Means聚类的网贷借款者信用评级方法,其特征在于:用SPSS20.0对标准化后的样本数据进行Z-Score标准化处理,使得样本数据满足均值为0,方差为1。
5.根据权利要求1所述的基于因子得分K-Means聚类的网贷借款者信用评级方法,其特征在于:步骤S3中,命名的公共因子为历史信用状况因子、还款能力因子、资产状况因子、工作状况因子、宏观环境因子和网贷产品因子。
6.根据权利要求5所述的基于因子得分K-Means聚类的网贷借款者信用评级方法,其特征在于:所述历史信用状况因子F1、还款能力因子F2、资产状况因子F3、工作状况因子F4、宏观环境因子F5和网贷产品因子F6的因子得分分别如下:
F1=0.101X1-0.072X2+0.534X3-0.59X4-0.049X5+0.27X6+0.653X7-0.347X8+0.38X9+0.39X10+0.656X11+0.29X12+0.32LX13+0.183X14+0.335X15
F2=0.019X1+0.359X2-0.201X3+0.205X4+0.24X5++0.312X6-0.265X7+0.2X8-0.086X9-0.138X10-0.058X11+0.876X12+0.863X13-0.037X14+0.065X15
F3=0.368X1+0.401X2+0.34X3+0.179X4+0.089X5-0.203X6-0.296X7+0.452X8+0.518X9+0.5X10+0.032X11-0.087X12-0.081X13-0.313X14+0.062X15
F4=0.285X1-0.161X2+0.127X3+0.381X4+0.446X5+0.564X6-0.047X7-0.369X8-0.125X9-0.011X10+0.029X11-0.145X12-0.154X13-0.339X14+0.226X15
F5=-0.649X1-0.074X2-0.114X3-0.19X4+0.598X5+0.195X6+0.073X7+0.258X8+0.192X9+0.204X10+0.011X11-0.073X12-0.073X13-0.099X14-0.21X15
F6=-0.081X1+0.562X2-0.314X3-0.153X4+0.144X5-0.168X6+0.221X7+0.028X8-0.262X9-0.062X10+0.118X11-0.133X12-0.132X13-0.153X14+0.595X15
式中:X1为年龄;X2为学历;X3为婚姻;X4为金额;X5为利率;X6为期限;X7为收入;X8为公司规模;X9为工作年限;X10为房产房贷;X11为车产车贷;X12为还清比例;X13为严重逾期比例;X14为认证信息;X15为地区人均可支配收入。
7.根据权利要求1所述的基于因子得分K-Means聚类的网贷借款者信用评级方法,其特征在于:步骤S4中,将K-Means聚类算法的K值设定为2到10,再分别进行聚类分析,并对比每次聚类结果的轮廓系数,选取轮廓系数较大,聚类质量最好的K值作为K-Means聚类算法的固定K值。
CN202110631024.7A 2021-06-07 2021-06-07 基于因子得分K-Means聚类的网贷借款者信用评级方法 Pending CN113222743A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110631024.7A CN113222743A (zh) 2021-06-07 2021-06-07 基于因子得分K-Means聚类的网贷借款者信用评级方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110631024.7A CN113222743A (zh) 2021-06-07 2021-06-07 基于因子得分K-Means聚类的网贷借款者信用评级方法

Publications (1)

Publication Number Publication Date
CN113222743A true CN113222743A (zh) 2021-08-06

Family

ID=77083116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110631024.7A Pending CN113222743A (zh) 2021-06-07 2021-06-07 基于因子得分K-Means聚类的网贷借款者信用评级方法

Country Status (1)

Country Link
CN (1) CN113222743A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116563013A (zh) * 2023-05-19 2023-08-08 深圳百流科技有限公司 一种资金路由方法、系统及存储介质
CN117078324A (zh) * 2023-10-17 2023-11-17 深圳市企企通科技有限公司 用于供应商评级的数据处理方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194803A (zh) * 2017-05-19 2017-09-22 南京工业大学 一种p2p网贷借款人信用风险评估的装置
CN108009911A (zh) * 2017-11-29 2018-05-08 上海出版印刷高等专科学校 一种识别p2p网络借贷借款人违约风险的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194803A (zh) * 2017-05-19 2017-09-22 南京工业大学 一种p2p网贷借款人信用风险评估的装置
CN108009911A (zh) * 2017-11-29 2018-05-08 上海出版印刷高等专科学校 一种识别p2p网络借贷借款人违约风险的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈鑫浩: "基于违约回收率的网络借贷借款者信用评级研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116563013A (zh) * 2023-05-19 2023-08-08 深圳百流科技有限公司 一种资金路由方法、系统及存储介质
CN117078324A (zh) * 2023-10-17 2023-11-17 深圳市企企通科技有限公司 用于供应商评级的数据处理方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
Setiawan et al. Non-performing financing and bank efficiency of Islamic banks in Indonesia
CN113222743A (zh) 基于因子得分K-Means聚类的网贷借款者信用评级方法
CN111507831A (zh) 信贷风险自动评估方法和装置
WO2012018968A1 (en) Method and system for quantifying and rating default risk of business enterprises
CN105809360A (zh) 一种p2p行业风险评估方法
Ruyu et al. A comparison of credit rating classification models based on spark-evidence from lending-club
CN112767172A (zh) 一种基于机器学习模型算法的债券违约预警识别技术
Dang et al. Credit ratings of Chinese households using factor scores and K-means clustering method
Vijayakumar Effect of financial performance on share prices in the Indian corporate sector: An empirical study
Kumar et al. Importance of technical and fundamental analysis and other strategic factors in the Indian stock market
Noor et al. Corporate governance and corporate failure: A survival analysis
CN112819341A (zh) 一种科技型小微企业信用风险评估方法
CN105427171A (zh) 一种互联网借贷平台评级的数据处理方法
Zhou et al. Survive or die? An empirical study on Chinese ST firms
Lestari et al. Determinants Of Hedging Decisions With Derivative Instruments In Foreign Exchange Banks Listed On The Indonesia Stock Exchange
Zeng A comparison study on the era of internet finance China construction of credit scoring system model
Wu The Impact of Corruption on Chinese OFDI—Based on the Binary Marginal Perspective
Chouliaras et al. News flow, web attention and extreme returns in the european financial crisis
Zhang et al. Notice of Retraction: Research of credit risk of commercial bank's personal loan based on CHAID decision tree
CN113610638B (zh) 基于smaa-ds的信用等级与违约损失率相匹配的评级系统及方法
Jin et al. Empirical study on mutual fund objective classification
Black et al. Do lenders discriminate against low-income borrowers?
CN116561565A (zh) 基于进出口快件业务报关单涉税风险的特征处理方法
CN117829977A (zh) 一种基于商业汇票信息的企业融资意愿度分析方法及模型
Ratnadiwakara et al. Housing Affordability and Household Mobility

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210806