CN111652430A

CN111652430A - 一种互联网金融平台违约率的预测方法及系统

Info

Publication number: CN111652430A
Application number: CN202010477143.7A
Authority: CN
Inventors: 孙西超; 吴骏; 朱凤鸣
Original assignee: Bengbu College
Current assignee: Bengbu College
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2020-09-11

Abstract

本发明公开了一种互联网金融平台违约率的预测方法，包括：获取训练样本数据；对多维度特征信息进行特征筛选处理；训练样本进行标注后输入多个违约率预测模型进行训练；对训练完成的多个违约率预测模型进行性能判断，筛选性能满足预设条件的违约率预测模型；对满足预设条件的违约率预测模型个数进行判断，从而选择是否进行采用融合算法；获取待预测的借款人的多维度特征信息，输入训练完成的满足预设条件的违约率预测模型进行违约率预测，本发明通过采用皮尔森相关系数法和斯皮尔曼相关系数法对所有影响因素进行相关性分析，剔除彼此相关性较强的影响因素，避免多重共线性，提高模型预测准确率。

Description

一种互联网金融平台违约率的预测方法及系统

技术领域

本发明涉及数据挖掘处理技术领域，具体涉及一种互联网金融平台违约率的预测方法及系统。

背景技术

伴随着互联网技术的不断发展，传统的民间资本交易、中小企业融资和个人借贷等线下业务在互联网金融平台上不断发展壮大。在具有金融中介性质的互联网金融平台中，如何通过网络及数据分析实现对用户的违约率预测，是目前广大互联网金融机构关注的核心技术难题，也是当今的一个研究热点。根据网络小额借贷的特点以及其与传统征信系统的不同点去建立合适的违约风险评价系统，是减少不良交易、促进平台发展的重要途径。

现有技术中通过互联网平台和大数据技术采集借款人相关数据，进行建模，对违约率进行预测，但是模型中存在彼此间相关性较强的变量，则可能会导致模型出现多重共线性，从而使得模型无法得出正确的结论，且变量间不存在多重共线性也是使用部分模型的必要前提，而且过多的相关性较强变量数据也增加了建模过程的复杂度。

现有技术中采用分类模型对违约率进行预测时，通常时预先设定所用模型以及模型中采用的方法，并不具备多模型性能比较功能从而进行筛选性能最好的模型进行数据分析过程和数据预测过程。

发明内容

针对上述现有技术存在的问题，本发明提供了一种互联网金融平台违约率的预测方法，采用皮尔森相关系数法和斯皮尔曼相关系数法对所有影响因素进行相关性分析，剔除彼此相关性较强的影响因素，避免多重共线性，采用多模型训练并筛选满足预设条件的模型进行待预测的借款人违约率预测，具体包括：

基于目标互联网金融平台获取训练样本数据；

将训练样本数据进行预处理后，对多维度特征信息进行特征筛选处理；

特征筛选后的训练样本进行标注后输入多个违约率预测模型进行训练；

对训练完成的多个违约率预测模型进行性能判断，筛选性能满足预设条件的违约率预测模型；

对满足预设条件的违约率预测模型个数进行判断，当个数大于等于第一预设值时，采用预设融合算法对违约率预测模型输出的预测结果进行融合，当个数小于第一预设值时，直接输出违约率预测模型的预测结果；

基于大数据技术获取待预测的借款人的多维度特征信息，所述多维度特征信息为特征筛选后的特征数据；

特征筛选后的多维度特征信息输入训练完成的满足预设条件的违约率预测模型进行违约率预测，并且当模型个数大于等于第一预设值时，采用融合算法对违约率预测模型输出的预测结果进行融合，当个数小于第一预设值时，直接输出违约率预测模型的预测结果。

作为上述方案的进一步优化，所述训练样本数据，包括采集数据发生时间段内的逾期还款的借款信息和正常还清的借款信息，每个样本中包括借款金额、年利率、借款期限、借款人的信用等级、信用额度、年龄、学历以及收入，工作时间、公司规模、公司行业、所在省份，借款人历史借款中逾期的次数和总金额。

作为上述方案的进一步优化，所述进行特征筛选，包括基于皮尔森相关性系数对连续类型特征筛选和基于斯皮尔曼相关性系数对非连续特征筛选，当两个特征相关性系数绝对值大于第二预设值时保留其中一个。

作为上述方案的进一步优化，所述采用皮尔森相关性系数检测的过程为：

将原始训练样本数据组成n行m列矩阵，每一行表示一个借款人的多维度特征信息，每一列表示一个维度特征信息；

对于n行m列矩阵中采用皮尔森相关性系数检测相关性的特征数据，取任意两列数据得到列向量X和Y，其中，X^T＝(x₁,x₂,...,x_n)，Y^T＝(y₁,y₂,...,y_n)；

计算列向量X和Y的相关性系数ρ：

其中，

当列向量X和Y的相关性系数大于第二预设值时，剔除列向量X和Y中的一个；

对于n行m列矩阵中采用斯皮尔曼相关性系数检测相关性的特征数据，每列数据用等级数字表示；

对任意两个等级数字列向量R和S，其中，R^T＝(r₁,r₂,...,r_n)，S^T＝(s₁,s₂,...,s_n)；

计算列向量R和S的相关性系数ρ：

其中，

当列向量R和S的相关性系数大于第二预设值时，剔除列向量R和S中的一个。

作为上述方案的进一步优化，所述特征筛选后的训练样本进行标注后输入多个违约率预测模型进行训练，其中的违约率预测模型至少包括决策树模型、朴素贝叶斯分类模型、逻辑回归、支持向量机、深度神经网络。

作为上述方案的进一步优化，对训练完成的多个违约率预测模型进行性能判断，筛选性能满足预设条件的违约率预测模型，具体的，预设条件为模型训练时长小于第三预设值时模型预测准确率大于第四预设值，或者模型预测准确率大于第五预设值时模型训练时长小于第六预设值，其中，第三预设值小于第六预设值，第四预设值小于第五预设值。

作为上述方案的进一步优化，所述采用融合算法对违约率预测模型输出的预测结果进行融合，融合算法采用模糊积分法，具体为：

(71)模糊积分值μ_j采用如下公式计算：

其中，G_j(t)为模糊测度，h_tj表示第t个分类器输出类别为j的输出值，j＝1表示违约类别，j＝0表示不违约类别，在μ_j＝1和μ_j＝0中选取最大值，将所述最大值所对应的类别作为模糊融合处理后的输出结果，计算模糊测度G_j(t)的步骤为：

(72)获取模糊密度g_tj，g_tj表示第t个分类器输出类别为j的准确率；

(73)根据公式

由模糊密度g_tj计算处λ值；

(74)待预测的借款人数据对各个分类器的输出值h_tj|_j＝1,0＝(h_1j,h_2j,...,h_mj)，按照从大到小排序，同时模糊密度g_tj也按照从大到小排序；

(75)计算模糊测度G_j(t)，

基于一种互联网金融平台违约率的预测方法本发明还提供了一种互联网金融平台违约率的预测系统，包括：

训练样本获取模块，用于基于目标互联网金融平台获取训练样本数据；

特征筛选模块，用于将训练样本数据进行预处理后，对多维度特征信息进行特征筛选处理；

多模型训练模块，用于将特征筛选后的训练样本进行标注后输入多个违约率预测模型进行训练；

模型筛选模块，对训练完成的多个违约率预测模型进行性能判断，筛选性能满足预设条件的违约率预测模型；

融合算法选择模块，用于对满足预设条件的违约率预测模型个数进行判断，当个数大于等于第一预设值时，采用预设融合算法对违约率预测模型输出的预测结果进行融合，当个数小于第一预设值时，直接输出违约率预测模型的预测结果；

待预测的借款人数据获取模块，基于大数据技术获取待预测的借款人的多维度特征信息，所述多维度特征信息为特征筛选后的特征数据；

待预测的借款人违约率预测模块，用于特征筛选后的多维度特征信息输入训练完成的满足预设条件的违约率预测模型进行违约率预测，并且当模型个数大于等于第一预设值时，采用预设融合算法对违约率预测模型输出的预测结果进行融合，当个数小于第一预设值时，直接输出违约率预测模型的预测结果。

作为上述方案的进一步优化，所述特征筛选模块，包括基于皮尔森相关性系数对连续类型特征筛选和基于斯皮尔曼相关性系数对非连续特征筛选，当两个特征相关性系数绝对值大于第二预设值时保留其中一个。

作为上述方案的进一步优化，所述模型筛选模块，预设条件为模型训练时长小于第三预设值时模型预测准确率大于第四预设值，或者模型预测准确率大于第五预设值时模型训练时长小于第六预设值，其中，第三预设值小于第六预设值，第四预设值小于第五预设值。

本发明的一种互联网金融平台违约率的预测方法，具备如下有益效果：

1.本发明的一种互联网金融平台违约率的预测方法，对于采集的多维度特征数据进行特征筛选，通过采用皮尔森相关系数法和斯皮尔曼相关系数法对所有影响因素进行相关性分析，剔除彼此相关性较强的影响因素，避免多重共线性，提高模型预测准确率。

2.本发明的一种互联网金融平台违约率的预测方法，对于特征筛选后的特征数据建立多个分类预测模型进行预测，并通过设置预设条件，筛选训练时间短且准确率高的模型，以选择最适合的分类模型进行待预测的借款人违约率预测。

3.本发明的一种互联网金融平台违约率的预测方法，对于多分类预测模型进行筛选后，基于满足预设条件的分类预测模型个数，选择是否进行融合算法过程，对于分类预测模型个数小于第一预设值时，直接输出违约率预测模型的预测结果，而不用进行融合算法过程，简化互联网金融平台违约率的预测过程。

附图说明

图1为本发明一种互联网金融平台违约率的预测方法的整体流程框图；

图2为本发明一种互联网金融平台违约率的预测方法的特征筛选处理流程框图；

图3为本发明一种互联网金融平台违约率的预测方法中，对于多个训练完成的预测模型进行性能判断的流程框图；

图4为本发明一种互联网金融平台违约率的预测系统的结构框图。

具体实施方式

下面结合具体实施方式和附图对本发明的技术方案进一步说明。

针对现有技术中通过互联网平台和大数据技术采集借款人相关数据，建模对违约率进行预测过程中，模型中存在彼此间相关性较强的变量，会导致模型出现多重共线性，从而使得模型无法得出正确的结论的问题，以及采用分类模型对违约率进行预测时，通常时预先设定所用模型以及模型中采用的方法，并不具备多模型性能比较功能的问题，本发明提供了一种互联网金融平台违约率的预测方法，具体包括：

基于目标互联网金融平台获取训练样本数据，包括采集数据发生时间段内的逾期还款的借款信息和正常还清的借款信息，分别作为违约样本和不违约样本，每个样本中包括借款金额、年利率、借款期限、借款人的信用等级、信用额度、年龄、学历以及收入，工作时间、公司规模、公司行业、所在省份，借款人历史借款中逾期的次数和总金额。

将训练样本数据进行预处理后如特征字段抽取和编码量化后，对多维度特征信息进行特征筛选处理，本实施例中进行特征筛选的方法，包括基于皮尔森相关性系数对连续类型特征筛选和基于斯皮尔曼相关性系数对非连续特征筛选，具体的，对借款金额、年利率、借款期限、借款人信用等级、信用额度、收入、借款人历史借款中逾期的次数和总金额等连续类型特征数据采用皮尔森相关性系数检测两两之间的相关性，对年龄、学历、工作时间、公司规模、公司行业、所在省份等非连续特征采用斯皮尔曼相关性系数检测两两之间的相关性，当两个特征相关性系数绝对值大于第二预设值时保留其中一个，本实施例中第二预设值采用0.7；再次基础上，采用皮尔森相关性系数检测的过程为：

将原始训练样本数据组成n行m列矩阵，每一行表示一个借款人的多维度特征信息，每一列表示不同借款人同一个维度特征信息；

计算列向量X和Y的相关性系数ρ：

其中，

当列向量X和Y的相关性系数大于0.7时，剔除列向量X和Y中的一个；

计算列向量R和S的相关性系数ρ：

其中，

当列向量R和S的相关性系数大于0.7时，剔除列向量R和S中的一个。

本实施例中，采用皮尔森相关性系数检测时，获取到相关性系数大于0.7的特征包括：借款人信用等级和信用额度，借款人历史借款中逾期的次数和总金额特征数据，所以选择将借款人信用等级和借款人历史借款中逾期的总金额剔除，采用斯皮尔曼相关性系数检测时，获取到相关性系数大于0.7的特征为：工作时间和年龄，所以选择将年龄特征数据剔除。

特征筛选后的特征还剩下借款金额、年利率、借款期限、信用额度、收入、借款人历史借款中逾期的次数共6个连续类型特征数据，学历、工作时间、公司规模、公司行业、所在省份共5个非连续特征。

特征筛选后的训练样本进行违约和不违约标注后输入多个违约率预测模型进行训练，其中的违约率预测模型至少包括决策树模型、朴素贝叶斯分类模型、逻辑回归、支持向量机、深度神经网络；

对训练完成的多个违约率预测模型进行性能判断，筛选性能满足预设条件的违约率预测模型，具体的，预设条件为模型训练时长小于第三预设值时模型预测准确率大于第四预设值，或者模型预测准确率大于第五预设值时模型训练时长小于第六预设值，其中，第三预设值小于第六预设值，第四预设值小于第五预设值；具体来说判断流程为，判断模型训练时长是否小于第三预设值，若小于则对准确率是否大于第四预设值进行判断，否则对模型预测准确率是否大于第五预设值进行判断，对准确率是否大于第四预设值进行判断的时候，若准确率大于第四预设值，则保存模型，若准确率小于等于第四预设值，则舍弃该模型，对模型预测准确率是否大于第五预设值进行判断的时候，若准确率小于等于第五预设值，则舍弃该模型，若准确率大于等于第五预设值，则对模型训练时长是否小于第六预设值进行判断，若模型训练时长大于等于第六预设值，则舍弃该模型，若模型训练时长小于第六预设值，则保存该模型。

考虑到神经网络相对于其它模型的训练时间一般较长，但是训练结果准确率较高，综合考虑预测准确率和预测时间，本实施例中设置了两个用于性能判断的预设条件，保证选择的模型中既包含预测准确率较高但模型训练时长稍长的，也包含模型训练时长较短但是预测准确率稍差一点的，充分利用多个分类器之间的差异，以便于融合尽可能多的模型信息，将各个分类器模型的优缺点进行充分互补，提高分类性能和系统泛化能力。

对对满足预设条件的违约率预测模型进行保存存储，对不满足预设条件的违约率预测模型进行舍弃，并对满足预设条件的违约率预测模型个数进行判断，当个数大于等于第一预设值时，采用预设融合算法对违约率预测模型输出的预测结果进行融合，当个数小于第一预设值时，直接输出违约率预测模型的预测结果；本实施例中，第一预设值设为2，即当满足预设条件的违约率预测模型有两个或两个以上时，对多个分类模型的输出结果进行融合。

常见的融合方法包括多数投票法、加权平均法、神经网络、stacking以及波达计数法等方法，考虑到在stacking等集成策略方法中，要求每个基分类器应该尽可能相互独立，因为如果每个基分类器分类结果差不多，则集成后的分类器整体和单个分类器做出的决策实际上没有什么差异，另外本实施例中的多个违约率预测模型进行训练过程中已经进行了深度神经网络的训练过程，为了减少整个模型的训练时间，在对于多个分类器融合时不采用神经网络方法，融合算法采用了模糊积分法，具体为：

(71)模糊积分值μ_j采用如下公式计算：

(73)根据公式

由模糊密度g_tj计算处λ值；

(75)计算模糊测度G_j(t)，

基于上述步骤后，对待预测的借款人进行违约率预测，先基于大数据技术获取待预测的借款人的多维度特征信息，这里的多维度特征信息为特征筛选后的特征数据；

特征筛选模块，用于将训练样本数据进行预处理后，对多维度特征信息进行特征筛选处理，包括基于皮尔森相关性系数对连续类型特征筛选和基于斯皮尔曼相关性系数对非连续特征筛选，当两个特征相关性系数绝对值大于第二预设值时保留其中一个。

多模型训练模块，用于将特征筛选后的训练样本进行标注后输入多个违约率预测模型进行训练；特征筛选后的训练样本进行违约和不违约标注后输入多个违约率预测模型进行训练，其中的违约率预测模型至少包括决策树模型、朴素贝叶斯分类模型、逻辑回归、支持向量机、深度神经网络；

模型筛选模块，对训练完成的多个违约率预测模型进行性能判断，筛选性能满足预设条件的违约率预测模型，具体的，预设条件为模型训练时长小于第三预设值时模型预测准确率大于第四预设值，或者模型预测准确率大于第五预设值时模型训练时长小于第六预设值，其中，第三预设值小于第六预设值，第四预设值小于第五预设值；综合考虑预测准确率和预测时间，本实施例中设置了两个用于性能判断的预设条件，保证选择的模型中既包含预测准确率较高但模型训练时长稍长的，也包含模型训练时长较短但是预测准确率稍差一点的，充分利用多个分类器之间的差异，以便于融合尽可能多的模型信息，将各个分类器模型的优缺点进行充分互补，提高分类性能和系统泛化能力。

本发明不局限于上述具体的实施方式，本领域的普通技术人员从上述构思出发，不经过创造性的劳动，所做出的种种变换，均落在本发明的保护范围之内。

Claims

1.一种互联网金融平台违约率的预测方法，其特征在于：包括：

基于目标互联网金融平台获取训练样本数据；

2.根据权利要求1所述的一种互联网金融平台违约率的预测方法，其特征在于：所述训练样本数据，包括采集数据发生时间段内的逾期还款的借款信息和正常还清的借款信息，每个样本中包括借款金额、年利率、借款期限、借款人的信用等级、信用额度、年龄、学历以及收入，工作时间、公司规模、公司行业、所在省份，借款人历史借款中逾期的次数和总金额。

3.根据权利要求2所述的一种互联网金融平台违约率的预测方法，其特征在于：所述进行特征筛选，包括基于皮尔森相关性系数对连续类型特征筛选和基于斯皮尔曼相关性系数对非连续特征筛选，当两个特征相关性系数绝对值大于第二预设值时保留其中一个。

4.根据权利要求3所述的一种互联网金融平台违约率的预测方法，其特征在于：所述采用皮尔森相关性系数检测的过程为：

计算列向量X和Y的相关性系数ρ：

其中，

计算列向量R和S的相关性系数ρ：

其中，

5.根据权利要求1所述的一种互联网金融平台违约率的预测方法，其特征在于：所述特征筛选后的训练样本进行标注后输入多个违约率预测模型进行训练，其中的违约率预测模型至少包括决策树模型、朴素贝叶斯分类模型、逻辑回归、支持向量机、深度神经网络。

6.根据权利要求5所述的一种互联网金融平台违约率的预测方法，其特征在于：对训练完成的多个违约率预测模型进行性能判断，筛选性能满足预设条件的违约率预测模型，具体的，预设条件为模型训练时长小于第三预设值时模型预测准确率大于第四预设值，或者模型预测准确率大于第五预设值时模型训练时长小于第六预设值，其中，第三预设值小于第六预设值，第四预设值小于第五预设值。

7.根据权利要求1所述的一种互联网金融平台违约率的预测方法，其特征在于：所述采用融合算法对违约率预测模型输出的预测结果进行融合，融合算法采用模糊积分法，具体为：

(71)模糊积分值μ_j采用如下公式计算：

(73)根据公式

由模糊密度g_tj计算处λ值；

(75)计算模糊测度G_j(t)，

8.一种互联网金融平台违约率的预测系统，其特征在于：包括：

9.根据权利要求8所述的一种互联网金融平台违约率的预测系统，其特征在于：所述特征筛选模块，包括基于皮尔森相关性系数对连续类型特征筛选和基于斯皮尔曼相关性系数对非连续特征筛选，当两个特征相关性系数绝对值大于第二预设值时保留其中一个。

10.根据权利要求8所述的一种互联网金融平台违约率的预测系统，其特征在于：所述模型筛选模块，预设条件为模型训练时长小于第三预设值时模型预测准确率大于第四预设值，或者模型预测准确率大于第五预设值时模型训练时长小于第六预设值，其中，第三预设值小于第六预设值，第四预设值小于第五预设值。