CN111652430A - 一种互联网金融平台违约率的预测方法及系统 - Google Patents

一种互联网金融平台违约率的预测方法及系统 Download PDF

Info

Publication number
CN111652430A
CN111652430A CN202010477143.7A CN202010477143A CN111652430A CN 111652430 A CN111652430 A CN 111652430A CN 202010477143 A CN202010477143 A CN 202010477143A CN 111652430 A CN111652430 A CN 111652430A
Authority
CN
China
Prior art keywords
default rate
preset value
rate prediction
model
screening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010477143.7A
Other languages
English (en)
Inventor
孙西超
吴骏
朱凤鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bengbu College
Original Assignee
Bengbu College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bengbu College filed Critical Bengbu College
Priority to CN202010477143.7A priority Critical patent/CN111652430A/zh
Publication of CN111652430A publication Critical patent/CN111652430A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes

Abstract

本发明公开了一种互联网金融平台违约率的预测方法,包括:获取训练样本数据;对多维度特征信息进行特征筛选处理;训练样本进行标注后输入多个违约率预测模型进行训练;对训练完成的多个违约率预测模型进行性能判断,筛选性能满足预设条件的违约率预测模型;对满足预设条件的违约率预测模型个数进行判断,从而选择是否进行采用融合算法;获取待预测的借款人的多维度特征信息,输入训练完成的满足预设条件的违约率预测模型进行违约率预测,本发明通过采用皮尔森相关系数法和斯皮尔曼相关系数法对所有影响因素进行相关性分析,剔除彼此相关性较强的影响因素,避免多重共线性,提高模型预测准确率。

Description

一种互联网金融平台违约率的预测方法及系统
技术领域
本发明涉及数据挖掘处理技术领域,具体涉及一种互联网金融平台违约率的预测方法及系统。
背景技术
伴随着互联网技术的不断发展,传统的民间资本交易、中小企业融资和个人借贷等线下业务在互联网金融平台上不断发展壮大。在具有金融中介性质的互联网金融平台中,如何通过网络及数据分析实现对用户的违约率预测,是目前广大互联网金融机构关注的核心技术难题,也是当今的一个研究热点。根据网络小额借贷的特点以及其与传统征信系统的不同点去建立合适的违约风险评价系统,是减少不良交易、促进平台发展的重要途径。
现有技术中通过互联网平台和大数据技术采集借款人相关数据,进行建模,对违约率进行预测,但是模型中存在彼此间相关性较强的变量,则可能会导致模型出现多重共线性,从而使得模型无法得出正确的结论,且变量间不存在多重共线性也是使用部分模型的必要前提,而且过多的相关性较强变量数据也增加了建模过程的复杂度。
现有技术中采用分类模型对违约率进行预测时,通常时预先设定所用模型以及模型中采用的方法,并不具备多模型性能比较功能从而进行筛选性能最好的模型进行数据分析过程和数据预测过程。
发明内容
针对上述现有技术存在的问题,本发明提供了一种互联网金融平台违约率的预测方法,采用皮尔森相关系数法和斯皮尔曼相关系数法对所有影响因素进行相关性分析,剔除彼此相关性较强的影响因素,避免多重共线性,采用多模型训练并筛选满足预设条件的模型进行待预测的借款人违约率预测,具体包括:
基于目标互联网金融平台获取训练样本数据;
将训练样本数据进行预处理后,对多维度特征信息进行特征筛选处理;
特征筛选后的训练样本进行标注后输入多个违约率预测模型进行训练;
对训练完成的多个违约率预测模型进行性能判断,筛选性能满足预设条件的违约率预测模型;
对满足预设条件的违约率预测模型个数进行判断,当个数大于等于第一预设值时,采用预设融合算法对违约率预测模型输出的预测结果进行融合,当个数小于第一预设值时,直接输出违约率预测模型的预测结果;
基于大数据技术获取待预测的借款人的多维度特征信息,所述多维度特征信息为特征筛选后的特征数据;
特征筛选后的多维度特征信息输入训练完成的满足预设条件的违约率预测模型进行违约率预测,并且当模型个数大于等于第一预设值时,采用融合算法对违约率预测模型输出的预测结果进行融合,当个数小于第一预设值时,直接输出违约率预测模型的预测结果。
作为上述方案的进一步优化,所述训练样本数据,包括采集数据发生时间段内的逾期还款的借款信息和正常还清的借款信息,每个样本中包括借款金额、年利率、借款期限、借款人的信用等级、信用额度、年龄、学历以及收入,工作时间、公司规模、公司行业、所在省份,借款人历史借款中逾期的次数和总金额。
作为上述方案的进一步优化,所述进行特征筛选,包括基于皮尔森相关性系数对连续类型特征筛选和基于斯皮尔曼相关性系数对非连续特征筛选,当两个特征相关性系数绝对值大于第二预设值时保留其中一个。
作为上述方案的进一步优化,所述采用皮尔森相关性系数检测的过程为:
将原始训练样本数据组成n行m列矩阵,每一行表示一个借款人的多维度特征信息,每一列表示一个维度特征信息;
对于n行m列矩阵中采用皮尔森相关性系数检测相关性的特征数据,取任意两列数据得到列向量X和Y,其中,XT=(x1,x2,...,xn),YT=(y1,y2,...,yn);
计算列向量X和Y的相关性系数ρ:
Figure BDA0002516179230000021
其中,
Figure BDA0002516179230000022
当列向量X和Y的相关性系数大于第二预设值时,剔除列向量X和Y中的一个;
对于n行m列矩阵中采用斯皮尔曼相关性系数检测相关性的特征数据,每列数据用等级数字表示;
对任意两个等级数字列向量R和S,其中,RT=(r1,r2,...,rn),ST=(s1,s2,...,sn);
计算列向量R和S的相关性系数ρ:
Figure BDA0002516179230000031
其中,
Figure BDA0002516179230000032
当列向量R和S的相关性系数大于第二预设值时,剔除列向量R和S中的一个。
作为上述方案的进一步优化,所述特征筛选后的训练样本进行标注后输入多个违约率预测模型进行训练,其中的违约率预测模型至少包括决策树模型、朴素贝叶斯分类模型、逻辑回归、支持向量机、深度神经网络。
作为上述方案的进一步优化,对训练完成的多个违约率预测模型进行性能判断,筛选性能满足预设条件的违约率预测模型,具体的,预设条件为模型训练时长小于第三预设值时模型预测准确率大于第四预设值,或者模型预测准确率大于第五预设值时模型训练时长小于第六预设值,其中,第三预设值小于第六预设值,第四预设值小于第五预设值。
作为上述方案的进一步优化,所述采用融合算法对违约率预测模型输出的预测结果进行融合,融合算法采用模糊积分法,具体为:
(71)模糊积分值μj采用如下公式计算:
Figure BDA0002516179230000033
其中,Gj(t)为模糊测度,htj表示第t个分类器输出类别为j的输出值,j=1表示违约类别,j=0表示不违约类别,在μj=1和μj=0中选取最大值,将所述最大值所对应的类别作为模糊融合处理后的输出结果,计算模糊测度Gj(t)的步骤为:
(72)获取模糊密度gtj,gtj表示第t个分类器输出类别为j的准确率;
(73)根据公式
Figure BDA0002516179230000034
由模糊密度gtj计算处λ值;
(74)待预测的借款人数据对各个分类器的输出值htj|j=1,0=(h1j,h2j,...,hmj),按照从大到小排序,同时模糊密度gtj也按照从大到小排序;
(75)计算模糊测度Gj(t),
Figure BDA0002516179230000041
基于一种互联网金融平台违约率的预测方法本发明还提供了一种互联网金融平台违约率的预测系统,包括:
训练样本获取模块,用于基于目标互联网金融平台获取训练样本数据;
特征筛选模块,用于将训练样本数据进行预处理后,对多维度特征信息进行特征筛选处理;
多模型训练模块,用于将特征筛选后的训练样本进行标注后输入多个违约率预测模型进行训练;
模型筛选模块,对训练完成的多个违约率预测模型进行性能判断,筛选性能满足预设条件的违约率预测模型;
融合算法选择模块,用于对满足预设条件的违约率预测模型个数进行判断,当个数大于等于第一预设值时,采用预设融合算法对违约率预测模型输出的预测结果进行融合,当个数小于第一预设值时,直接输出违约率预测模型的预测结果;
待预测的借款人数据获取模块,基于大数据技术获取待预测的借款人的多维度特征信息,所述多维度特征信息为特征筛选后的特征数据;
待预测的借款人违约率预测模块,用于特征筛选后的多维度特征信息输入训练完成的满足预设条件的违约率预测模型进行违约率预测,并且当模型个数大于等于第一预设值时,采用预设融合算法对违约率预测模型输出的预测结果进行融合,当个数小于第一预设值时,直接输出违约率预测模型的预测结果。
作为上述方案的进一步优化,所述特征筛选模块,包括基于皮尔森相关性系数对连续类型特征筛选和基于斯皮尔曼相关性系数对非连续特征筛选,当两个特征相关性系数绝对值大于第二预设值时保留其中一个。
作为上述方案的进一步优化,所述模型筛选模块,预设条件为模型训练时长小于第三预设值时模型预测准确率大于第四预设值,或者模型预测准确率大于第五预设值时模型训练时长小于第六预设值,其中,第三预设值小于第六预设值,第四预设值小于第五预设值。
本发明的一种互联网金融平台违约率的预测方法,具备如下有益效果:
1.本发明的一种互联网金融平台违约率的预测方法,对于采集的多维度特征数据进行特征筛选,通过采用皮尔森相关系数法和斯皮尔曼相关系数法对所有影响因素进行相关性分析,剔除彼此相关性较强的影响因素,避免多重共线性,提高模型预测准确率。
2.本发明的一种互联网金融平台违约率的预测方法,对于特征筛选后的特征数据建立多个分类预测模型进行预测,并通过设置预设条件,筛选训练时间短且准确率高的模型,以选择最适合的分类模型进行待预测的借款人违约率预测。
3.本发明的一种互联网金融平台违约率的预测方法,对于多分类预测模型进行筛选后,基于满足预设条件的分类预测模型个数,选择是否进行融合算法过程,对于分类预测模型个数小于第一预设值时,直接输出违约率预测模型的预测结果,而不用进行融合算法过程,简化互联网金融平台违约率的预测过程。
附图说明
图1为本发明一种互联网金融平台违约率的预测方法的整体流程框图;
图2为本发明一种互联网金融平台违约率的预测方法的特征筛选处理流程框图;
图3为本发明一种互联网金融平台违约率的预测方法中,对于多个训练完成的预测模型进行性能判断的流程框图;
图4为本发明一种互联网金融平台违约率的预测系统的结构框图。
具体实施方式
下面结合具体实施方式和附图对本发明的技术方案进一步说明。
针对现有技术中通过互联网平台和大数据技术采集借款人相关数据,建模对违约率进行预测过程中,模型中存在彼此间相关性较强的变量,会导致模型出现多重共线性,从而使得模型无法得出正确的结论的问题,以及采用分类模型对违约率进行预测时,通常时预先设定所用模型以及模型中采用的方法,并不具备多模型性能比较功能的问题,本发明提供了一种互联网金融平台违约率的预测方法,具体包括:
基于目标互联网金融平台获取训练样本数据,包括采集数据发生时间段内的逾期还款的借款信息和正常还清的借款信息,分别作为违约样本和不违约样本,每个样本中包括借款金额、年利率、借款期限、借款人的信用等级、信用额度、年龄、学历以及收入,工作时间、公司规模、公司行业、所在省份,借款人历史借款中逾期的次数和总金额。
将训练样本数据进行预处理后如特征字段抽取和编码量化后,对多维度特征信息进行特征筛选处理,本实施例中进行特征筛选的方法,包括基于皮尔森相关性系数对连续类型特征筛选和基于斯皮尔曼相关性系数对非连续特征筛选,具体的,对借款金额、年利率、借款期限、借款人信用等级、信用额度、收入、借款人历史借款中逾期的次数和总金额等连续类型特征数据采用皮尔森相关性系数检测两两之间的相关性,对年龄、学历、工作时间、公司规模、公司行业、所在省份等非连续特征采用斯皮尔曼相关性系数检测两两之间的相关性,当两个特征相关性系数绝对值大于第二预设值时保留其中一个,本实施例中第二预设值采用0.7;再次基础上,采用皮尔森相关性系数检测的过程为:
将原始训练样本数据组成n行m列矩阵,每一行表示一个借款人的多维度特征信息,每一列表示不同借款人同一个维度特征信息;
对于n行m列矩阵中采用皮尔森相关性系数检测相关性的特征数据,取任意两列数据得到列向量X和Y,其中,XT=(x1,x2,...,xn),YT=(y1,y2,...,yn);
计算列向量X和Y的相关性系数ρ:
Figure BDA0002516179230000061
其中,
Figure BDA0002516179230000062
当列向量X和Y的相关性系数大于0.7时,剔除列向量X和Y中的一个;
对于n行m列矩阵中采用斯皮尔曼相关性系数检测相关性的特征数据,每列数据用等级数字表示;
对任意两个等级数字列向量R和S,其中,RT=(r1,r2,...,rn),ST=(s1,s2,...,sn);
计算列向量R和S的相关性系数ρ:
Figure BDA0002516179230000071
其中,
Figure BDA0002516179230000072
当列向量R和S的相关性系数大于0.7时,剔除列向量R和S中的一个。
本实施例中,采用皮尔森相关性系数检测时,获取到相关性系数大于0.7的特征包括:借款人信用等级和信用额度,借款人历史借款中逾期的次数和总金额特征数据,所以选择将借款人信用等级和借款人历史借款中逾期的总金额剔除,采用斯皮尔曼相关性系数检测时,获取到相关性系数大于0.7的特征为:工作时间和年龄,所以选择将年龄特征数据剔除。
特征筛选后的特征还剩下借款金额、年利率、借款期限、信用额度、收入、借款人历史借款中逾期的次数共6个连续类型特征数据,学历、工作时间、公司规模、公司行业、所在省份共5个非连续特征。
特征筛选后的训练样本进行违约和不违约标注后输入多个违约率预测模型进行训练,其中的违约率预测模型至少包括决策树模型、朴素贝叶斯分类模型、逻辑回归、支持向量机、深度神经网络;
对训练完成的多个违约率预测模型进行性能判断,筛选性能满足预设条件的违约率预测模型,具体的,预设条件为模型训练时长小于第三预设值时模型预测准确率大于第四预设值,或者模型预测准确率大于第五预设值时模型训练时长小于第六预设值,其中,第三预设值小于第六预设值,第四预设值小于第五预设值;具体来说判断流程为,判断模型训练时长是否小于第三预设值,若小于则对准确率是否大于第四预设值进行判断,否则对模型预测准确率是否大于第五预设值进行判断,对准确率是否大于第四预设值进行判断的时候,若准确率大于第四预设值,则保存模型,若准确率小于等于第四预设值,则舍弃该模型,对模型预测准确率是否大于第五预设值进行判断的时候,若准确率小于等于第五预设值,则舍弃该模型,若准确率大于等于第五预设值,则对模型训练时长是否小于第六预设值进行判断,若模型训练时长大于等于第六预设值,则舍弃该模型,若模型训练时长小于第六预设值,则保存该模型。
考虑到神经网络相对于其它模型的训练时间一般较长,但是训练结果准确率较高,综合考虑预测准确率和预测时间,本实施例中设置了两个用于性能判断的预设条件,保证选择的模型中既包含预测准确率较高但模型训练时长稍长的,也包含模型训练时长较短但是预测准确率稍差一点的,充分利用多个分类器之间的差异,以便于融合尽可能多的模型信息,将各个分类器模型的优缺点进行充分互补,提高分类性能和系统泛化能力。
对对满足预设条件的违约率预测模型进行保存存储,对不满足预设条件的违约率预测模型进行舍弃,并对满足预设条件的违约率预测模型个数进行判断,当个数大于等于第一预设值时,采用预设融合算法对违约率预测模型输出的预测结果进行融合,当个数小于第一预设值时,直接输出违约率预测模型的预测结果;本实施例中,第一预设值设为2,即当满足预设条件的违约率预测模型有两个或两个以上时,对多个分类模型的输出结果进行融合。
常见的融合方法包括多数投票法、加权平均法、神经网络、stacking以及波达计数法等方法,考虑到在stacking等集成策略方法中,要求每个基分类器应该尽可能相互独立,因为如果每个基分类器分类结果差不多,则集成后的分类器整体和单个分类器做出的决策实际上没有什么差异,另外本实施例中的多个违约率预测模型进行训练过程中已经进行了深度神经网络的训练过程,为了减少整个模型的训练时间,在对于多个分类器融合时不采用神经网络方法,融合算法采用了模糊积分法,具体为:
(71)模糊积分值μj采用如下公式计算:
Figure BDA0002516179230000081
其中,Gj(t)为模糊测度,htj表示第t个分类器输出类别为j的输出值,j=1表示违约类别,j=0表示不违约类别,在μj=1和μj=0中选取最大值,将所述最大值所对应的类别作为模糊融合处理后的输出结果,计算模糊测度Gj(t)的步骤为:
(72)获取模糊密度gtj,gtj表示第t个分类器输出类别为j的准确率;
(73)根据公式
Figure BDA0002516179230000082
由模糊密度gtj计算处λ值;
(74)待预测的借款人数据对各个分类器的输出值htj|j=1,0=(h1j,h2j,...,hmj),按照从大到小排序,同时模糊密度gtj也按照从大到小排序;
(75)计算模糊测度Gj(t),
Figure BDA0002516179230000091
基于上述步骤后,对待预测的借款人进行违约率预测,先基于大数据技术获取待预测的借款人的多维度特征信息,这里的多维度特征信息为特征筛选后的特征数据;
特征筛选后的多维度特征信息输入训练完成的满足预设条件的违约率预测模型进行违约率预测,并且当模型个数大于等于第一预设值时,采用融合算法对违约率预测模型输出的预测结果进行融合,当个数小于第一预设值时,直接输出违约率预测模型的预测结果。
基于一种互联网金融平台违约率的预测方法本发明还提供了一种互联网金融平台违约率的预测系统,包括:
训练样本获取模块,用于基于目标互联网金融平台获取训练样本数据;
特征筛选模块,用于将训练样本数据进行预处理后,对多维度特征信息进行特征筛选处理,包括基于皮尔森相关性系数对连续类型特征筛选和基于斯皮尔曼相关性系数对非连续特征筛选,当两个特征相关性系数绝对值大于第二预设值时保留其中一个。
多模型训练模块,用于将特征筛选后的训练样本进行标注后输入多个违约率预测模型进行训练;特征筛选后的训练样本进行违约和不违约标注后输入多个违约率预测模型进行训练,其中的违约率预测模型至少包括决策树模型、朴素贝叶斯分类模型、逻辑回归、支持向量机、深度神经网络;
模型筛选模块,对训练完成的多个违约率预测模型进行性能判断,筛选性能满足预设条件的违约率预测模型,具体的,预设条件为模型训练时长小于第三预设值时模型预测准确率大于第四预设值,或者模型预测准确率大于第五预设值时模型训练时长小于第六预设值,其中,第三预设值小于第六预设值,第四预设值小于第五预设值;综合考虑预测准确率和预测时间,本实施例中设置了两个用于性能判断的预设条件,保证选择的模型中既包含预测准确率较高但模型训练时长稍长的,也包含模型训练时长较短但是预测准确率稍差一点的,充分利用多个分类器之间的差异,以便于融合尽可能多的模型信息,将各个分类器模型的优缺点进行充分互补,提高分类性能和系统泛化能力。
融合算法选择模块,用于对满足预设条件的违约率预测模型个数进行判断,当个数大于等于第一预设值时,采用预设融合算法对违约率预测模型输出的预测结果进行融合,当个数小于第一预设值时,直接输出违约率预测模型的预测结果;
待预测的借款人数据获取模块,基于大数据技术获取待预测的借款人的多维度特征信息,所述多维度特征信息为特征筛选后的特征数据;
待预测的借款人违约率预测模块,用于特征筛选后的多维度特征信息输入训练完成的满足预设条件的违约率预测模型进行违约率预测,并且当模型个数大于等于第一预设值时,采用预设融合算法对违约率预测模型输出的预测结果进行融合,当个数小于第一预设值时,直接输出违约率预测模型的预测结果。
本发明不局限于上述具体的实施方式,本领域的普通技术人员从上述构思出发,不经过创造性的劳动,所做出的种种变换,均落在本发明的保护范围之内。

Claims (10)

1.一种互联网金融平台违约率的预测方法,其特征在于:包括:
基于目标互联网金融平台获取训练样本数据;
将训练样本数据进行预处理后,对多维度特征信息进行特征筛选处理;
特征筛选后的训练样本进行标注后输入多个违约率预测模型进行训练;
对训练完成的多个违约率预测模型进行性能判断,筛选性能满足预设条件的违约率预测模型;
对满足预设条件的违约率预测模型个数进行判断,当个数大于等于第一预设值时,采用预设融合算法对违约率预测模型输出的预测结果进行融合,当个数小于第一预设值时,直接输出违约率预测模型的预测结果;
基于大数据技术获取待预测的借款人的多维度特征信息,所述多维度特征信息为特征筛选后的特征数据;
特征筛选后的多维度特征信息输入训练完成的满足预设条件的违约率预测模型进行违约率预测,并且当模型个数大于等于第一预设值时,采用融合算法对违约率预测模型输出的预测结果进行融合,当个数小于第一预设值时,直接输出违约率预测模型的预测结果。
2.根据权利要求1所述的一种互联网金融平台违约率的预测方法,其特征在于:所述训练样本数据,包括采集数据发生时间段内的逾期还款的借款信息和正常还清的借款信息,每个样本中包括借款金额、年利率、借款期限、借款人的信用等级、信用额度、年龄、学历以及收入,工作时间、公司规模、公司行业、所在省份,借款人历史借款中逾期的次数和总金额。
3.根据权利要求2所述的一种互联网金融平台违约率的预测方法,其特征在于:所述进行特征筛选,包括基于皮尔森相关性系数对连续类型特征筛选和基于斯皮尔曼相关性系数对非连续特征筛选,当两个特征相关性系数绝对值大于第二预设值时保留其中一个。
4.根据权利要求3所述的一种互联网金融平台违约率的预测方法,其特征在于:所述采用皮尔森相关性系数检测的过程为:
将原始训练样本数据组成n行m列矩阵,每一行表示一个借款人的多维度特征信息,每一列表示一个维度特征信息;
对于n行m列矩阵中采用皮尔森相关性系数检测相关性的特征数据,取任意两列数据得到列向量X和Y,其中,XT=(x1,x2,...,xn),YT=(y1,y2,...,yn);
计算列向量X和Y的相关性系数ρ:
Figure FDA0002516179220000021
其中,
Figure FDA0002516179220000022
当列向量X和Y的相关性系数大于第二预设值时,剔除列向量X和Y中的一个;
对于n行m列矩阵中采用斯皮尔曼相关性系数检测相关性的特征数据,每列数据用等级数字表示;
对任意两个等级数字列向量R和S,其中,RT=(r1,r2,...,rn),ST=(s1,s2,...,sn);
计算列向量R和S的相关性系数ρ:
Figure FDA0002516179220000023
其中,
Figure FDA0002516179220000024
当列向量R和S的相关性系数大于第二预设值时,剔除列向量R和S中的一个。
5.根据权利要求1所述的一种互联网金融平台违约率的预测方法,其特征在于:所述特征筛选后的训练样本进行标注后输入多个违约率预测模型进行训练,其中的违约率预测模型至少包括决策树模型、朴素贝叶斯分类模型、逻辑回归、支持向量机、深度神经网络。
6.根据权利要求5所述的一种互联网金融平台违约率的预测方法,其特征在于:对训练完成的多个违约率预测模型进行性能判断,筛选性能满足预设条件的违约率预测模型,具体的,预设条件为模型训练时长小于第三预设值时模型预测准确率大于第四预设值,或者模型预测准确率大于第五预设值时模型训练时长小于第六预设值,其中,第三预设值小于第六预设值,第四预设值小于第五预设值。
7.根据权利要求1所述的一种互联网金融平台违约率的预测方法,其特征在于:所述采用融合算法对违约率预测模型输出的预测结果进行融合,融合算法采用模糊积分法,具体为:
(71)模糊积分值μj采用如下公式计算:
Figure FDA0002516179220000031
其中,Gj(t)为模糊测度,htj表示第t个分类器输出类别为j的输出值,j=1表示违约类别,j=0表示不违约类别,在μj=1和μj=0中选取最大值,将所述最大值所对应的类别作为模糊融合处理后的输出结果,计算模糊测度Gj(t)的步骤为:
(72)获取模糊密度gtj,gtj表示第t个分类器输出类别为j的准确率;
(73)根据公式
Figure FDA0002516179220000032
由模糊密度gtj计算处λ值;
(74)待预测的借款人数据对各个分类器的输出值htj|j=1,0=(h1j,h2j,...,hmj),按照从大到小排序,同时模糊密度gtj也按照从大到小排序;
(75)计算模糊测度Gj(t),
Figure FDA0002516179220000033
8.一种互联网金融平台违约率的预测系统,其特征在于:包括:
训练样本获取模块,用于基于目标互联网金融平台获取训练样本数据;
特征筛选模块,用于将训练样本数据进行预处理后,对多维度特征信息进行特征筛选处理;
多模型训练模块,用于将特征筛选后的训练样本进行标注后输入多个违约率预测模型进行训练;
模型筛选模块,对训练完成的多个违约率预测模型进行性能判断,筛选性能满足预设条件的违约率预测模型;
融合算法选择模块,用于对满足预设条件的违约率预测模型个数进行判断,当个数大于等于第一预设值时,采用预设融合算法对违约率预测模型输出的预测结果进行融合,当个数小于第一预设值时,直接输出违约率预测模型的预测结果;
待预测的借款人数据获取模块,基于大数据技术获取待预测的借款人的多维度特征信息,所述多维度特征信息为特征筛选后的特征数据;
待预测的借款人违约率预测模块,用于特征筛选后的多维度特征信息输入训练完成的满足预设条件的违约率预测模型进行违约率预测,并且当模型个数大于等于第一预设值时,采用预设融合算法对违约率预测模型输出的预测结果进行融合,当个数小于第一预设值时,直接输出违约率预测模型的预测结果。
9.根据权利要求8所述的一种互联网金融平台违约率的预测系统,其特征在于:所述特征筛选模块,包括基于皮尔森相关性系数对连续类型特征筛选和基于斯皮尔曼相关性系数对非连续特征筛选,当两个特征相关性系数绝对值大于第二预设值时保留其中一个。
10.根据权利要求8所述的一种互联网金融平台违约率的预测系统,其特征在于:所述模型筛选模块,预设条件为模型训练时长小于第三预设值时模型预测准确率大于第四预设值,或者模型预测准确率大于第五预设值时模型训练时长小于第六预设值,其中,第三预设值小于第六预设值,第四预设值小于第五预设值。
CN202010477143.7A 2020-05-29 2020-05-29 一种互联网金融平台违约率的预测方法及系统 Pending CN111652430A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010477143.7A CN111652430A (zh) 2020-05-29 2020-05-29 一种互联网金融平台违约率的预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010477143.7A CN111652430A (zh) 2020-05-29 2020-05-29 一种互联网金融平台违约率的预测方法及系统

Publications (1)

Publication Number Publication Date
CN111652430A true CN111652430A (zh) 2020-09-11

Family

ID=72343439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010477143.7A Pending CN111652430A (zh) 2020-05-29 2020-05-29 一种互联网金融平台违约率的预测方法及系统

Country Status (1)

Country Link
CN (1) CN111652430A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308288A (zh) * 2020-09-29 2021-02-02 百维金科(上海)信息科技有限公司 一种基于粒子群优化lssvm的违约用户概率预测方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004157788A (ja) * 2002-11-06 2004-06-03 Ntt Power & Building Facilities Inc 建物性能総合評価システム及びその方法
US20140081832A1 (en) * 2012-09-18 2014-03-20 Douglas Merrill System and method for building and validating a credit scoring function
CN103810537A (zh) * 2014-02-12 2014-05-21 南京大学 一种基于水质模型的区域环境风险评估方法
CN105740892A (zh) * 2016-01-27 2016-07-06 北京工业大学 一种高准确率的基于卷积神经网络的人体多部位识别方法
WO2018090657A1 (zh) * 2016-11-18 2018-05-24 同济大学 基于BP_Adaboost模型的信用卡用户违约的预测方法及系统
CN109146549A (zh) * 2018-07-26 2019-01-04 云数信息科技(深圳)有限公司 彩票用户产品参与度预测方法、系统及设备、存储介质
CN110110981A (zh) * 2019-04-26 2019-08-09 重庆第二师范学院 一种信用评级违约概率测度与风险预警方法
US20190258564A1 (en) * 2018-02-19 2019-08-22 Harness, Inc. Service regression detection using real-time anomaly detection of application performance metrics
WO2020088007A1 (zh) * 2018-10-30 2020-05-07 阿里巴巴集团控股有限公司 确定用户金融违约风险的方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004157788A (ja) * 2002-11-06 2004-06-03 Ntt Power & Building Facilities Inc 建物性能総合評価システム及びその方法
US20140081832A1 (en) * 2012-09-18 2014-03-20 Douglas Merrill System and method for building and validating a credit scoring function
CN103810537A (zh) * 2014-02-12 2014-05-21 南京大学 一种基于水质模型的区域环境风险评估方法
CN105740892A (zh) * 2016-01-27 2016-07-06 北京工业大学 一种高准确率的基于卷积神经网络的人体多部位识别方法
WO2018090657A1 (zh) * 2016-11-18 2018-05-24 同济大学 基于BP_Adaboost模型的信用卡用户违约的预测方法及系统
US20190258564A1 (en) * 2018-02-19 2019-08-22 Harness, Inc. Service regression detection using real-time anomaly detection of application performance metrics
CN109146549A (zh) * 2018-07-26 2019-01-04 云数信息科技(深圳)有限公司 彩票用户产品参与度预测方法、系统及设备、存储介质
WO2020088007A1 (zh) * 2018-10-30 2020-05-07 阿里巴巴集团控股有限公司 确定用户金融违约风险的方法及装置
CN110110981A (zh) * 2019-04-26 2019-08-09 重庆第二师范学院 一种信用评级违约概率测度与风险预警方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘铭等: "基于改进型模糊神经网络的信用卡客户违约预测", 《模糊系统与数学》 *
孙西超: "无风险资产与证券收益率相关时通货膨胀率影响下的均值-VaR模型", 《淮北师范大学学报》 *
钟华星: "基于RUSBoost算法的违约风险预测模型构建与应用", 《财会月刊》 *
黎月: "基于贝叶斯网分类器的互联网借贷风险评估", 《北方经贸》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308288A (zh) * 2020-09-29 2021-02-02 百维金科(上海)信息科技有限公司 一种基于粒子群优化lssvm的违约用户概率预测方法

Similar Documents

Publication Publication Date Title
CN110909984B (zh) 业务数据处理模型训练方法、业务数据处理方法及装置
CN111862093A (zh) 一种基于图像识别的腐蚀等级信息处理方法及系统
CN112967088A (zh) 基于知识蒸馏的营销活动预测模型结构和预测方法
CN111626821A (zh) 基于集成特征选择实现客户分类的产品推荐方法及系统
CN110634060A (zh) 一种用户信用风险的评估方法、系统、装置及存储介质
CN114048436A (zh) 一种预测企业财务数据模型构建方法及构建装置
CN113537807A (zh) 一种企业智慧风控方法及设备
CN114663002A (zh) 一种自动化匹配绩效考核指标的方法及设备
Korangi et al. A transformer-based model for default prediction in mid-cap corporate markets
CN114926299A (zh) 一种基于大数据分析的预测车辆事故风险预测方法
CN111325344A (zh) 评估模型解释工具的方法和装置
CN114881173A (zh) 基于自注意力机制的简历分类方法和装置
CN111652430A (zh) 一种互联网金融平台违约率的预测方法及系统
CN116756391A (zh) 一种基于图数据增强的不平衡图节点神经网络分类方法
CN111612624A (zh) 一种数据特征重要性的分析方法及系统
CN111507824A (zh) 风控模型入模变量最小熵分箱方法
CN115712777A (zh) 一种基于逻辑回归的文献推荐系统的排序方法
CN113705715B (zh) 一种基于lstm和多尺度fcn的时间序列分类方法
CN115271442A (zh) 基于自然语言评估企业成长性的建模方法及系统
Himani et al. A comparative study on machine learning based prediction of citations of articles
CN115330526A (zh) 一种企业信用评分方法及装置
CN113177733A (zh) 基于卷积神经网络的中小微企业数据建模方法及系统
CN110827919A (zh) 一种应用于基因表达谱数据的降维方法
Garcin et al. Credit scoring using neural networks and SURE posterior probability calibration
CN115545882B (zh) 一种基于新增信贷不良率的信贷风险预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination