CN113034268A - 一种基于改进分类组合的个人信贷信用风险预测方法 - Google Patents
一种基于改进分类组合的个人信贷信用风险预测方法 Download PDFInfo
- Publication number
- CN113034268A CN113034268A CN202110359366.8A CN202110359366A CN113034268A CN 113034268 A CN113034268 A CN 113034268A CN 202110359366 A CN202110359366 A CN 202110359366A CN 113034268 A CN113034268 A CN 113034268A
- Authority
- CN
- China
- Prior art keywords
- data
- fico
- training
- features
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 52
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000002474 experimental method Methods 0.000 claims abstract description 7
- 238000012795 verification Methods 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000007637 random forest analysis Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 7
- 230000008030 elimination Effects 0.000 claims description 6
- 238000003379 elimination reaction Methods 0.000 claims description 6
- 238000011835 investigation Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 230000006399 behavior Effects 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 3
- 238000005215 recombination Methods 0.000 claims description 3
- 230000006798 recombination Effects 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 abstract description 11
- 230000000694 effects Effects 0.000 abstract description 5
- 238000012360 testing method Methods 0.000 abstract description 3
- 238000010200 validation analysis Methods 0.000 description 5
- 230000010354 integration Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000012954 risk control Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于改进分类组合的个人信贷信用风险预测方法,包括确定数据集、将数据均衡化处理、进行组合分类、进行违约率预测等步骤。本发明能保证训练集正负样本比例均衡的同时,还能解决少数样本重复使用的问题,亦使得测试集数据分布及正负样本比例均与原数据集保持一致。得到各份训练集后,将各个分类器用于1份训练集而不是所有训练集进行训练,以防止模型过拟合,最后各个机器学习模型通过加权投票的方式提高准确性和稳定性。本发明方法在LendingClub第一季度到第四季度的数据中进行实验,结果表明,本模型能够在消除了数据样本不均衡的影响下得到较好的违约率预测效果,相较于其他机器学习模型,本模型在各项指标上表现均为最优。
Description
技术领域
本发明属于个人信贷风险预测技术领域,具体涉及一种基于改进分类组合的个人信贷信用风险预测方法。
背景技术
众多企业和银行或依靠自身实力研发智能风控平台,或与金融科技公司及征信机构广泛开展业务合作,将以大数据机器学习为核心的信贷风控方案深度嵌入信用风险控制流程之中。
目前学术界对个人信贷信用风险预测方法进行了一定的研究与探索,常用的方法有平衡计分卡法、专家评分法、模型无关类倾向评分归因法、单一机器学习算法及机器学习集成算法。文献[胡忠义,王超群,陈远,吴江,鲍玉昆.基于多分类器动态集成的P2P违约风险评估[J].管理学报,2019,16(06):915-922.]中对样本进行K均值聚类后以不同的基分类器处理不同区域样本,从而构建出多分类器动态集成模型,但是这种方法会导致最后训练出来的分类器只能很好的拟合同一簇内的数据,集成投票时各个分类器会相互影响,难以保证在其他数据分布下仍有较好的效果。
文献[王重仁,韩冬梅.基于超参数优化和集成学习的互联网信贷个人信用评估[J].统计与决策,2019,35(01):87-91.]中对机器学习算法指导决策树构建的传统教学式方法进行改进,在生成伪数据集过程中结合weight-SMOTE算法改变决策树的学习偏好,但该种方法难以避免原本不存在的新增样本对数据集内在分布的影响。
文献[徐桂琼,李微.基于组合分类的P2P贷款逾期风险预警研究[J].管理现代化,2019,39(04):9-12.]重视金融样本高度不均衡造成的少数样本错误分类风险,运用TwoStep聚类思想对样本进行均衡化处理,从而构造结构平衡的训练集。但其方法存在一定缺陷,会导致逾期样本在训练集和测试集中有部分重合,进而造成预测模型准确率虚高。
发明内容
本发明以机器学习集成算法进为基础,针对当前机器学习在个人信贷风险控制应用中存在的违约信息数据存在大量数据不均衡,模型拟合的数据分布不一致的问题,提出了一种基于改进分类组合的个人信贷信用风险预测方法,能够保证训练集正负样本比例均衡的同时,也能保证训练集和验证集符合原来数据集的总体分布,本申请所用方法避免了原本不存在的新增样本对数据集内在分布的改变,同时通过集成投票的分类器模型提高预测的稳定性和准确性。
本发明采用如下技术方案:
一种基于改进分类组合的个人信贷信用风险预测方法,包括如下步骤:
步骤1:确定数据集,进行数据处理后,利用基于随机森林的递归特征消除方法确定影响借款状态的预测因子。
步骤2:将数据均衡化处理。
步骤3:进行组合分类,训练各个分类器。
步骤4:进行违约率预测。
所述步骤1主要是数据预处理,消除冗余信息对预测造成的干扰,并且筛选出对违约率预测具有重要程度的预测因子,具体包括:
步骤11:确定数据集。将真实交易的数据经过脱敏处理,将借款人资产状况及现金流、借款期限及相关日期、银行账户、征信查询、信用评级作为数据集内容,其中目标数据标签为“借款状态”;
步骤12:以“借款状态”(loan status)特征作为目标数据标签,将“宽恕期中”、“已偿清”界定为非逾期,记为0;将“逾期16~30天”、“逾期31~120天”、“违约”、“核销”界定为逾期,记为1。
步骤13:剔除缺失值比例在55%以上的特征。随后剔除值同值性超过99%的特征、与逾期行为明显无关的特征及离群值过多的特征。最后可以得到数据样本。
步骤14:针对于fico_score和last_fico_score两个特征,采用信贷违约预测中常见的处理方法,以fico评分的平均水平作为fico评级的代理变量。
对于表中的特征作了以下处理:
fico score=0.5×fico range low+0.5×fico range high
last fico score=0.5×last fico range low+0.5×last fico range high
步骤15:分别计算出各候选预测因子与借款状态的相关系数;
相关系数的计算公式为:
步骤16:将剔除相关性大于0.9的特征直接剔除。
步骤17:采用基于遗传算法的粗糙集约简策略进行特征筛选,得到特征集最后将上述特征用于基于随机森林的递归式特征消除中再进一步进行特征筛选。
式中,lM为M×M的矩阵,每一个元素都为1/M;
所述步骤17包括:
步骤171:将粗糙集约简策略筛选完的特征作为初始特征集。
步骤172:采用随机森林算法拟合具有当前特征集的数据,然后计算各个特征的重要性程度,并进行排名。
步骤173:删除k个特征,更新当前特征集。
步骤174:跳转到步骤172,直到特定数量的特征被保留下来,此时特征集包含所有重要性程度较高的特征。
所述步骤2主要是消除数据不均衡的影响,切分出训练集和验证集,保证训练集正负样本均衡的同时使训练集和验证集维持原本的数据分布,具体包括:
步骤21:设一不均衡样本数据集D,该数据集的目标列为0和1两个类别。该数据集中目标列值占多数的记为多数类样本集M,目标列值占少数的记为少数类样本集L。
步骤22:计算D的数据样本不均衡度为:
步骤23:计算切分数量:
步骤24:将M和L进行二阶聚类,得到k2个簇,分别记为M1M2……Mk2及L1L2.....Lk2
步骤25:对于M的每个簇Mi(1≤i≤k2),都平均分成k2份子集,记为Mi1Mi2......Mik2(1≤i≤k2),对于L的每个簇L1L2......Lk2,都平均分成k2份子集,记为Li1Li2......Lik2。
步骤26:对Mij(1≤i≤k2,1≤j≤k2)进行重新组合,得到m1m2......mk2,其中mi=M1i∪M2i∪......∪Mk2i;对Lij按上述方法同样进行重新组合,得到l1l2......lk2,
其中li=L1i∪L2i∪......∪Lk2i
将m1和l1组合成验证集V,供后续实验使用。l2l3......lk2组合成少数训练样本集,记为S。
步骤27:将mi(2≤i≤k2)分别与S合并成为训练集T。
所述步骤3主要是将各个分类器应用于不同的训练集,最后进行集成投票,提高模型预测的准确性和稳定性。具体包括:
步骤31:经过数据均衡化处理后会产生k1个训练集及1个验证集。在本申请中k1=3。
步骤32:采用XGBoost分类器拟合训练集1,其中对于XGBoost,本申请选择的超参数组合为,max_depth为10,learning rate为0.01,n_estimators为100,其余参数采用系统默认参数。
步骤33:AdaBoost分类器拟合训练集2,对于Adaboost,本申请选择的超参数组合为,max_depth为20,learning rate为0.05,n_estimators为80,其余参数选择系统默认参数。
步骤34:高斯朴素贝叶斯拟合训练集3,均选择系统默认参数。
步骤35:。将分类器XGBoost,AdaBoost,GaussianNB以4∶2∶1的权重比例进行加权投票,输出最终结果。
所述步骤4包括:
步骤41:将预测因子数据输入基于改进组合分类的集成投票违约率预测模型中,输出违约率结果。
本发明的有益效果在于:
本发明能保证训练集正负样本比例均衡的同时,还能解决少数样本重复使用的问题,亦使得测试集数据分布及正负样本比例均与原数据集保持一致。得到各份训练集后,将各个分类器用于1份训练集而不是所有训练集进行训练,以防止模型过拟合,最后各个机器学习模型通过加权投票的方式提高准确性和稳定性。
本发明方法在LendingClub第一季度到第四季度的数据中进行实验,结果表明,本模型能够在消除了数据样本不均衡的影响下得到较好的违约率预测效果,相较于其他机器学习模型,本模型在各项指标上表现均为最优。
附图说明
图1为基于改进分类组合的个人信贷信用风险预测结构框图。
具体实施方式
下面结合附图和具体实施,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
结合图1描述本发明的技术细节。在本发明中,将改进分类组合和集成投票引入到个人信贷信用风险预测,该方法主要包括以下四个步骤:
一是数据处理后,利用基于随机森林的递归特征消除方法确定影响借款状态的预测因子;二是将数据均衡化处理;三是进行组合分类,训练各个分类器组成集成投票模型。
四、进行违约率预测
以下详细描述各步骤的具体实现过程:
步骤一、预测因子的确定
具体包括如下步骤:
步骤11:确定数据集,将真实交易的数据经过脱敏处理,将借款人资产状况及现金流、借款期限及相关日期、银行账户、征信查询、信用评级作为数据集内容,其中目标数据标签为“借款状态”;
步骤12:以“借款状态”(loan status)特征作为目标数据标签,将“宽恕期中”、“已偿清”界定为非逾期,记为0;将“逾期16~30天”、“逾期31~120天”、“违约”、“核销”界定为逾期,记为1。
步骤13:剔除缺失值比例在55%以上的特征。随后剔除值同值性超过99%的特征、与逾期行为明显无关的特征及离群值过多的特征。最后可以得到数据样本。
步骤14:针对于fico_score和last_fico_score两个特征,采用信贷违约预测中常见的处理方法,以fico评分的平均水平作为fico评级的代理变量。
对于表中的特征作了以下处理:
fico score=0.5×fico range low+0.5×fico range high
last fico score=0.5×last fico range low+0.5×last fico range high
步骤15:分别计算出各候选预测因子与借款状态的相关系数;
相关系数的计算公式为:
步骤16:将剔除相关性大于0.9的特征直接剔除。
步骤17:采用基于遗传算法的粗糙集约简策略进行特征筛选,得到特征集最后将上述特征用于基于随机森林的递归式特征消除中再进一步进行特征筛选。
所述步骤17包括:
步骤171:将粗糙集约简策略筛选完的特征作为初始特征集。
步骤172:采用随机森林算法拟合具有当前特征集的数据,然后计算各个特征的重要性程度,并进行排名。
步骤173:删除k个特征,更新当前特征集。
步骤174:跳转到步骤172,直到特定数量的特征被保留下来,此时特征集包含所有重要性程度较高的特征。
步骤二、数据均衡化处理
具体包括如下步骤:
步骤21:设一不均衡样本数据集D,该数据集的目标列为0和1两个类别。该数据集中目标列值占多数的记为多数类样本集M,目标列值占少数的记为少数类样本集L。
步骤22:计算D的数据样本不均衡度为:
步骤23:计算切分数量:
步骤24:将M和L进行二阶聚类,得到k2个簇,分别记为M1M2……Mk2及L1L2.....Lk2
步骤25:对于M的每个簇Mi(1≤i≤k2),都平均分成k2份子集,记为Mi1Mi2......Mik2(1≤i≤k2),对于L的每个簇L1L2......Lk2,都平均分成k2份子集,记为Li1Li2......Lik2。
步骤26:对Mij(1≤i≤k2,1≤j≤k2)进行重新组合,得到m1m2......mk2,其中mi=M1i∪M2i∪......∪Mk2i;对Lij按上述方法同样进行重新组合,得到l1l2......lk2,
其中li=L1i∪L2i∪......∪Lk2i
将m1和l1组合成验证集V,供后续实验使用。l2l3......lk2组合成少数训练样本集,记为S。
步骤27:将mi(2≤i≤k2)分别与S合并成为训练集T。
步骤三、进行组合分类,训练各个分类器组成集成投票模型
具体包括如下步骤:
步骤31:经过数据均衡化处理后会产生k1个训练集及1个验证集。在本申请中k1=3。
步骤32:采用XGBoost分类器拟合训练集1,其中对于XGBoost,本申请选择的超参数组合为,max_depth为10,learning rate为0.01,n_estimators为100,其余参数采用系统默认参数。
步骤33:AdaBoost分类器拟合训练集2,对于Adaboost,本申请选择的超参数组合为,max_depth为20,learning rate为0.05,n_estimators为80,其余参数选择系统默认参数。
步骤34:高斯朴素贝叶斯拟合训练集3,均选择系统默认参数。
步骤35:。将分类器XGBoost,AdaBoost,GaussianNB以4∶2∶1的权重比例进行加权投票,输出最终结果。
步骤四、违约率预测
具体包括如下步骤:
步骤41:将预测因子数据输入基于改进组合分类的集成投票违约率预测模型中,输出违约率结果。
为了验证本发明预测效果,选取Lending Club公布的2018年第一到第四季度信贷数据作为研究对象。披露的真实交易数据已经过脱敏处理,包含150个特征变量,覆盖借款人资产状况及现金流、借款期限及相关日期、银行账户、征信查询、信用评级等方面。共有167452条数据样本,其中128282个非逾期样本,39170个逾期样本。在该数据的基础上建立改进组合分类的集成投票违约率预测模型。
模型的正负样本比例为133577:48503,不均衡比例大约为2.75,由此可以计算出均衡化处理的系数k1=3,k2=4。按照上述处理数据不均衡比例的方法可以得到三个训练集和一个验证集。其中验证集的正负样本比例为33397:12127。由表1可以看出训练集经过处理后保持正负样本均衡。此外,训练集和验证集也符合原来样本的数据分布。
表1样本均衡化结果
平衡训练集 | 样本数量 | 非逾期贷款 | 逾期贷款 |
T1 | 69771 | 33395 | 36376 |
T2 | 69769 | 33393 | 36376 |
T3 | 69768 | 33392 | 36376 |
由表1可以发现,本模型通过数据均衡处理后得到的验证集满足原来数据的分布,正负样本比例也维持不变,减轻了数据集不均衡对模型准确性的影响。通过集成投票后,各项指标均有一定提升,这是由于本模型的三个分类器分别对不同的均衡样本训练集进行了训练拟合,且通过投票加权的方式增强了模型的鲁棒性。
为了进一步验证被本申请提出模型的有效性,利用原来数据中未进行数据均衡化处理的数据进行实验。其中由于本申请所选取的验证集的样本为45524个,占总数据样本的25.0%,因此对传统单一模型所采用的训练集和验证集由总体数据样本随机切分得到,其中切分比例为训练集:验证集=3∶1,但只取其中的训练集部分进行训练,对于验证集则进行丢弃,而用数据均衡处理得到的验证集用以进行最后模型效果的验证。通过以上的方法,即可保证传统模型和本申请模型得到的有效训练和验证样本数量是一致的。
考虑到切分的随机性,对切分实验重复进行50次取平均值,即可得到各单一模型训练的效果,如表2。
表2本模型和传统机器学习预测模型性能评价
模型 | 准确率 | F1-Score | 漏报率 | AUC |
本申请模型 | 91.7% | 0.843 | 12.0% | 0.953 |
XGBoost | 91.1% | 0.819 | 24.8% | 0.861 |
AdaBoost | 87.7% | 0.756 | 28.8% | 0.824 |
GaussianNB | 84.6% | 0.715 | 24.2% | 0.758 |
通过表2可以得到,进行随机切分进行训练得到的各个分类器得分明显低于本申请模型所训练出的分类器及集成投票模型。尽管传统XGBoost模型在准确率上仍有优秀的表现,但其其余的指标明显低于本模型所训练的XGBoost。由于验证集中正负样本比例为3∶1,传统XGBoost模型准确率高而其他指标较低,这表明传统模型在预测多数样本集上有着较好的表现,但是在预测少数样本上不具有稳定好的表现。而传统AdaBoost模型和传统GaussianNB模型的表现也比本申请所提出的模型更低。
Claims (5)
1.一种基于改进分类组合的个人信贷信用风险预测方法,其特征在于,包括如下步骤:
步骤1:确定数据集,进行数据处理后,利用基于随机森林的递归特征消除方法确定影响借款状态的预测因子;
步骤2:将数据集中的数据进行均衡化处理;
步骤3:对经过均衡化处理后的数据进行组合分类,训练各个分类器组成集成投票模型;
步骤4:进行违约率预测;将预测因子数据输入基于改进组合分类的集成投票违约率预测模型中,输出违约率结果。
2.如权利要求1所述的基于改进分类组合的个人信贷信用风险预测方法,其特征在于,所述步骤1包括:
步骤11:确定数据集;将真实交易的数据经过脱敏处理,将借款人资产状况及现金流、借款期限及相关日期、银行账户、征信查询、信用评级作为数据集内容,其中目标数据标签为“借款状态”;
步骤12:将借款状态中的“宽恕期中”、“已偿清”界定为非逾期,记为0;将“逾期16~30天”、“逾期31~120天”、“违约”、“核销”界定为逾期,记为1;
步骤13:剔除缺失值比例在55%以上的特征,随后剔除同值性超过99%的特征、与逾期行为明显无关的特征及离群值过多的特征,最后得到数据样本;
步骤14:针对于fico_score和last_fico_score两个特征,采用信贷违约预测中常见的处理方法,以fico评分的平均水平作为fico评级的代理变量,进行以下处理;
fico score=0.5×fico range low+0.5×fico range high;
last fico score=0.5×last fico range low+0.5×last fico range high;
步骤15:分别计算出各候选预测因子与借款状态的相关系数;
相关系数的计算公式为:
步骤16:将剔除相关性大于0.9的特征直接剔除;
步骤17:采用基于遗传算法的粗糙集约简策略进行特征筛选,得到特征集,最后将上述特征用于基于随机森林的递归式特征消除中再进一步进行特征筛选。
3.如权利要求2所述的基于改进分类组合的个人信贷信用风险预测方法,其特征在于,所述步骤17包括:
步骤171:将粗糙集约简策略筛选完的特征作为初始特征集;
步骤172:采用随机森林算法拟合具有当前特征集的数据,然后计算各个特征的重要性程度,并进行排名;
步骤173:删除k个特征,更新当前特征集;
步骤174:跳转到步骤172,直到特定数量的特征被保留下来,此时特征集包含所有重要性程度较高的特征。
4.如权利要求3所述的基于改进分类组合的个人信贷信用风险预测方法,其特征在于,所述步骤2包括:
步骤21:设一不均衡样本数据集D,该数据集的目标列为0和1两个类别,该数据集中目标列值占多数的记为多数类样本集M,目标列值占少数的记为少数类样本集L;
步骤22:计算数据集D的数据样本不均衡度为:
步骤23:计算切分数量:
步骤24:将M和L进行二阶聚类,得到k2个簇,分别记为M1 M2……Mk2及L1 L2.....Lk2;
步骤25:对于M的每个簇Mi(1≤i≤k2),都平均分成k2份子集,记为M1i M2i......Mik2(1≤i≤k2),对于L的每个簇L1 L2......Lk2,都平均分成k2份子集,记为Li1 Li2......Lik2;
步骤26:对Mij(1≤i≤k2,1≤j≤k2)进行重新组合,得到m1 m2......mk2,
其中mi=M1i∪M2i∪......∪Mk2i;对Lij按上述方法同样进行重新组合,得到l1l2......lk2,
其中li=L1i∪L2i∪......∪Lk2i
将m1和l1组合成验证集V,供后续实验使用,l2 l3......lk2组合成少数训练样本集,记为S。
步骤27:将mi(2≤i≤k2)分别与S合并成为训练集T。
5.如权利要求4所述的基于改进分类组合的个人信贷信用风险预测方法,其特征在于,所述步骤3包括:
步骤31:经过数据均衡化处理后会产生k1个训练集及1个验证集,在本申请中k1=3;
步骤32:采用XGBoost分类器拟合训练集1,其中对于XGBoost,本申请选择的超参数组合为,max_depth为10,learning rate为0.01,n_estimators为100,其余参数采用系统默认参数;
步骤33:AdaBoost分类器拟合训练集2,对于Adaboost,本申请选择的超参数组合为,max_depth为20,learning rate为0.05,n_estimators为80,其余参数选择系统默认参数;
步骤34:高斯朴素贝叶斯拟合训练集3,均选择系统默认参数;
步骤35:将分类器XGBoost,AdaBoost,GaussianNB以4∶2∶1的权重比例进行加权投票,输出最终结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110359366.8A CN113034268A (zh) | 2021-04-02 | 2021-04-02 | 一种基于改进分类组合的个人信贷信用风险预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110359366.8A CN113034268A (zh) | 2021-04-02 | 2021-04-02 | 一种基于改进分类组合的个人信贷信用风险预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113034268A true CN113034268A (zh) | 2021-06-25 |
Family
ID=76453501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110359366.8A Pending CN113034268A (zh) | 2021-04-02 | 2021-04-02 | 一种基于改进分类组合的个人信贷信用风险预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113034268A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114372698A (zh) * | 2022-01-07 | 2022-04-19 | 武大吉奥信息技术有限公司 | 社会风险指数分类模型构建方法、系统、设备和存储介质 |
-
2021
- 2021-04-02 CN CN202110359366.8A patent/CN113034268A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114372698A (zh) * | 2022-01-07 | 2022-04-19 | 武大吉奥信息技术有限公司 | 社会风险指数分类模型构建方法、系统、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107103171B (zh) | 机器学习模型的建模方法及装置 | |
Shen et al. | A cost-sensitive logistic regression credit scoring model based on multi-objective optimization approach | |
CN112766379A (zh) | 一种基于深度学习多权重损失函数的数据均衡方法 | |
CN113362160B (zh) | 一种用于信用卡反欺诈的联邦学习方法和装置 | |
CN107194803A (zh) | 一种p2p网贷借款人信用风险评估的装置 | |
CN111461855B (zh) | 基于欠采样的信用卡欺诈检测方法及系统、介质、设备 | |
CN111080442A (zh) | 信用评分模型的构建方法、装置、设备及存储介质 | |
Sayjadah et al. | Credit card default prediction using machine learning techniques | |
CN111325248A (zh) | 降低贷前业务风险的方法及系统 | |
CN111695597A (zh) | 基于改进式孤立森林算法的信贷欺诈团伙识别方法和系统 | |
CN112633337A (zh) | 一种基于聚类和边界点的不平衡数据处理方法 | |
CN110930038A (zh) | 一种贷款需求识别方法、装置、终端及存储介质 | |
CN104850868A (zh) | 一种基于k-means和神经网络聚类的客户细分方法 | |
CN112200656A (zh) | 一种房贷的线上预审批方法、装置、介质及电子设备 | |
CN114678030A (zh) | 基于深度残差网络和注意力机制的声纹识别方法及装置 | |
CN113344438A (zh) | 对贷中行为进行监控的贷款系统、监控方法、设备及介质 | |
CN113034268A (zh) | 一种基于改进分类组合的个人信贷信用风险预测方法 | |
Wu et al. | Investigations on classification methods for loan application based on machine learning | |
CN117035983A (zh) | 信贷风险等级的确定方法、装置、存储介质及电子设备 | |
CN113177733B (zh) | 基于卷积神经网络的中小微企业数据建模方法及系统 | |
Chen et al. | Feature selection on credit risk prediction for peer-to-peer lending | |
CN112927719B (zh) | 风险信息评估方法、装置、设备及存储介质 | |
CN115130619A (zh) | 一种基于聚类选择集成的风险控制方法 | |
Lai | Default Prediction of Internet Finance Users Based on Imbalance-XGBoost | |
Zhou | Loan Default Prediction Based on Machine Learning Methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210625 |