CN113034268A - 一种基于改进分类组合的个人信贷信用风险预测方法 - Google Patents

一种基于改进分类组合的个人信贷信用风险预测方法 Download PDF

Info

Publication number
CN113034268A
CN113034268A CN202110359366.8A CN202110359366A CN113034268A CN 113034268 A CN113034268 A CN 113034268A CN 202110359366 A CN202110359366 A CN 202110359366A CN 113034268 A CN113034268 A CN 113034268A
Authority
CN
China
Prior art keywords
data
fico
training
features
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110359366.8A
Other languages
English (en)
Inventor
吴东鹏
杨沛衡
徐典
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202110359366.8A priority Critical patent/CN113034268A/zh
Publication of CN113034268A publication Critical patent/CN113034268A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于改进分类组合的个人信贷信用风险预测方法,包括确定数据集、将数据均衡化处理、进行组合分类、进行违约率预测等步骤。本发明能保证训练集正负样本比例均衡的同时,还能解决少数样本重复使用的问题,亦使得测试集数据分布及正负样本比例均与原数据集保持一致。得到各份训练集后,将各个分类器用于1份训练集而不是所有训练集进行训练,以防止模型过拟合,最后各个机器学习模型通过加权投票的方式提高准确性和稳定性。本发明方法在LendingClub第一季度到第四季度的数据中进行实验,结果表明,本模型能够在消除了数据样本不均衡的影响下得到较好的违约率预测效果,相较于其他机器学习模型,本模型在各项指标上表现均为最优。

Description

一种基于改进分类组合的个人信贷信用风险预测方法
技术领域
本发明属于个人信贷风险预测技术领域,具体涉及一种基于改进分类组合的个人信贷信用风险预测方法。
背景技术
众多企业和银行或依靠自身实力研发智能风控平台,或与金融科技公司及征信机构广泛开展业务合作,将以大数据机器学习为核心的信贷风控方案深度嵌入信用风险控制流程之中。
目前学术界对个人信贷信用风险预测方法进行了一定的研究与探索,常用的方法有平衡计分卡法、专家评分法、模型无关类倾向评分归因法、单一机器学习算法及机器学习集成算法。文献[胡忠义,王超群,陈远,吴江,鲍玉昆.基于多分类器动态集成的P2P违约风险评估[J].管理学报,2019,16(06):915-922.]中对样本进行K均值聚类后以不同的基分类器处理不同区域样本,从而构建出多分类器动态集成模型,但是这种方法会导致最后训练出来的分类器只能很好的拟合同一簇内的数据,集成投票时各个分类器会相互影响,难以保证在其他数据分布下仍有较好的效果。
文献[王重仁,韩冬梅.基于超参数优化和集成学习的互联网信贷个人信用评估[J].统计与决策,2019,35(01):87-91.]中对机器学习算法指导决策树构建的传统教学式方法进行改进,在生成伪数据集过程中结合weight-SMOTE算法改变决策树的学习偏好,但该种方法难以避免原本不存在的新增样本对数据集内在分布的影响。
文献[徐桂琼,李微.基于组合分类的P2P贷款逾期风险预警研究[J].管理现代化,2019,39(04):9-12.]重视金融样本高度不均衡造成的少数样本错误分类风险,运用TwoStep聚类思想对样本进行均衡化处理,从而构造结构平衡的训练集。但其方法存在一定缺陷,会导致逾期样本在训练集和测试集中有部分重合,进而造成预测模型准确率虚高。
发明内容
本发明以机器学习集成算法进为基础,针对当前机器学习在个人信贷风险控制应用中存在的违约信息数据存在大量数据不均衡,模型拟合的数据分布不一致的问题,提出了一种基于改进分类组合的个人信贷信用风险预测方法,能够保证训练集正负样本比例均衡的同时,也能保证训练集和验证集符合原来数据集的总体分布,本申请所用方法避免了原本不存在的新增样本对数据集内在分布的改变,同时通过集成投票的分类器模型提高预测的稳定性和准确性。
本发明采用如下技术方案:
一种基于改进分类组合的个人信贷信用风险预测方法,包括如下步骤:
步骤1:确定数据集,进行数据处理后,利用基于随机森林的递归特征消除方法确定影响借款状态的预测因子。
步骤2:将数据均衡化处理。
步骤3:进行组合分类,训练各个分类器。
步骤4:进行违约率预测。
所述步骤1主要是数据预处理,消除冗余信息对预测造成的干扰,并且筛选出对违约率预测具有重要程度的预测因子,具体包括:
步骤11:确定数据集。将真实交易的数据经过脱敏处理,将借款人资产状况及现金流、借款期限及相关日期、银行账户、征信查询、信用评级作为数据集内容,其中目标数据标签为“借款状态”;
步骤12:以“借款状态”(loan status)特征作为目标数据标签,将“宽恕期中”、“已偿清”界定为非逾期,记为0;将“逾期16~30天”、“逾期31~120天”、“违约”、“核销”界定为逾期,记为1。
步骤13:剔除缺失值比例在55%以上的特征。随后剔除值同值性超过99%的特征、与逾期行为明显无关的特征及离群值过多的特征。最后可以得到数据样本。
步骤14:针对于fico_score和last_fico_score两个特征,采用信贷违约预测中常见的处理方法,以fico评分的平均水平作为fico评级的代理变量。
对于表中的特征作了以下处理:
fico score=0.5×fico range low+0.5×fico range high
last fico score=0.5×last fico range low+0.5×last fico range high
步骤15:分别计算出各候选预测因子与借款状态的相关系数;
相关系数的计算公式为:
Figure BDA0003004878130000021
式中,Xi为第i个样本的预测因子值的大小,
Figure BDA0003004878130000031
为预测因子的均值,Yi为第i个样本的实测值大小,
Figure BDA0003004878130000032
为实测值均值,M为样本总数量;
步骤16:将剔除相关性大于0.9的特征直接剔除。
步骤17:采用基于遗传算法的粗糙集约简策略进行特征筛选,得到特征集最后将上述特征用于基于随机森林的递归式特征消除中再进一步进行特征筛选。
式中,lM为M×M的矩阵,每一个元素都为1/M;
所述步骤17包括:
步骤171:将粗糙集约简策略筛选完的特征作为初始特征集。
步骤172:采用随机森林算法拟合具有当前特征集的数据,然后计算各个特征的重要性程度,并进行排名。
步骤173:删除k个特征,更新当前特征集。
步骤174:跳转到步骤172,直到特定数量的特征被保留下来,此时特征集包含所有重要性程度较高的特征。
所述步骤2主要是消除数据不均衡的影响,切分出训练集和验证集,保证训练集正负样本均衡的同时使训练集和验证集维持原本的数据分布,具体包括:
步骤21:设一不均衡样本数据集D,该数据集的目标列为0和1两个类别。该数据集中目标列值占多数的记为多数类样本集M,目标列值占少数的记为少数类样本集L。
步骤22:计算D的数据样本不均衡度为:
Figure BDA0003004878130000033
(其中|X|表示该数据的样本个数)
步骤23:计算切分数量:
Figure BDA0003004878130000034
步骤24:将M和L进行二阶聚类,得到k2个簇,分别记为M1M2……Mk2及L1L2.....Lk2
步骤25:对于M的每个簇Mi(1≤i≤k2),都平均分成k2份子集,记为Mi1Mi2......Mik2(1≤i≤k2),对于L的每个簇L1L2......Lk2,都平均分成k2份子集,记为Li1Li2......Lik2
步骤26:对Mij(1≤i≤k2,1≤j≤k2)进行重新组合,得到m1m2......mk2,其中mi=M1i∪M2i∪......∪Mk2i;对Lij按上述方法同样进行重新组合,得到l1l2......lk2
其中li=L1i∪L2i∪......∪Lk2i
将m1和l1组合成验证集V,供后续实验使用。l2l3......lk2组合成少数训练样本集,记为S。
步骤27:将mi(2≤i≤k2)分别与S合并成为训练集T。
所述步骤3主要是将各个分类器应用于不同的训练集,最后进行集成投票,提高模型预测的准确性和稳定性。具体包括:
步骤31:经过数据均衡化处理后会产生k1个训练集及1个验证集。在本申请中k1=3。
步骤32:采用XGBoost分类器拟合训练集1,其中对于XGBoost,本申请选择的超参数组合为,max_depth为10,learning rate为0.01,n_estimators为100,其余参数采用系统默认参数。
步骤33:AdaBoost分类器拟合训练集2,对于Adaboost,本申请选择的超参数组合为,max_depth为20,learning rate为0.05,n_estimators为80,其余参数选择系统默认参数。
步骤34:高斯朴素贝叶斯拟合训练集3,均选择系统默认参数。
步骤35:。将分类器XGBoost,AdaBoost,GaussianNB以4∶2∶1的权重比例进行加权投票,输出最终结果。
所述步骤4包括:
步骤41:将预测因子数据输入基于改进组合分类的集成投票违约率预测模型中,输出违约率结果。
本发明的有益效果在于:
本发明能保证训练集正负样本比例均衡的同时,还能解决少数样本重复使用的问题,亦使得测试集数据分布及正负样本比例均与原数据集保持一致。得到各份训练集后,将各个分类器用于1份训练集而不是所有训练集进行训练,以防止模型过拟合,最后各个机器学习模型通过加权投票的方式提高准确性和稳定性。
本发明方法在LendingClub第一季度到第四季度的数据中进行实验,结果表明,本模型能够在消除了数据样本不均衡的影响下得到较好的违约率预测效果,相较于其他机器学习模型,本模型在各项指标上表现均为最优。
附图说明
图1为基于改进分类组合的个人信贷信用风险预测结构框图。
具体实施方式
下面结合附图和具体实施,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
结合图1描述本发明的技术细节。在本发明中,将改进分类组合和集成投票引入到个人信贷信用风险预测,该方法主要包括以下四个步骤:
一是数据处理后,利用基于随机森林的递归特征消除方法确定影响借款状态的预测因子;二是将数据均衡化处理;三是进行组合分类,训练各个分类器组成集成投票模型。
四、进行违约率预测
以下详细描述各步骤的具体实现过程:
步骤一、预测因子的确定
具体包括如下步骤:
步骤11:确定数据集,将真实交易的数据经过脱敏处理,将借款人资产状况及现金流、借款期限及相关日期、银行账户、征信查询、信用评级作为数据集内容,其中目标数据标签为“借款状态”;
步骤12:以“借款状态”(loan status)特征作为目标数据标签,将“宽恕期中”、“已偿清”界定为非逾期,记为0;将“逾期16~30天”、“逾期31~120天”、“违约”、“核销”界定为逾期,记为1。
步骤13:剔除缺失值比例在55%以上的特征。随后剔除值同值性超过99%的特征、与逾期行为明显无关的特征及离群值过多的特征。最后可以得到数据样本。
步骤14:针对于fico_score和last_fico_score两个特征,采用信贷违约预测中常见的处理方法,以fico评分的平均水平作为fico评级的代理变量。
对于表中的特征作了以下处理:
fico score=0.5×fico range low+0.5×fico range high
last fico score=0.5×last fico range low+0.5×last fico range high
步骤15:分别计算出各候选预测因子与借款状态的相关系数;
相关系数的计算公式为:
Figure BDA0003004878130000061
式中,Xi为第i个样本的预测因子值的大小,
Figure BDA0003004878130000062
为预测因子的均值,Yi为第i个样本的实测值大小,
Figure BDA0003004878130000063
为实测值均值,M为样本总数量;
步骤16:将剔除相关性大于0.9的特征直接剔除。
步骤17:采用基于遗传算法的粗糙集约简策略进行特征筛选,得到特征集最后将上述特征用于基于随机森林的递归式特征消除中再进一步进行特征筛选。
所述步骤17包括:
步骤171:将粗糙集约简策略筛选完的特征作为初始特征集。
步骤172:采用随机森林算法拟合具有当前特征集的数据,然后计算各个特征的重要性程度,并进行排名。
步骤173:删除k个特征,更新当前特征集。
步骤174:跳转到步骤172,直到特定数量的特征被保留下来,此时特征集包含所有重要性程度较高的特征。
步骤二、数据均衡化处理
具体包括如下步骤:
步骤21:设一不均衡样本数据集D,该数据集的目标列为0和1两个类别。该数据集中目标列值占多数的记为多数类样本集M,目标列值占少数的记为少数类样本集L。
步骤22:计算D的数据样本不均衡度为:
Figure BDA0003004878130000064
(其中|X|表示该数据的样本个数)
步骤23:计算切分数量:
Figure BDA0003004878130000071
步骤24:将M和L进行二阶聚类,得到k2个簇,分别记为M1M2……Mk2及L1L2.....Lk2
步骤25:对于M的每个簇Mi(1≤i≤k2),都平均分成k2份子集,记为Mi1Mi2......Mik2(1≤i≤k2),对于L的每个簇L1L2......Lk2,都平均分成k2份子集,记为Li1Li2......Lik2
步骤26:对Mij(1≤i≤k2,1≤j≤k2)进行重新组合,得到m1m2......mk2,其中mi=M1i∪M2i∪......∪Mk2i;对Lij按上述方法同样进行重新组合,得到l1l2......lk2
其中li=L1i∪L2i∪......∪Lk2i
将m1和l1组合成验证集V,供后续实验使用。l2l3......lk2组合成少数训练样本集,记为S。
步骤27:将mi(2≤i≤k2)分别与S合并成为训练集T。
步骤三、进行组合分类,训练各个分类器组成集成投票模型
具体包括如下步骤:
步骤31:经过数据均衡化处理后会产生k1个训练集及1个验证集。在本申请中k1=3。
步骤32:采用XGBoost分类器拟合训练集1,其中对于XGBoost,本申请选择的超参数组合为,max_depth为10,learning rate为0.01,n_estimators为100,其余参数采用系统默认参数。
步骤33:AdaBoost分类器拟合训练集2,对于Adaboost,本申请选择的超参数组合为,max_depth为20,learning rate为0.05,n_estimators为80,其余参数选择系统默认参数。
步骤34:高斯朴素贝叶斯拟合训练集3,均选择系统默认参数。
步骤35:。将分类器XGBoost,AdaBoost,GaussianNB以4∶2∶1的权重比例进行加权投票,输出最终结果。
步骤四、违约率预测
具体包括如下步骤:
步骤41:将预测因子数据输入基于改进组合分类的集成投票违约率预测模型中,输出违约率结果。
为了验证本发明预测效果,选取Lending Club公布的2018年第一到第四季度信贷数据作为研究对象。披露的真实交易数据已经过脱敏处理,包含150个特征变量,覆盖借款人资产状况及现金流、借款期限及相关日期、银行账户、征信查询、信用评级等方面。共有167452条数据样本,其中128282个非逾期样本,39170个逾期样本。在该数据的基础上建立改进组合分类的集成投票违约率预测模型。
模型的正负样本比例为133577:48503,不均衡比例大约为2.75,由此可以计算出均衡化处理的系数k1=3,k2=4。按照上述处理数据不均衡比例的方法可以得到三个训练集和一个验证集。其中验证集的正负样本比例为33397:12127。由表1可以看出训练集经过处理后保持正负样本均衡。此外,训练集和验证集也符合原来样本的数据分布。
表1样本均衡化结果
平衡训练集 样本数量 非逾期贷款 逾期贷款
T1 69771 33395 36376
T2 69769 33393 36376
T3 69768 33392 36376
由表1可以发现,本模型通过数据均衡处理后得到的验证集满足原来数据的分布,正负样本比例也维持不变,减轻了数据集不均衡对模型准确性的影响。通过集成投票后,各项指标均有一定提升,这是由于本模型的三个分类器分别对不同的均衡样本训练集进行了训练拟合,且通过投票加权的方式增强了模型的鲁棒性。
为了进一步验证被本申请提出模型的有效性,利用原来数据中未进行数据均衡化处理的数据进行实验。其中由于本申请所选取的验证集的样本为45524个,占总数据样本的25.0%,因此对传统单一模型所采用的训练集和验证集由总体数据样本随机切分得到,其中切分比例为训练集:验证集=3∶1,但只取其中的训练集部分进行训练,对于验证集则进行丢弃,而用数据均衡处理得到的验证集用以进行最后模型效果的验证。通过以上的方法,即可保证传统模型和本申请模型得到的有效训练和验证样本数量是一致的。
考虑到切分的随机性,对切分实验重复进行50次取平均值,即可得到各单一模型训练的效果,如表2。
表2本模型和传统机器学习预测模型性能评价
模型 准确率 F1-Score 漏报率 AUC
本申请模型 91.7% 0.843 12.0% 0.953
XGBoost 91.1% 0.819 24.8% 0.861
AdaBoost 87.7% 0.756 28.8% 0.824
GaussianNB 84.6% 0.715 24.2% 0.758
通过表2可以得到,进行随机切分进行训练得到的各个分类器得分明显低于本申请模型所训练出的分类器及集成投票模型。尽管传统XGBoost模型在准确率上仍有优秀的表现,但其其余的指标明显低于本模型所训练的XGBoost。由于验证集中正负样本比例为3∶1,传统XGBoost模型准确率高而其他指标较低,这表明传统模型在预测多数样本集上有着较好的表现,但是在预测少数样本上不具有稳定好的表现。而传统AdaBoost模型和传统GaussianNB模型的表现也比本申请所提出的模型更低。

Claims (5)

1.一种基于改进分类组合的个人信贷信用风险预测方法,其特征在于,包括如下步骤:
步骤1:确定数据集,进行数据处理后,利用基于随机森林的递归特征消除方法确定影响借款状态的预测因子;
步骤2:将数据集中的数据进行均衡化处理;
步骤3:对经过均衡化处理后的数据进行组合分类,训练各个分类器组成集成投票模型;
步骤4:进行违约率预测;将预测因子数据输入基于改进组合分类的集成投票违约率预测模型中,输出违约率结果。
2.如权利要求1所述的基于改进分类组合的个人信贷信用风险预测方法,其特征在于,所述步骤1包括:
步骤11:确定数据集;将真实交易的数据经过脱敏处理,将借款人资产状况及现金流、借款期限及相关日期、银行账户、征信查询、信用评级作为数据集内容,其中目标数据标签为“借款状态”;
步骤12:将借款状态中的“宽恕期中”、“已偿清”界定为非逾期,记为0;将“逾期16~30天”、“逾期31~120天”、“违约”、“核销”界定为逾期,记为1;
步骤13:剔除缺失值比例在55%以上的特征,随后剔除同值性超过99%的特征、与逾期行为明显无关的特征及离群值过多的特征,最后得到数据样本;
步骤14:针对于fico_score和last_fico_score两个特征,采用信贷违约预测中常见的处理方法,以fico评分的平均水平作为fico评级的代理变量,进行以下处理;
fico score=0.5×fico range low+0.5×fico range high;
last fico score=0.5×last fico range low+0.5×last fico range high;
步骤15:分别计算出各候选预测因子与借款状态的相关系数;
相关系数的计算公式为:
Figure FDA0003004878120000011
式中,Xi为第i个样本的预测因子值的大小,
Figure FDA0003004878120000012
为预测因子的均值,Yi为第i个样本的实测值大小,
Figure FDA0003004878120000013
为实测值均值,M为样本总数量;
步骤16:将剔除相关性大于0.9的特征直接剔除;
步骤17:采用基于遗传算法的粗糙集约简策略进行特征筛选,得到特征集,最后将上述特征用于基于随机森林的递归式特征消除中再进一步进行特征筛选。
3.如权利要求2所述的基于改进分类组合的个人信贷信用风险预测方法,其特征在于,所述步骤17包括:
步骤171:将粗糙集约简策略筛选完的特征作为初始特征集;
步骤172:采用随机森林算法拟合具有当前特征集的数据,然后计算各个特征的重要性程度,并进行排名;
步骤173:删除k个特征,更新当前特征集;
步骤174:跳转到步骤172,直到特定数量的特征被保留下来,此时特征集包含所有重要性程度较高的特征。
4.如权利要求3所述的基于改进分类组合的个人信贷信用风险预测方法,其特征在于,所述步骤2包括:
步骤21:设一不均衡样本数据集D,该数据集的目标列为0和1两个类别,该数据集中目标列值占多数的记为多数类样本集M,目标列值占少数的记为少数类样本集L;
步骤22:计算数据集D的数据样本不均衡度为:
Figure FDA0003004878120000021
其中|X|表示该数据的样本个数;
步骤23:计算切分数量:
Figure FDA0003004878120000022
步骤24:将M和L进行二阶聚类,得到k2个簇,分别记为M1 M2……Mk2及L1 L2.....Lk2
步骤25:对于M的每个簇Mi(1≤i≤k2),都平均分成k2份子集,记为M1i M2i......Mik2(1≤i≤k2),对于L的每个簇L1 L2......Lk2,都平均分成k2份子集,记为Li1 Li2......Lik2
步骤26:对Mij(1≤i≤k2,1≤j≤k2)进行重新组合,得到m1 m2......mk2
其中mi=M1i∪M2i∪......∪Mk2i;对Lij按上述方法同样进行重新组合,得到l1l2......lk2
其中li=L1i∪L2i∪......∪Lk2i
将m1和l1组合成验证集V,供后续实验使用,l2 l3......lk2组合成少数训练样本集,记为S。
步骤27:将mi(2≤i≤k2)分别与S合并成为训练集T。
5.如权利要求4所述的基于改进分类组合的个人信贷信用风险预测方法,其特征在于,所述步骤3包括:
步骤31:经过数据均衡化处理后会产生k1个训练集及1个验证集,在本申请中k1=3;
步骤32:采用XGBoost分类器拟合训练集1,其中对于XGBoost,本申请选择的超参数组合为,max_depth为10,learning rate为0.01,n_estimators为100,其余参数采用系统默认参数;
步骤33:AdaBoost分类器拟合训练集2,对于Adaboost,本申请选择的超参数组合为,max_depth为20,learning rate为0.05,n_estimators为80,其余参数选择系统默认参数;
步骤34:高斯朴素贝叶斯拟合训练集3,均选择系统默认参数;
步骤35:将分类器XGBoost,AdaBoost,GaussianNB以4∶2∶1的权重比例进行加权投票,输出最终结果。
CN202110359366.8A 2021-04-02 2021-04-02 一种基于改进分类组合的个人信贷信用风险预测方法 Pending CN113034268A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110359366.8A CN113034268A (zh) 2021-04-02 2021-04-02 一种基于改进分类组合的个人信贷信用风险预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110359366.8A CN113034268A (zh) 2021-04-02 2021-04-02 一种基于改进分类组合的个人信贷信用风险预测方法

Publications (1)

Publication Number Publication Date
CN113034268A true CN113034268A (zh) 2021-06-25

Family

ID=76453501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110359366.8A Pending CN113034268A (zh) 2021-04-02 2021-04-02 一种基于改进分类组合的个人信贷信用风险预测方法

Country Status (1)

Country Link
CN (1) CN113034268A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114372698A (zh) * 2022-01-07 2022-04-19 武大吉奥信息技术有限公司 社会风险指数分类模型构建方法、系统、设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114372698A (zh) * 2022-01-07 2022-04-19 武大吉奥信息技术有限公司 社会风险指数分类模型构建方法、系统、设备和存储介质

Similar Documents

Publication Publication Date Title
CN107103171B (zh) 机器学习模型的建模方法及装置
Shen et al. A cost-sensitive logistic regression credit scoring model based on multi-objective optimization approach
CN112766379A (zh) 一种基于深度学习多权重损失函数的数据均衡方法
CN113362160B (zh) 一种用于信用卡反欺诈的联邦学习方法和装置
CN107194803A (zh) 一种p2p网贷借款人信用风险评估的装置
CN111461855B (zh) 基于欠采样的信用卡欺诈检测方法及系统、介质、设备
CN111080442A (zh) 信用评分模型的构建方法、装置、设备及存储介质
Sayjadah et al. Credit card default prediction using machine learning techniques
CN111325248A (zh) 降低贷前业务风险的方法及系统
CN111695597A (zh) 基于改进式孤立森林算法的信贷欺诈团伙识别方法和系统
CN112633337A (zh) 一种基于聚类和边界点的不平衡数据处理方法
CN110930038A (zh) 一种贷款需求识别方法、装置、终端及存储介质
CN104850868A (zh) 一种基于k-means和神经网络聚类的客户细分方法
CN112200656A (zh) 一种房贷的线上预审批方法、装置、介质及电子设备
CN114678030A (zh) 基于深度残差网络和注意力机制的声纹识别方法及装置
CN113344438A (zh) 对贷中行为进行监控的贷款系统、监控方法、设备及介质
CN113034268A (zh) 一种基于改进分类组合的个人信贷信用风险预测方法
Wu et al. Investigations on classification methods for loan application based on machine learning
CN117035983A (zh) 信贷风险等级的确定方法、装置、存储介质及电子设备
CN113177733B (zh) 基于卷积神经网络的中小微企业数据建模方法及系统
Chen et al. Feature selection on credit risk prediction for peer-to-peer lending
CN112927719B (zh) 风险信息评估方法、装置、设备及存储介质
CN115130619A (zh) 一种基于聚类选择集成的风险控制方法
Lai Default Prediction of Internet Finance Users Based on Imbalance-XGBoost
Zhou Loan Default Prediction Based on Machine Learning Methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210625