CN111652710B - 一种基于集成树特征提取和Logistic回归的个人信用风险评估方法 - Google Patents

一种基于集成树特征提取和Logistic回归的个人信用风险评估方法 Download PDF

Info

Publication number
CN111652710B
CN111652710B CN202010492038.0A CN202010492038A CN111652710B CN 111652710 B CN111652710 B CN 111652710B CN 202010492038 A CN202010492038 A CN 202010492038A CN 111652710 B CN111652710 B CN 111652710B
Authority
CN
China
Prior art keywords
feature
data
integrated tree
model
borrower
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010492038.0A
Other languages
English (en)
Other versions
CN111652710A (zh
Inventor
刘佳明
刘佳佳
李想
范皓玥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Chemical Technology
Original Assignee
Beijing University of Chemical Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Chemical Technology filed Critical Beijing University of Chemical Technology
Priority to CN202010492038.0A priority Critical patent/CN111652710B/zh
Publication of CN111652710A publication Critical patent/CN111652710A/zh
Application granted granted Critical
Publication of CN111652710B publication Critical patent/CN111652710B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Technology Law (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明公开了一种基于集成树特征提取和Logistic回归的个人信用风险评估方法,属于提高个人信用风险评估性能的分类技术,包括:数据收集:获取用户的历史信贷数据作为初始数据集;数据预处理:对初始数据集中的缺失值和异常值进行预处理;数据划分:从违约和未违约比率,以及训练集和测试集比率对数据集进行划分;特征提取:采用集成树模型,包括GBDT、XBGoost和LightGBM三个梯度提升决策树,实现特征的转化和提取;特征融合:对GBDT、XBGoost和LightGBM三个梯度提升决策树提取出的特征进行融合,得到新的特征集合;模型评估:采用新特征集合建立Logistic回归模型,并评价模型的分类效果。实验结果表明,该方法具有优良的个人信用风险评估性能,并且该方法的分类效果稳健。本发明的方法可以用于商业银行等信用风险评估领域中,是一类有效的风险管理工具。

Description

一种基于集成树特征提取和Logistic回归的个人信用风险评 估方法
技术领域
本发明涉及个人信用评估领域,具体涉及一种基于集成树特征提取和Logistic回归的个人信用风险评估方法。
背景技术
个人信用风险评估是商业银行、网上银行等金融载体信贷风险管理的重要内容。个人信用风险评估主要通过大量的客户历史信贷数据信息,借助于统计或机器学习方法,构建信用风险评估模型。进而根据新申请人的相关信息,通过信用风险评估模型来识别新申请人或新申请贷款在未来一段时间内是否会存在违约的风险。
目前已经有一些基于统计或机器学习模型对个人信用风险进行评估,其中,集成树是一种常用的分类预测模型,具有较好的分类和预测能力。Ma等人用LightGBM和XGBoost集成树模型研究了个人信贷风险评估模型(Xiaojun M,Jinglan S,Dehua W,et al.Studyon A Prediction of P2P Network Loan Default Based on the Machine LearningLightGBM and XGboost Algorithms according to Different High Dimensional DataCleaning[J].Electronic Commerce Research&Applications,2018:S156742231830070X-.),采用的技术与本发明具有相似之处,但是本发明使用集成树的方式与该研究完全不同。Ma等人的研究仅局限于采用了两类集成树模型对个人的信用风险进行评估,但是没有考虑LightGBM和XGBoost等集成树模型在特征转换和特征提取方面的重要作用和功效,所以没有充分挖掘特征集中存在的非线性关系和有效分类信息。本发明则综合考虑了GBDT、XBGoost和LightGBM三类集成树模型在特征转换和提取方面的作用,将转化后的特征进行融合再建模,实现对个人信贷风险的评估。这是因为集成树具备良好的数据表征能力,即通过决策树的树型结构对初始样本进行特征空间的转换,使得经过集成树转化后的数据具有更显著的分类能力,再借助于其它分算法建立模型,从而提升模型整体的分类性能。
综上,现有技术仍有以下不足:1)当前信用风险评估模型大多直接应用原始特征或仅采用特征选择建立信用风险评估模型,而忽略了特征的非线性特点。信用评估数据通常因为其具有高维度特征的数据结构特点,存在特征与特征、特征与违约状态之间的非线性关系,为精准判断贷款者的信用状态带来困难;2)当前研究大多采用单一模型进行信用风险评估,使得模型的评估结果存在进一步提升的空间。
发明内容
本发明的主要目的:本发明提供一种基于集成树特征提取和Logistic回归的个人信用风险评估方法,通过先采用集成树对初始特征进行转换,再使用转换特征进行分类的模型框架,克服了当前信用评估模型没有充分利用数据特征之间存在的非线性特征的能力,挖掘了特征之间的非线性关系,提升了线性模型的分类能力,取得了更好的信用评分分类结果。
本发明采用的技术方案:
本发明提供了一种基于集成树特征提取和Logistic回归的个人信用风险评估方法,包括以下步骤:
步骤1)数据收集,收集用户的历史信贷数据作为初始数据集,所述初始数据集包括若干样本标签不同的样本,所述样本标签标记为信用违约的样本为正样本,所述样本标签标记为信用未违约的样本为负样本,所述样本包含若干不同信贷相关的特征数据与对应的样本标签信息;
步骤2)数据预处理,对步骤1)所述初始数据集特征数据进行预处理,得到已预处理数据集,所述预处理包括缺失值处理、异常值处理与标准化处理;
步骤3)数据分层抽样划分:按照设定正样本与负样本抽样比率、以及设定训练集与测试集划分比率对数据集,对步骤2)所述已预处理数据集进行随机抽样划分,得到训练集与测试集;
步骤4)特征转换提取:使用步骤3)所述训练集,对若干集成树模型参数分别进行训练,分别得到若干已训练集成树模型,将所述训练集特征数据分别输入至若干已训练集成树模型中,并分别提取得到训练集特征转换后的特征数据;
骤5)特征融合:将步骤4)中从所述若干已训练集成树模型中分别提取的所述训练集特征转换后的特征数据进行融合,得到训练集特征融合后的特征数据,进而得到特征融合后的训练集;
步骤6)模型评估:使用步骤5)所述特征融合后的训练集,对Logistic回归模型参数进行训练,得到已训练Logistic回归模型,将步骤3)所述测试集的特征数据所入至步骤4)所述若干已训练集成树模型中,并提取测试集特征转换后的特征数据,将训练集所述特征转换后的特征数据进行融合,得到测试集特征融合后的特征数据,进而得到特征融合后的测试集,将所述特征融合后的测试集输入所述已训练Logistic回归模型,所述已训练Logistic回归模型输出所述特征融合后的测试集中每个样本的预测样本标签为信用违约或信用违约,并与所述特征融合后的测试集中每个样本的真实样本标签相比较以完成模型评估,进而建立所述方法。
进一步地,所述步骤1)中,所述若干不同信贷相关的特征数据中的特征包括但不限于,借款人欠款的信用账户数量、过去两年的交易次数、借款人地址、借款人的年收入、贷款申请是个人申请还是多人联合申请、借款人各个账户活期存款余额、借款人信用卡开卡账户数量、借款人信用卡账户可用金额占最高信用额度的比重、借款人每月偿债金额占月收入的比重、联合借款人每月偿债金额占月收入的比重、借款人的工作年限、借款人的房屋所有情况、利率、上个月收到借款人的还款、借款人申请的贷款金额、借款人的账号、距离借款人最早开立的循环账户的月份、抵押账户的数量、当前使用的银行卡账户数、正常还款的银行卡账户数、银行卡账户总数、分期付款的账户数、开立的循环账户的数量、循环账户总数、余额大于0的循环账户的交易次数、已过期120天的账户数量、逾期30天的账户数、过去一年开立的账户数、开立的银行账户总数、剩余的未偿还本金占总金额的比重、借款人从未拖欠的交易占总交易数的比重、借款人银行卡可用信贷金额占信贷限额的比重、借款目标、借款人账户可周转资金的总额、借款人正在使用资金占可周转总金额的比重、借款期限、贷款理由总体描述、信用额度、现在总信用额度、不包括抵押贷款的信贷总额、借款人银行卡信用额度、借款人信用卡分期付款信用额度、借款人到期支付的利息、借款人到期支付的本金、借款人循环贷款占信贷限额的比重、借款人的收入来源是否确定、联合借款人收入来源是否确定、借款人地址邮编前三位。
进一步地,所述步骤2)中,
所述缺失值处理的实现为,统计所述初始数据集中每个特征数据的缺失值比例,若某个特征数据的缺失值比例大于20%,则移除所述特征,若某个特征数据的缺失值比例小于20%,则将所述特征数据的缺失值填补为0;
所述异常值处理的实现为,采用三倍标准差法,首先筛选所述初始数据集中每个特征数据中与所述特征数据的均值之差大于三倍所述特征数据的标准差的异常值,调整为所述特征数据的均值与三倍所述特征数据的标准差之和;然后筛选所述初始数据集中每个特征数据中与所述特征数据的均值之差小于三倍所述特征数据的标准差相反数的异常值,调整为所述特征数据的均值与三倍所述特征数据的标准差之差,其中所述初始数据集中第j个样本第i个特征数据的异常值经异常值处理调整后的数值x′outlier(i,j)
xij表示所述初始数据集中第j个样本第i个特征数据的异常值,μi表示所述初始数据集中第i个特征数据的均值,σi表示所述初始数据集中第i个特征数据的标准差;
所述标准化处理的实现为,采用z-score方法,将所述初始数据集中每个特征数据的数值,替换为每个特征数据的z-score,其中所述初始数据集中第i个特征数据的数值经标准化处理替换后的数值f′norm(i)
fi表示所述初始数据集中第i个特征数据,μi表示所述初始数据集中第i个特征数据的均值,σi表示所述初始数据集中第i个特征数据的标准差。
进一步地,所述步骤3)中,所述设定正样本与负样本抽样比率为1:1、1:2或1:3,所述设定训练集和测试集划分比率为80:20、70:30或60:40。
进一步地,所述步骤4)中,所述对若干集成树模型参数分别进行训练,分别得到若干已训练集成树模型的实现为:
41)对每个所述集成树模型,使用网格搜索方法初始化所述集成树模型参数;所述集成树模型中决策树数量范围为50~200,搜索步长为10;所述集成树模型中叶节点包含的最小样本数量范围20~50,搜索步长为5;所述集成树模型中树的高度范围为5~10,搜索步长为1;
42)对每个所述集成树模型,将步骤3)所述训练集输入所述集成树模型,若第m-1轮的所述集成树模型输出的样本标签信息为Fm-1(x),则损失函数L(y,Fm-1(x))=y-Fm-1(x),其中y为真实的样本标签信息;
43)对每个所述集成树模型,通过L(y,Fm-1(x))对Fm-1(x)求偏导得到第m轮所述集成树模型的优化方向,学习率γm-1控制第m-1轮所述集成树模型输出的样本标签信息的贡献度,则第m轮所述集成树模型输出的样本标签信息为/>
44)对每个所述集成树模型,迭代重复步骤42)~43),直至第m轮与第m-1轮的所述所述集成树模型输出的样本标签信息Fm(x)与Fm-1(x)之差小于设定阈值时,则迭代重复停止,得到已训练集成树模型;
所述将所述训练集特征数据分别输入至若干已训练集成树模型中,并分别提取经所述已训练集成树模型特征转换后的训练集特征数据的实现为:
45)对所述训练集中每个样本,将所述样本对应的特征向量S输入第i个所述已训练集成树模型,根据第i个所述已训练集成树模型中的条件规则,判断所述样本最终落在第i个所述已训练集成树模型中的某个叶节点;
46)使用第i个所述已训练集成树模型的叶节点序列向量Mi表示所述样本对应的特征转换后的特征向量S′i,进而得到训练集特征转换后的特征数据,其中:
Mi=[mi1,…,mij,...,min],
mij表示第i个所述已训练集成树模型中第j个叶结点值,n表示第i个所述已训练集成树模型中叶结点的数量。
进一步地,所述步骤5)种,所述将步骤4)中所述训练集特征转换后的特征数据进行融合,得到训练集特征融合后的特征数据,进而得到特征融合后的训练集的实现为:
对所述训练集中每个样本,若输入第i个所述已训练集成树模型提取得到所述样本对应的特征转换后的特征向量为S′i,则所述样本对应的特征融合后的特征向量:
S′fusion=[S′1,...,S′i,...S′N],
其中N表示所述已训练集成树模型的数量,进而得到训练集特征融合后的特征数据。
进一步地,所述步骤6中,所述Logistic回归模型表示为:
log(p(y=1|x))=wTx,
其中,x表示所述特征融合后的特征数据,w表示特征权重,y表示样本标签,若y=0,样本标签为信用未违约,若y=1,样本标签为信用违约,p(yi|x)表示所述预测样本标签为信用违约或信用违约的条件概率分布,若p(yi|x)>0.5,则所述预测样本标签为信用违约,若p(yi|x)<0.5,则所述预测样本标签为信用未违约。
进一步地,所述步骤4)、步骤5)或步骤6)中,所述若干集成树模型分别为GBDT模型、XGBoost模型与LightGBM模型,所述若干已训练集成树模型分别为已训练GBDT模型、已训练XGBoost模型与已训练LightGBM模型。
与现有技术相比,本发明的优点为:
(1)本发明提出了一种新的基于梯度提升决策树方法,采用随机森林、GBDT、XBGoost和LightGBM四种集成树模型对信贷数据原始特征进行转换与特征融合,解决了原始特征集中存在非线性关系的问题,并且采用GBDT、XGBoost与LightGBM三种集成树进行特征转换再融合的方式,也弥补了由于采用单一集成树模型进行特征转换而导致的特征单一性问题,对初始特征集进行转化和提取方法,通过集成树的非线性学习能力,将非线性可分性的原始特征通过集成树叶结点的表征转化为具有线行可分性的新特征集合;
(2)为了增加特征转换之后的异构性,本发明将基于集成树进行转换之后的特征与Logistic回归相结合,构建了一种新的融合信用风险评估模型,从而实现对个人信用风险的有效评估,对GBDT、XGBoost与LightGBM三种集成树模型转化后的特征集合进行融合,得到了具有更强线性可分能力的特征集合,采用Logistic回归对特征融合后的数据集建立分类模型,并进行了实证研究;
(3)实验结果表明,相比于其它机器学习方法,本发明的方法在AUC和F1-SCORE综合评判指标上具有更优秀的信用风险评估能力。
除了上面所描述的目的、步骤和优点之外,本发明还有其它对以上内容的补充,如下面几个图所示,作为对本发明的进一步详细补充说明。
附图说明
构成本申请的一部分附图用来提供对本发明的进一步理解,本发明的示意性实例及其说明用于解释本发明,以使得本发明的上述优点更加明晰。其中,
图1是本发明方法的实施流程图;
图2是基于集成树模型的特征转化和提取的实现示意图;
图3是各个方法在测度指标下的箱线图,其中(a)违约的正样本和未违约的负样本比例1:1;(b)违约的正样本和未违约的负样本比例1:2和(c)违约的正样本和未违约的负样本比例1:3,其中横坐标表示各个模型,分别为RF+LR(随机森林+Logistic回归),GBDT+LR(GBDT+Logistic回归),XGBOOST+LR(XGBOOST+Logistic回归),LightGBM+LR(LightGBM+Logistic回归),COM+LR(特征融合+Logistic回归),LR(Logistic回归),SVM(支持向量机),RF(随机森林),GBDT,XGBOOST和LightGBM,纵坐标表示测度指标,分别是AUC和F1-SCORE。
具体实施方式
为了使本发明的目的、技术方案、实施步骤和优点更加清晰明了,以下内容结合附图及实施例子,对本发明进行进一步详细说明。需要说明的是,该部分内容的具体实施例子仅用于解释本发明,并不用于限定本发明,并且实施例子中各个部分相互组合形成的技术方案均在本发明的保护范围之内。
个人信用风险评估是指通过个人的历史信贷数据信息,借助于数学模型,综合对个人的信用情况进行客观判断和分析,并对其在未来短期内是否会出现信用违约的情况进行预测。本发明提出了一种基于集成树特征提取和Logistic回归的个人信用风险评估方法,用于评估个人的信用风险,通过提高对个人信用风险的有效判断和甄别,来降低市场的金融风险,该方法流程主要包括以下几个步骤:
步骤1)数据收集,收集用户的历史信贷数据作为初始数据集,所述初始数据集包括若干样本标签不同的样本,所述样本标签标记为信用违约的样本为正样本,所述样本标签标记为信用未违约的样本为负样本,所述样本包含若干不同信贷相关的特征数据与对应的样本标签信息;
步骤2)数据预处理,对步骤1)所述初始数据集特征数据进行预处理,得到已预处理数据集,所述预处理包括缺失值处理、异常值处理与标准化处理;
步骤3)数据分层抽样划分:按照设定正样本与负样本抽样比率、以及设定训练集与测试集划分比率对数据集,对步骤2)所述已预处理数据集进行随机抽样划分,得到训练集与测试集;
步骤4)特征转换提取:使用步骤3)所述训练集,对若干集成树模型参数分别进行训练,分别得到若干已训练集成树模型,将所述训练集特征数据分别输入至若干已训练集成树模型中,并分别提取得到训练集特征转换后的特征数据;
步骤5)特征融合:将步骤4)中从所述若干已训练集成树模型中分别提取的所述训练集特征转换后的特征数据进行融合,得到训练集特征融合后的特征数据,进而得到特征融合后的训练集;
步骤6)模型评估:使用步骤5)所述特征融合后的训练集,对Logistic回归模型参数进行训练,得到已训练Logistic回归模型,将步骤3)所述测试集的特征数据所入至步骤4)所述若干已训练集成树模型中,并提取测试集特征转换后的特征数据,将训练集所述特征转换后的特征数据进行融合,得到测试集特征融合后的特征数据,进而得到特征融合后的测试集,将所述特征融合后的测试集输入所述已训练Logistic回归模型,所述已训练Logistic回归模型输出所述特征融合后的测试集中每个样本的预测样本标签为信用违约或信用违约,并与所述特征融合后的测试集中每个样本的真实样本标签相比较以完成模型评估,进而建立所述方法。
进一步地,步骤1)中,从信贷网站或机构收集整理个人的历史信贷记录,同时收集有关个人信息的特征数据,构建初始数据集。初始数据集由两部分组成,一部分为描述个人信息的信贷相关的特征数据,另一部分为描述个人是否发生信用违约的样本标签。信贷相关的特征包括但不限于,借款人欠款的信用账户数量、过去两年的交易次数、借款人地址、借款人的年收入、贷款申请是个人申请还是多人联合申请、借款人各个账户活期存款余额、借款人信用卡开卡账户数量、借款人信用卡账户可用金额占最高信用额度的比重、借款人每月偿债金额占月收入的比重、联合借款人每月偿债金额占月收入的比重、借款人的工作年限、借款人的房屋所有情况、利率、上个月收到借款人的还款、借款人申请的贷款金额、借款人的账号、距离借款人最早开立的循环账户的月份、抵押账户的数量、当前使用的银行卡账户数、正常还款的银行卡账户数、银行卡账户总数、分期付款的账户数、开立的循环账户的数量、循环账户总数、余额大于0的循环账户的交易次数、已过期120天的账户数量、逾期30天的账户数、过去一年开立的账户数、开立的银行账户总数、剩余的未偿还本金占总金额的比重、借款人从未拖欠的交易占总交易数的比重、借款人银行卡可用信贷金额占信贷限额的比重、借款目标、借款人账户可周转资金的总额、借款人正在使用资金占可周转总金额的比重、借款期限、贷款理由总体描述、信用额度、现在总信用额度、不包括抵押贷款的信贷总额、借款人银行卡信用额度、借款人信用卡分期付款信用额度、借款人到期支付的利息、借款人到期支付的本金、借款人循环贷款占信贷限额的比重、借款人的收入来源是否确定、联合借款人收入来源是否确定、借款人地址邮编前三位。
进一步地,步骤2)中,
所述缺失值处理的实现为,统计所述初始数据集中每个特征数据的缺失值比例,若某个特征数据的缺失值比例大于20%,则移除所述特征,若某个特征数据的缺失值比例小于20%,则将所述特征数据的缺失值填补为0;
所述异常值处理的实现为,采用三倍标准差法,首先筛选所述初始数据集中每个特征数据中与所述特征数据的均值之差大于三倍所述特征数据的标准差的异常值,调整为所述特征数据的均值与三倍所述特征数据的标准差之和;然后筛选所述初始数据集中每个特征数据中与所述特征数据的均值之差小于三倍所述特征数据的标准差相反数的异常值,调整为所述特征数据的均值与三倍所述特征数据的标准差之差,其中所述初始数据集中第j个样本第i个特征数据的异常值经异常值处理调整后的数值x′outlier(i,j)
xij表示所述初始数据集中第j个样本第i个特征数据的异常值,μi表示所述初始数据集中第i个特征数据的均值,σi表示所述初始数据集中第i个特征数据的标准差;
所述标准化处理的实现为,采用z-score方法,将所述初始数据集中每个特征数据的数值,替换为每个特征数据的z-score,其中所述初始数据集中第i个特征数据的数值经标准化处理替换后的数值f′norm(i)
fi表示所述初始数据集中第i个特征数据,μi表示所述初始数据集中第i个特征数据的均值,σi表示所述初始数据集中第i个特征数据的标准差。
进一步地,所述步骤三具体包括:
为了建立科学的个人信用评估模型,从违约/未违约、训练集/测试集两个角度,对数据集进行划分。从违约和未违约的角度来看,由于实际情况中违约个体数远远少于未违约个体数,所以为了避免类别的有偏性对分类模型产生的影响,从1:1,1:2和1:3设定正样本与负样本抽样比率,对数据集进行第一层划分。
从训练集和测试集的角度来看,通过不同的训练集和测试集比率,对个人信用评估进行建模能够有效的全面验证模型的有效性,从80:20,70:30,60:40设定训练集和测试集划分比率,对数据集进行第二层划分。
进一步地,所述步骤4)、步骤5)或步骤6)中,所述若干集成树模型分别为GBDT模型、XGBoost模型与LightGBM模型,所述若干已训练集成树模型分别为已训练GBDT模型、已训练XGBoost模型与已训练LightGBM模型。
进一步地,所述步骤4)中,所述对若干集成树模型参数分别进行训练,分别得到若干已训练集成树模型的实现为:
41)对每个所述集成树模型,使用网格搜索方法初始化所述集成树模型参数;所述集成树模型中决策树数量范围为50~200,搜索步长为10;所述集成树模型中叶节点包含的最小样本数量范围20~50,搜索步长为5;所述集成树模型中树的高度范围为5~10,搜索步长为1;
42)对每个所述集成树模型,将步骤3)所述训练集输入所述集成树模型,因为梯度提升的计算目的是为了减少上一次计算结果的残差,所以为了消除残差,若第m-1轮的所述集成树模型输出的样本标签信息为Fm-1(x),则损失函数L(y,Fm-1(x))=y-Fm-1(x),其中y为真实的样本标签信息;
43)对每个所述集成树模型,通过L(y,Fm-1(x))对Fm-1(x)求偏导得到第m轮所述集成树模型的优化方向,学习率γm-1控制第m-1轮所述集成树模型输出的样本标签信息的贡献度,则第m轮所述集成树模型输出的样本标签信息为/>
44)对每个所述集成树模型,迭代重复步骤42)~43),直至第m轮与第m-1轮的所述集成树模型输出的样本标签信息Fm(x)与Fm-1(x)之差小于设定阈值时,则迭代重复停止,得到已训练集成树模型;
所述将所述训练集特征数据分别输入至若干已训练集成树模型中,并分别提取经所述已训练集成树模型特征转换后的训练集特征数据的实现为:
45)对所述训练集中每个样本,将所述样本对应的特征向量S输入第i个所述已训练集成树模型,根据第i个所述已训练集成树模型中的条件规则,判断所述样本最终落在第i个所述已训练集成树模型中的某个叶节点,具体的特征转换的实现示意图如图2所示;
46)使用第i个所述已训练集成树模型的叶节点序列向量Mi表示所述样本对应的特征转换后的特征向量S′i,进而得到训练集特征转换后的特征数据,其中:
Mi=[mi1,...,mij,...,min],
mij表示第i个所述已训练集成树模型中第j个叶结点值,n表示第i个所述已训练集成树模型中叶结点的数量。
进一步地,所述步骤5)种,所述将步骤4)中所述训练集特征转换后的特征数据进行融合,得到训练集特征融合后的特征数据,进而得到特征融合后的训练集的实现为:
对所述训练集中每个样本,若输入第i个所述已训练集成树模型提取得到所述样本对应的特征转换后的特征向量为S′i,则所述样本对应的特征融合后的特征向量:
S′fusion=[S′1,...,S′i,…S′N],
其中N表示所述已训练集成树模型的数量,进而得到训练集特征融合后的特征数据。
进一步地,所述步骤6中,所述Logistic回归模型表示为:
log(p(y=1|x))=wTx,
其中,x表示所述特征融合后的特征数据,w表示特征权重,y表示样本标签,若y=0,样本标签为信用未违约,若y=1,样本标签为信用违约,p(yi|x)表示所述预测样本标签为信用违约或信用违约的条件概率分布,若p(yi|x)>0.5,则所述预测样本标签为信用违约,若p(yi|x)<0.5,则所述预测样本标签为信用未违约。
最后通过训练得到的Logistic回归模型对个人信用风险进行评估分类,具体实施例如下:
为了验证本发明方法在个人信用风险评估中的性能,从Lending Club上收集了2015-2016两年间的个人历史信贷数据,共计688,870条信贷记录。其中,违约记录6,514条,未违约记录682,356条,表现为严重的类不平衡分布特点。根据违约和未违约的不同比例分别建立三个不同的初始数据集,如表1所示:
表1:初始数据集
数据集 违约样本量 未违约样本量 违约比率
数据集1 6514 6514 1:1
数据集2 6514 13028 1:2
数据集3 6514 19542 1:3
选取了Logistic回归(Logistic Regression,LR)、支持向量机(Support VectorMachine,SVM)、随机森林(Random Forest)、GBDT、XGBoost和LightGBM,以及各种集成树模型与Logistic回归的融合模型,集成树模型包括随机森林、GBDT、XGBoost和LightGBM,与本发明提出的COM-LR方法进行对比实验。本实验例通过python实现,且为了公平比较,每个模型中的参数均设置为缺省值。采用的个人信用风险评估的指标包括AUC和F1-Score。实验例流程如图2所示:
为了避免由于一次实验可能造成的随机性,通过随机采样的方式进行了30次的实验,其中训练样本和测试样本划分的比例分别是20%,30%和40%,最后取30次实验的平均结果和方差来评判算法性能的好坏。本发明提出的算法结果和对比算法的结果分别列于:
表2:个人信用风险评估结果(违约的正样本/未违约的负样本比例1:1)
表3:个人信用风险评估结果(违约的正样本/未违约的负样本比例1:2)
表4:个人信用风险评估结果(违约的正样本/未违约的负样本比例1:3)
表2-4列出了所有情况下各个模型的个人信用风险评估结果,在每种情形下的最优结果标为粗体。从表2-4中模型预测性能中可以看出,除表4中的一种情况外,本发明的方法均取得了最好的个人信用评估结果。以表2为例,在训练集和测试集划分比例为80:20的情况下,本发明的方法对违约和未违约分类的AUC和F1-Score结果分别为80.5%和80%,相比于其它十余种方法具有最好的个人信用风险评估性能。在其它情况下,本发明的方法具有相似的性能,均取得了最好的评估性能。此外,通过观察每个模型的方差不难看出,本发明的方法也具有较小的方差,说明本发明的方法在个人信用风险评估中性能稳定,是一个十分有效的个人信用风险评估方法。
如图3中的(a)所示,无论是AUC测度指标,还是F1-SCORE测度指标,本发明的COM-LR方法对应的箱线图均具有最好的分类性能,相比于其它方法,在最小值、最大值、四分位数和均值上均高于对比算法。图3中的(b)和(c)具有相同的分类性能情况。
总之,本发明的一种基于集成树特征提取和Logistic回归的个人信用风险评估方法,首先采集了个人信用贷款的历史记录数据,对数据预处理后进行了两个维度的数据集划分,再采用三种梯度提升决策树算法,对初始的特征集合进行转化和提取,并将转化和提取的新的特征集合进行融合,得到用于Logistic回归建模的新的数据集,最后实现了个人信用风险的评估工作,并进行了实验验证。实验结果表明,本发明具有优良的个人信用风险评估性能,并且本发明方法的评估效果稳健。
以上所述为本发明的实施例子,凡在本发明的思想和方法之内,所做的修改、替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于集成树特征提取和Logistic回归的个人信用风险评估模型训练方法,其特征在于,所述方法包括以下步骤:
步骤1)数据收集,收集用户的历史信贷数据作为初始数据集,所述初始数据集包括若干样本标签不同的样本,所述样本标签标记为信用违约的样本为正样本,所述样本标签标记为信用未违约的样本为负样本,所述样本包含若干不同信贷相关的特征数据与对应的样本标签信息;
步骤2)数据预处理,对步骤1)所述初始数据集特征数据进行预处理,得到已预处理数据集,所述预处理包括缺失值处理、异常值处理与标准化处理;
步骤3)数据分层抽样划分:按照设定正样本与负样本抽样比率、以及设定训练集与测试集划分比率对数据集,对步骤2)所述已预处理数据集进行随机抽样划分,得到训练集与测试集;
步骤4)特征转换提取:使用步骤3)所述训练集,对若干集成树模型参数分别进行训练,分别得到若干已训练集成树模型,将所述训练集特征数据分别输入至若干已训练集成树模型中,并分别提取得到训练集特征转换后的特征数据;
步骤5)特征融合:将步骤4)中从所述若干已训练集成树模型中分别提取的所述训练集特征转换后的特征数据进行融合,得到训练集特征融合后的特征数据,进而得到特征融合后的训练集;
步骤6)模型评估:使用步骤5)所述特征融合后的训练集,对Logistic回归模型参数进行训练,得到已训练Logistic回归模型,将步骤3)所述测试集的特征数据所入至步骤4)所述若干已训练集成树模型中,并提取测试集特征转换后的特征数据,将训练集所述特征转换后的特征数据进行融合,得到测试集特征融合后的特征数据,进而得到特征融合后的测试集,将所述特征融合后的测试集输入所述已训练Logistic回归模型,所述已训练Logistic回归模型输出所述特征融合后的测试集中每个样本的预测样本标签为信用未违约或信用违约,并与所述特征融合后的测试集中每个样本的真实样本标签相比较以完成模型评估,进而建立所述方法。
2.如权利要求1所述的一种基于集成树特征提取和Logistic回归的个人信用风险评估模型训练方法,其特征在于,所述步骤1)中,所述若干不同信贷相关的特征数据中的特征包括但不限于,借款人欠款的信用账户数量、过去两年的交易次数、借款人地址、借款人的年收入、贷款申请是个人申请还是多人联合申请、借款人各个账户活期存款余额、借款人信用卡开卡账户数量、借款人信用卡账户可用金额占最高信用额度的比重、借款人每月偿债金额占月收入的比重、联合借款人每月偿债金额占月收入的比重、借款人的工作年限、借款人的房屋所有情况、利率、上个月收到借款人的还款、借款人申请的贷款金额、借款人的账号、距离借款人最早开立的循环账户的月份、抵押账户的数量、当前使用的银行卡账户数、正常还款的银行卡账户数、银行卡账户总数、分期付款的账户数、开立的循环账户的数量、循环账户总数、余额大于0的循环账户的交易次数、已过期120天的账户数量、逾期30天的账户数、过去一年开立的账户数、开立的银行账户总数、剩余的未偿还本金占总金额的比重、借款人从未拖欠的交易占总交易数的比重、借款人银行卡可用信贷金额占信贷限额的比重、借款目标、借款人账户可周转资金的总额、借款人正在使用资金占可周转总金额的比重、借款期限、贷款理由总体描述、信用额度、现在总信用额度、不包括抵押贷款的信贷总额、借款人银行卡信用额度、借款人信用卡分期付款信用额度、借款人到期支付的利息、借款人到期支付的本金、借款人循环贷款占信贷限额的比重、借款人的收入来源是否确定、联合借款人收入来源是否确定、借款人地址邮编前三位。
3.如权利要求1所述的一种基于集成树特征提取和Logistic回归的个人信用风险评估模型训练方法,其特征在于,所述步骤2)中,
所述缺失值处理的实现为,统计所述初始数据集中每个特征数据的缺失值比例,若某个特征数据的缺失值比例大于20%,则移除所述特征,若某个特征数据的缺失值比例小于20%,则将所述特征数据的缺失值填补为0;
所述异常值处理的实现为,采用三倍标准差法,首先筛选所述初始数据集中每个特征数据中与所述特征数据的均值之差大于三倍所述特征数据的标准差的异常值,调整为所述特征数据的均值与三倍所述特征数据的标准差之和;然后筛选所述初始数据集中每个特征数据中与所述特征数据的均值之差小于三倍所述特征数据的标准差相反数的异常值,调整为所述特征数据的均值与三倍所述特征数据的标准差之差,其中所述初始数据集中第j个样本第i个特征数据的异常值经异常值处理调整后的数值x'outlier(i,j)
xij表示所述初始数据集中第j个样本第i个特征数据的异常值,μi表示所述初始数据集中第i个特征数据的均值,σi表示所述初始数据集中第i个特征数据的标准差;
所述标准化处理的实现为,采用z-score方法,将所述初始数据集中每个特征数据的数值,替换为每个特征数据的z-score,其中所述初始数据集中第i个特征数据的数值经标准化处理替换后的数值f'norm(i)
fi表示所述初始数据集中第i个特征数据,μi表示所述初始数据集中第i个特征数据的均值,σi表示所述初始数据集中第i个特征数据的标准差。
4.如权利要求1所述的一种基于集成树特征提取和Logistic回归的个人信用风险评估模型训练方法,其特征在于,所述步骤3)中,所述设定正样本与负样本抽样比率为1:1、1:2或1:3,所述设定训练集和测试集划分比率为80:20、70:30或60:40。
5.如权利要求1所述的一种基于集成树特征提取和Logistic回归的个人信用风险评估模型训练方法,其特征在于,所述步骤4)中,所述对若干集成树模型参数分别进行训练,分别得到若干已训练集成树模型的实现为:
41)对每个所述集成树模型,使用网格搜索方法初始化所述集成树模型参数;所述集成树模型中决策树数量范围为50~200,搜索步长为10;所述集成树模型中叶节点包含的最小样本数量范围20~50,搜索步长为5;所述集成树模型中树的高度范围为5~10,搜索步长为1;
42)对每个所述集成树模型,将步骤3)所述训练集输入所述集成树模型,若第m-1轮的所述集成树模型输出的样本标签信息为Fm-1(x),则损失函数L(y,Fm-1(x))=y-Fm-1(x),其中y为真实的样本标签信息;
43)对每个所述集成树模型,通过L(y,Fm-1(x))对Fm-1(x)求偏导得到第m轮所述集成树模型的优化方向,学习率γm-1控制第m-1轮所述集成树模型输出的样本标签信息的贡献度,则第m轮所述集成树模型输出的样本标签信息为/>
44)对每个所述集成树模型,迭代重复步骤42)~43),直至第m轮与第M-1轮的所述所述集成树模型输出的样本标签信息Fm(x)与Fm-1(x)之差小于设定阈值时,则迭代重复停止,得到已训练集成树模型;
所述将所述训练集特征数据分别输入至若干已训练集成树模型中,并分别提取经所述已训练集成树模型特征转换后的训练集特征数据的实现为:
45)对所述训练集中每个样本,将所述样本对应的特征向量S输入第i个所述已训练集成树模型,根据第i个所述已训练集成树模型中的条件规则,判断所述样本最终落在第i个所述已训练集成树模型中的某个叶节点;
46)使用第i个所述已训练集成树模型的叶节点序列向量Mi表示所述样本对应的特征转换后的特征向量S'i,进而得到训练集特征转换后的特征数据,其中:
Mi=[mi1,…,mij,…,min],
mij表示第i个所述已训练集成树模型中第j个叶结点值,n表示第i个所述已训练集成树模型中叶结点的数量。
6.如权利要求1所述的一种基于集成树特征提取和Logistic回归的个人信用风险评估模型训练方法,其特征在于,所述步骤5)中,所述将步骤4)中所述训练集特征转换后的特征数据进行融合,得到训练集特征融合后的特征数据,进而得到特征融合后的训练集的实现为:
对所述训练集中每个样本,若输入第i个所述已训练集成树模型提取得到所述样本对应的特征转换后的特征向量为S'i,则所述样本对应的特征融合后的特征向量:
S′fusion=[s1,…,Si,…SN],
其中N表示所述已训练集成树模型的数量,进而得到训练集特征融合后的特征数据。
7.如权利要求1所述的一种基于集成树特征提取和Logistic回归的个人信用风险评估模型训练方法,其特征在于,所述步骤6中,所述Logistic回归模型表示为:
log(p(y=1|x))=wTx,
其中,x表示所述特征融合后的特征数据,w表示特征权重,y表示样本标签,若y=0,样本标签为信用未违约,若y=1,样本标签为信用违约,p(yi|x)表示所述预测样本标签为信用违约或信用违约的条件概率分布,若p(yi|x)>0.5,则所述预测样本标签为信用违约,若p(yi|x)<0.5,则所述预测样本标签为信用未违约。
8.如权利要求1所述的一种基于集成树特征提取和Logistic回归的个人信用风险评估模型训练方法,其特征在于,所述步骤4)、步骤5)或步骤6)中,所述若干集成树模型分别为GBDT模型、XGBoost模型与LightGBM模型,所述若干已训练集成树模型分别为已训练GBDT模型、已训练XGBoost模型与已训练LightGBM模型。
CN202010492038.0A 2020-06-03 2020-06-03 一种基于集成树特征提取和Logistic回归的个人信用风险评估方法 Active CN111652710B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010492038.0A CN111652710B (zh) 2020-06-03 2020-06-03 一种基于集成树特征提取和Logistic回归的个人信用风险评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010492038.0A CN111652710B (zh) 2020-06-03 2020-06-03 一种基于集成树特征提取和Logistic回归的个人信用风险评估方法

Publications (2)

Publication Number Publication Date
CN111652710A CN111652710A (zh) 2020-09-11
CN111652710B true CN111652710B (zh) 2024-01-30

Family

ID=72344234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010492038.0A Active CN111652710B (zh) 2020-06-03 2020-06-03 一种基于集成树特征提取和Logistic回归的个人信用风险评估方法

Country Status (1)

Country Link
CN (1) CN111652710B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967543A (zh) * 2020-10-23 2020-11-20 北京淇瑀信息科技有限公司 用户资源配额确定方法、装置及电子设备
CN112270547A (zh) * 2020-10-27 2021-01-26 上海淇馥信息技术有限公司 基于特征构造的金融风险评估方法、装置和电子设备
CN112418520B (zh) * 2020-11-22 2022-09-20 同济大学 一种基于联邦学习的信用卡交易风险预测方法
CN112288334B (zh) * 2020-11-27 2024-04-16 上海评驾科技有限公司 一种基于lightgbm的车联网风险因子的提取方法
CN112862585A (zh) * 2020-12-02 2021-05-28 浙江惠瀜网络科技有限公司 基于LightGBM决策树算法的个贷类不良资产风险评级方法
CN112686749B (zh) * 2020-12-31 2021-09-17 上海竞动科技有限公司 一种基于逻辑回归技术的信用风险评估方法及装置
CN112734568B (zh) * 2021-01-29 2024-01-12 深圳前海微众银行股份有限公司 信用评分卡模型构建方法、装置、设备及可读存储介质
CN112906772A (zh) * 2021-02-04 2021-06-04 深圳前海微众银行股份有限公司 样本处理方法、装置、设备及计算机可读存储介质
CN113240355B (zh) * 2021-07-12 2021-11-02 贝壳找房(北京)科技有限公司 Im服务评价模型的训练方法及评价方法
CN113538132B (zh) * 2021-07-26 2024-04-23 天元大数据信用管理有限公司 一种基于回归树算法的信用评分方法、设备及介质
CN113793212A (zh) * 2021-09-24 2021-12-14 重庆富民银行股份有限公司 一种信用评估方法
CN114663219B (zh) * 2022-03-28 2023-09-12 南通电力设计院有限公司 一种基于能源互联电力市场的主体征信评估方法及系统
CN115631032A (zh) * 2022-10-31 2023-01-20 深圳市中兴新云服务有限公司 一种基于可拖拽算子流的客商信用风险评估方法和系统
CN115660834B (zh) * 2022-12-23 2023-04-07 河北雄安舜耕数据科技有限公司 基于决策树的个贷风险评估方法
CN116452320B (zh) * 2023-04-12 2024-04-30 西南财经大学 一种基于持续学习的信用风险预测方法
CN117391836A (zh) * 2023-07-26 2024-01-12 人上融融(江苏)科技有限公司 一种基于不同标签的异质集成进行逾期概率建模的方法
CN117196776A (zh) * 2023-09-09 2023-12-08 广东德澳智慧医疗科技有限公司 一种基于随机梯度提升树算法的跨境电商产品信用标记与售后系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194803A (zh) * 2017-05-19 2017-09-22 南京工业大学 一种p2p网贷借款人信用风险评估的装置
CN107808246A (zh) * 2017-10-26 2018-03-16 上海维信荟智金融科技有限公司 征信数据的智能评估方法及系统
CN108154430A (zh) * 2017-12-28 2018-06-12 上海氪信信息技术有限公司 一种基于机器学习和大数据技术的信用评分构建方法
CN110738564A (zh) * 2019-10-16 2020-01-31 信雅达系统工程股份有限公司 贷后风险评估方法及装置、存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11682074B2 (en) * 2018-04-13 2023-06-20 Gds Link Llc Decision-making system and method based on supervised learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194803A (zh) * 2017-05-19 2017-09-22 南京工业大学 一种p2p网贷借款人信用风险评估的装置
CN107808246A (zh) * 2017-10-26 2018-03-16 上海维信荟智金融科技有限公司 征信数据的智能评估方法及系统
CN108154430A (zh) * 2017-12-28 2018-06-12 上海氪信信息技术有限公司 一种基于机器学习和大数据技术的信用评分构建方法
CN110738564A (zh) * 2019-10-16 2020-01-31 信雅达系统工程股份有限公司 贷后风险评估方法及装置、存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于极端随机树与Logistic回归算法的网贷平台个人信用评估模型的比较研究;韦良芳;CNKI优秀硕士学位论文全文库;第23-39页 *
基于随机森林模型的个人信用评估研究;何静;CNKI优秀硕士学位论文全文库;第32-60页 *

Also Published As

Publication number Publication date
CN111652710A (zh) 2020-09-11

Similar Documents

Publication Publication Date Title
CN111652710B (zh) 一种基于集成树特征提取和Logistic回归的个人信用风险评估方法
Hamid et al. Developing prediction model of loan risk in banks using data mining
Syed Nor et al. Personal bankruptcy prediction using decision tree model
CZ20013132A3 (cs) Ohodnocovací předpovědní modely v situacích s chybějícími vstupy
Ereiz Predicting default loans using machine learning (OptiML)
AU2020101475A4 (en) A Financial Data Analysis Method Based on Machine Learning Models
CN111401600A (zh) 基于关联关系的企业信用风险评价方法和系统
CN112613977A (zh) 一种基于政务数据的个人信用贷款准入授信方法及系统
Gao et al. Research on default prediction for credit card users based on XGBoost‐LSTM model
CN113822542A (zh) 一种基于政务大数据的企业征信平台构建方法
Rey et al. Earnings management and debt maturity: Evidence from Italy
Nath Country risk analysis: A survey of the quantitative methods
Liu et al. Attentive feature fusion for credit default prediction
CN115660834B (zh) 基于决策树的个贷风险评估方法
Koç et al. Consumer loans' first payment default detection: a predictive model
Mittal et al. A study on credit risk assessment in banking sector using data mining techniques
CN115204457A (zh) 一种基于图注意力网络贷款违约风险预测方法
CN112508689A (zh) 一种基于多维度实现决策评估的方法
Zhou Loan Default Prediction Based on Machine Learning Methods
Makatjane Deep Learning for Sentiment Analysis to Predict the Probability of Bank Loan Default
CN113610638B (zh) 基于smaa-ds的信用等级与违约损失率相匹配的评级系统及方法
Sudjono et al. Comparison of Different Machine Learning Algorithms for Predicting Loan Risk Categories
Gad et al. Default Credit Predictive Analytics Model to Enhance Bank Decision Making Using Big Data
Chi Managing credit risk and the cost of equity with machine learning techniques
Wang et al. Credit Risk Analysis Using the Big Data of Chinese Microfinance Company

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant