CN110472817B - 一种结合深度神经网络的XGBoost集成信用评价系统及其方法 - Google Patents

一种结合深度神经网络的XGBoost集成信用评价系统及其方法 Download PDF

Info

Publication number
CN110472817B
CN110472817B CN201910595039.5A CN201910595039A CN110472817B CN 110472817 B CN110472817 B CN 110472817B CN 201910595039 A CN201910595039 A CN 201910595039A CN 110472817 B CN110472817 B CN 110472817B
Authority
CN
China
Prior art keywords
training
neural network
deep neural
xgboost
credit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910595039.5A
Other languages
English (en)
Other versions
CN110472817A (zh
Inventor
贺小伟
李思奇
王宾
贺心畋
王文强
张翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest University
Original Assignee
Northwest University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest University filed Critical Northwest University
Priority to CN201910595039.5A priority Critical patent/CN110472817B/zh
Publication of CN110472817A publication Critical patent/CN110472817A/zh
Application granted granted Critical
Publication of CN110472817B publication Critical patent/CN110472817B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Strategic Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Technology Law (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种结合深度神经网络的XGBoost集成信用评价系统及其方法,包括数据预处理单元、数据划分单元、特征提取单元、训练单元和结果处理单元,利用深度神经网络提取训练集中的隐藏特征,将提取出来的隐藏特征进一步作为XGBoost的输入进行训练,最后对测试集进行预测,所得预测结果为信用概率。原始数据被分为训练集和测试集,在训练集中采用装袋采样方法生成可变训练子集:每个训练子集训练深度神经网络模型,选取出最后一个隐藏层的模型,将训练集和测试集进行特征提取以获得更多隐藏特征;将获得的训练集特征再通过XGBoost进行训练,对提取的测试集特征进行预测,将不同的基分类器的预测结果进行平均获得最终分类结果。该集成方法的准确性有明显的提高。

Description

一种结合深度神经网络的XGBoost集成信用评价系统及其 方法
技术领域
本发明属于金融信用风险评估技术领域,涉及一种结合深度神经网络的XGBoost集成信用评价系统及其方法。
背景技术
信用风险一直以来都是金融机构面临的最重要问题之一。随着大众消费观念的改变以及金融行业的发展,信贷业务发展迅速,相对应的金融机构面临的挑战也越来越严峻。信用评分在其中发挥着重要作用,它可以对信用申请人的潜在风险进行建模,将信用申请人划分为“好客户”或“坏客户”,是一个二元分类技术。对于银行,金融机构或者其他互联网金融公司而言,将“坏客户”的申请人划分为“好客户”的损失远远大于将“好客户”的申请人划分为“坏客户”的损失。如何构建一个稳定可靠的信用评分模型引起了学术界和商业界的广泛关注。
信用风险评估有两种主流的分类技术,分别是统计技术和机器学习技术。在统计技术中,常用的方法是线性判别分析(Linear discriminant analysis,LDA)和逻辑回归(Logistic regression,LR)。但LDA和LR都有理想性的统计假设,对复杂的金融系统建模是非常困难的。机器学习技术也被广泛应用于信用评分,其中包括k-最近邻(K-nearestneighbor,KNN),支持向量机(Support vector machine,SVM),决策树(Decision tree,DT),数学规划以及具有单个隐藏层的多层感知机(Multi-layer perceptron,MLP)。
研究人员提出了一种基于滤波方法和多种群遗传算法(Hybrid multiplepopulation genetic algorithm,HMPGA)的两阶段混合模型,该方法在特征选择方面是有效的,参见D.Wang,Z.Zhang,R.Bai,and Y.Mao,“A hybrid system with filter approachand multiple population genetic algorithm for feature selection in creditscoring,”Journal of Computational and Applied Mathematics,vol.329,pp.307–321,2018.虽然单分类器相对容易实现,并且在简单场景中可以得到较满意的结果,但是对于复杂的场景来说,单分类器不能捕捉到个体之间的细微差别。因此有研究人员提出了集成学习方法,He等人构建了一个新的三阶段集成模型,通过扩展的监督欠采样方法构建可调数据子集,随机森林和极端梯度增强算法作为三阶段集成模型的基分类器,采用堆叠的方式进行集成,并通过粒子群优化算法进行参数优化。结果表明,该模型的平均性能优于其他算法。参见H.He,W.Zhang,and S.Zhang,“A novel ensemble method for credit scoring:Adaption of different imbalance ratios,”Expert Systems with Applications,vol.98,pp.105–117,2018.但是该模型主要关注于集成策略,很少关注于原始数据中隐藏的有价值的信息。
发明内容
针对现有技术中的缺陷和不足,本发明提供了一种结合深度神经网络(Deepneural network,DNN)的XGBoost集成信用评价系统及其方法,解决了现有技术中存在的上述问题。通过深度神经网络对原始数据中隐藏的有价值的信息进行充分的提取,采用集成学习方法提高分类器的多样性。
为达到上述目的,本发明采取如下的技术方案:
本发明提供一种结合深度神经网络的XGBoost集成信用评价系统,包括:
数据预处理单元,用于对缺失数据的原始数据集进行缺失值处理,且对原始数据集中的分类属性进行转化;
数据划分单元,用于将从数据预处理单元得到的数据集划分测试集与训练集,并将训练集划分为多个训练子集;采用装袋算法将训练集生成不同的训练子集,给定训练集D,其数据大小为P,使用装袋算法有放回的随机采样N个训练子集,每个训练子集的数据大小为m,其中,m<P;
特征提取单元,用于通过深度神经网络对每一个训练子集进行特征提取,同时根据该训练子集的模型提取测试集特征:对于在数据划分单元中生成的每一个训练子集,训练深度神经网络模型,所述深度神经网络模型包括输入层、多个隐藏层和输出层;选取出每一个训练子集对应的深度神经网络模型中最后一个隐藏层,针对不同的训练子集对应的深度神经网络模型分别对测试集进行特征提取,得到测试集特征,以获得训练集中的隐藏特征;
训练单元,用于通过XGBoost对提取后的训练子集进行训练,并预测信用概率:对于特征提取单元中每一个提取特征后的训练子集进一步使用XGBoost算法进行训练,每一个训练子集训练得到的XGBoost模型为一个基分类器,通过所述基分类器对得到的所述测试集特征进行信用概率预测;
结果处理单元,用于将多个基分类器的结果进行平均,得到最终信用表现:将不同的基分类器所得的测试集的信用概率进行平均,获得最终信用表现。
本发明还包括如下技术特征:
具体的,所述数据处理单元包括:缺失值处理模块,用于在原始数据集中某个数值属性的缺失值大于样本总数的2%时,采用均值的方法进行填充,否则用0填充;并且用于在原始数据集中有分类属性时,填充为新的类别;
还包括分类属性转化模块,用于采用虚拟变量代替分类属性,对分类属性进行处理。
具体的,所述数据划分单元用于分别将数据集中的正样本和负样本的20%用作测试集,剩余的80%用作训练集;
每一个训练子集中样本数量为原始训练集样本数量的90%,训练子集的数量为10-15个。
具体的,所述深度神经网络模型的隐藏层数为3层,DNN的输入层激活函数采用ReLU;输出层的激活函数采用Softmax;代价函数为分类交叉熵;优化器采用Rmsprop;迭代数量为500,Batch_size为30。
具体的,所述XGBoost的学习率为0.03,树的最大深度为5,属性采样比为0.8,迭代次数为100。
本发明还提供一种结合深度神经网络的XGBoost集成信用评价方法,该方法利用深度神经网络提取训练集中的隐藏特征,将提取出来的隐藏特征进一步作为XGBoost的输入进行训练,最后对测试集进行预测,所得预测结果为信用概率[0,1],其中信用概率大于0.5表示信用良好的申请人,小于0.5为信用不良的申请人。
本发明还包括如下技术特征:
该方法包括如下步骤:
S1:数据预处理:对缺失数据的原始数据集进行缺失值处理,且对原始数据集中的分类属性进行转化;
S2,将步骤一得到的数据集划分测试集与训练集,并将训练集划分为多个训练子集;
其中,采用装袋算法将训练集生成不同的训练子集,给定训练集D,其数据大小为P,使用装袋算法有放回的随机采样N个训练子集,每个训练子集的数据大小为m(m<P);
S3,使用深度神经网络对每一个训练子集进行特征提取,同时根据该训练子集的模型提取测试集特征:
对于步骤S2中生成的每一个训练子集,训练深度神经网络模型,所述深度神经网络模型包括输入层、多个隐藏层和输出层;选取出每一个训练子集对应的深度神经网络模型中最后一个隐藏层,针对不同的训练子集对应的深度神经网络模型分别对测试集进行特征提取,得到测试集特征,以获得训练集中的隐藏特征;
步骤S4,使用XGBoost对提取后的训练子集进行训练,并预测信用概率:
对于步骤S3中每一个提取特征后的训练子集进一步使用XGBoost算法进行训练,每一个训练子集训练得到的XGBoost模型为一个基分类器,通过所述基分类器对步骤S3中得到的所述测试集特征进行信用概率预测;
步骤S5,多个基分类器的结果进行平均,得到最终信用表现:
将步骤S4中不同的基分类器所得的测试集的信用概率进行平均,获得最终信用表现。
具体的,所述步骤S1中:
进行缺失值处理具体为:若原始数据集中某个数值属性的缺失值大于样本总数的2%,采用均值的方法进行填充,否则用0填充;若原始数据集中有分类属性,则填充为新的类别;
对分类属性的转化是采用虚拟变量代替分类属性(分类特征),对分类属性进行处理;例如分类属性A4的值包括u,y,l,t。这里分别使用虚拟变量0,1,2,3来代替对应的u,y,l,t,进而转化为离散数值属性。
具体的,所述步骤S2中:分别将数据集中的正样本和负样本的20%用作测试集,剩余的80%用作训练集;正样本是好客户即信用良好的申请人,负样本是坏客户即信用不良的申请人;
每一个训练子集中样本数量为原始训练集样本数量的90%,训练子集的数量为10-15个。
具体的,所述步骤S3中:深度神经网络的隐藏层数设置为3层,可达到最优效果,DNN的输入层激活函数采用ReLU;输出层的激活函数采用Softmax;代价函数为分类交叉熵;优化器采用Rmsprop;迭代数量为500,Batch_size为30。
具体的,所述步骤S4中:XGBoost的学习率为0.03,树的最大深度为5,属性采样比为0.8,迭代次数为100。
本发明与现有技术相比,有益的技术效果是:
(Ⅰ)本发明提出了一种结合深度神经网络的集成分类模型用于信用评分。原始数据被分为训练集和测试集,在训练集中采用装袋采样(Bagging)方法来生成可变训练子集。所提出的模型的框架如图1所示,该过程主要分为两个步骤:(1)就每一个训练子集而言,训练深度神经网络(DNN)模型,然后选取出最后一个隐藏层的模型,将训练集和测试集进行特征提取以获得更多有价值的信息。(2)将第一步获得的训练集特征再通过XGBoost进行训练,对提取的测试集特征进行预测。最后将不同的基分类器的预测概率结果进行简单平均以获得最终分类结果。
(Ⅱ)深层提取原始数据特征。在本发明中,利用深度神经网络对原始数据进行了深层的挖掘,生成了原始数据中更高级别的特征,为后面基分类器的训练提供支持。
(Ⅲ)提高分类器的多样性。采用集成学习的方法,随机有放回的从正样本训练集和负样本训练集中抽取一定的比例生成多个训练子集,利用深度神经网络对特征进行提取,进而作为XGBoost的输入进行训练,这有助于提高基分类器的多样性。
(Ⅳ)提高准确性。该集成方法在UCI数据库中的三个公共信用数据集中的准确性都有了明显的提高,并且相比于其他方法,本发明方法的AUC值也有了明显的提高。
附图说明
图1是本发明技术方案的算法流程示意图
图2是本发明技术方案的结合深度神经网络的XGBoost的信用评分集成模型框架图;
图3是本发明中深度神经网络隐藏层数对模型影响的曲线对比图,其中(a)是澳大利亚数据集,(b)是德国数据集,(c)是日本数据集。
具体实施方式
信用风险评估除了应用这些单一分类器进行信用评分外,集合分类往往是提高单个分类器准确性和稳定性的有效方法。集成学习是从不同的算法、特征和训练子集派生出来的分类器以某种方式组合在一起,对未知样本进行类标签的预测。集成分类可以利用基本分类器的多样性来避免他们的弱点,从理论和实验表明,基于集成学习的分类相比于单一分类器在信用评分方面表现更好。近年来,深度神经网络也被广泛用于分类问题中,并且预测效果较浅层架构更好。这种深层结构增加了特征提取能力,可以获取到更多隐藏层的信息。但是深度神经网络应用在信用风险评估中却很少。
本发明提供一种结合深度神经网络的XGBoost集成信用评价系统及其方法,
该系统包括:数据预处理单元,用于对缺失数据的原始数据集进行缺失值处理,且对原始数据集中的分类属性进行转化;
数据划分单元,用于将从数据预处理单元得到的数据集划分测试集与训练集,并将训练集划分为多个训练子集;采用装袋算法将训练集生成不同的训练子集,给定训练集D,其数据大小为P,使用装袋算法有放回的随机采样N个训练子集,每个训练子集的数据大小为m,其中,m<P;
特征提取单元,用于通过深度神经网络对每一个训练子集进行特征提取,同时根据该训练子集的模型提取测试集特征:对于在数据划分单元中生成的每一个训练子集,训练深度神经网络模型,所述深度神经网络模型包括输入层、多个隐藏层和输出层;选取出每一个训练子集对应的深度神经网络模型中最后一个隐藏层,针对不同的训练子集对应的深度神经网络模型分别对测试集进行特征提取,得到测试集特征,以获得训练集中的隐藏特征;
训练单元,用于通过XGBoost对提取后的训练子集进行训练,并预测信用概率:对于特征提取单元中每一个提取特征后的训练子集进一步使用XGBoost算法进行训练,每一个训练子集训练得到的XGBoost模型为一个基分类器,通过所述基分类器对得到的所述测试集特征进行信用概率预测;
结果处理单元,用于将多个基分类器的结果进行平均,得到最终信用表现:将不同的基分类器所得的测试集的信用概率进行平均,获得最终信用表现。
数据处理单元包括:缺失值处理模块,用于在原始数据集中某个数值属性的缺失值大于样本总数的2%时,采用均值的方法进行填充,否则用0填充;并且用于在原始数据集中有分类属性时,填充为新的类别;还包括分类属性转化模块,用于采用虚拟变量代替分类属性,对分类属性进行处理。
数据划分单元用于分别将数据集中的正样本和负样本的20%用作测试集,剩余的80%用作训练集;每一个训练子集中样本数量为原始训练集样本数量的90%,训练子集的数量为10-15个。
深度神经网络模型的隐藏层数为3层,DNN的输入层激活函数采用ReLU;输出层的激活函数采用Softmax;代价函数为分类交叉熵;优化器采用Rmsprop;迭代数量为500,Batch_size为30。
XGBoost的学习率为0.03,树的最大深度为5,属性采样比为0.8,迭代次数为100。
该方法利用深度神经网络提取训练集中的隐藏特征,将提取出来的隐藏特征进一步作为XGBoost的输入进行训练,最后对测试集进行预测,所得预测结果为信用概率[0,1],其中信用概率大于0.5表示信用良好的申请人,小于0.5为信用不良的申请人。该方法包括如下步骤:
S1:数据预处理:对缺失数据的原始数据集进行缺失值处理,且对原始数据集中的分类属性进行转化;进行缺失值处理具体为:若原始数据集中某个数值属性的缺失值大于样本总数的2%,采用均值的方法进行填充,否则用0填充;若原始数据集中有分类属性,则填充为新的类别;对分类属性的转化是采用虚拟变量代替分类属性(分类特征),对分类属性进行处理;
S2,将步骤一得到的数据集划分测试集与训练集,并将训练集划分为多个训练子集;
其中,采用装袋算法将训练集生成不同的训练子集,给定训练集D,其数据大小为P,使用装袋算法有放回的随机采样N个训练子集,每个训练子集的数据大小为m(m<P);
S3,使用深度神经网络对每一个训练子集进行特征提取,同时根据该训练子集的模型提取测试集特征:对于步骤S2中生成的每一个训练子集,训练深度神经网络模型,所述深度神经网络模型包括输入层、多个隐藏层和输出层;选取出每一个训练子集对应的深度神经网络模型中最后一个隐藏层,针对不同的训练子集对应的深度神经网络模型分别对测试集进行特征提取,得到测试集特征,以获得训练集中的隐藏特征;
步骤S4,使用XGBoost对提取后的训练子集进行训练,并预测信用概率:对于步骤S3中每一个提取特征后的训练子集进一步使用XGBoost算法进行训练,每一个训练子集训练得到的XGBoost模型为一个基分类器,通过所述基分类器对步骤S3中得到的所述测试集特征进行信用概率预测;
步骤S5,多个基分类器的结果进行平均,得到最终信用表现:将步骤S4中不同的基分类器所得的测试集的信用概率进行平均,获得最终信用表现。
深度神经网络(DNN)是一个具有三层以上的人工神经网络。它通过深层非线性网络结构,可以实现复杂函数的逼近,表征输入数据分布式表示,并展现了强大的从少数样本集中学习数据集本质特征的能力。
DNN内部的神经网络层可以分为三类:输入层,隐藏层和输出层。层与层之间是全连接的,即,第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。
DNN模型的每一层是一个线性关系:
z=∑ωixi+b
加上一个激活函数σ(z)。其中xi表示第i个神经元的值,ωi是第i个神经元的权重,b是偏移量。输入层没有ω和b参数。这里,我们使用ReLU激活函数:
σ(z)=max(0,z)
若大于等于0则不变,若小于0则激活后为0。假设第l-1层共有m个神经元,第l层共有n个神经元,则第l层的线性系数ω组成了一个n×m的矩阵Wl,第l层的偏倚b组成了一个n×1的向量bl,第l-1层输出a组成了一个m×1的向量al-1。则第l层的输出为:
al=σ(zl)=σ(Wlal-1+bl)
采用分类交叉熵损失函数用梯度下降法进行迭代优化求极小值,达到一定的迭代次数后,获取到最后一个隐藏层的输出值。将获取到的隐藏层输出值,进一步作为XGBoost的输入。
XGBoost是由Chen Tianqi基于梯度提升算法的改进。它不仅具有传统增强算法的高精度优势,而且可以灵活地实现分布式和并行计算。
给定训练集特征向量
Figure BDA0002117376030000081
其对应的类标签为yi∈{-1,+1},i∈1,…,n。XGBoost的预测模型可以表示为:
Figure BDA0002117376030000082
其中fk(xi)表示第k颗树,K为树的总个数,
Figure BDA0002117376030000083
表示样本xi的预测结果。通过最小化以下目标函数来学习函数fk
Figure BDA0002117376030000084
其中
Figure BDA0002117376030000085
为样本xi的训练误差,Ω(fk)表示第k颗树的正则项。对于目标函数的正则项部分,我们从单一的树来考虑。对于其中每一颗回归树,其模型可以写成:
ft(x)=wq(x),w∈Rr,q:Rd→{1,2,…,T}
其中w为叶子节点的得分值,q(x)表示样本x对应的叶子节点。T为该树的叶子节点个数。因此,我们将该树的复杂度写成:
Figure BDA0002117376030000086
其中γ是复杂度参数,λ是固定系数。
XGBoost用泰勒展开式来近似原来的目标函数,则原目标函数可以近似地表示为:
Figure BDA0002117376030000087
Figure BDA0002117376030000091
其中,
Figure BDA0002117376030000092
Ij={i|q(xi)=j}表示在第j个叶子节点上的样本,wj为第j个叶子节点的得分值。通过定义
Figure BDA0002117376030000093
将目标函数改写成了包含T个相互独立的单变量二次函数。因此,XGBoost中每一个叶子节点的最优分数/>
Figure BDA0002117376030000094
和目标函数的解方程如下所示:
Figure BDA0002117376030000095
Figure BDA0002117376030000096
Obj只与树的结构q(x)有关,与叶子节点的得分值无关,因此只要确定树的结构就可以计算出相应的目标函数。
XGBoost采用精确贪婪算法,定义增益公式来启发式的寻找最优树结构,若当前树结构I能被分裂成IL与IR,I=IL∪IR,增益公式可以表示为:
Figure BDA0002117376030000097
其中γ表示引入额外叶子节点的复杂性成本。
遵从上述技术方案,以下给出本发明的具体实施例,需要说明的是本发明并不局限于以下具体实施例,凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。下面结合实施例对本发明做进一步详细说明。
实施例1:
本发明实施例1提供一种结合深度神经网络的XGBoost集成信用评价系统,包括:
数据预处理单元,用于对缺失数据的原始数据集进行缺失值处理,且对原始数据集中的分类属性进行转化;
数据划分单元,用于将从数据预处理单元得到的数据集划分测试集与训练集,并将训练集划分为多个训练子集;采用装袋算法将训练集生成不同的训练子集,给定训练集D,其数据大小为P,使用装袋算法有放回的随机采样N个训练子集,每个训练子集的数据大小为m,其中,m<P;
特征提取单元,用于通过深度神经网络对每一个训练子集进行特征提取,同时根据该训练子集的模型提取测试集特征:对于在数据划分单元中生成的每一个训练子集,训练深度神经网络模型,所述深度神经网络模型包括输入层、多个隐藏层和输出层;选取出每一个训练子集对应的深度神经网络模型中最后一个隐藏层,针对不同的训练子集对应的深度神经网络模型分别对测试集进行特征提取,得到测试集特征,以获得训练集中的隐藏特征;
训练单元,用于通过XGBoost对提取后的训练子集进行训练,并预测信用概率:对于特征提取单元中每一个提取特征后的训练子集进一步使用XGBoost算法进行训练,每一个训练子集训练得到的XGBoost模型为一个基分类器,通过所述基分类器对得到的所述测试集特征进行信用概率预测;
结果处理单元,用于将多个基分类器的结果进行平均,得到最终信用表现:将不同的基分类器所得的测试集的信用概率进行平均,获得最终信用表现。
数据处理单元包括:缺失值处理模块,用于在原始数据集中某个数值属性的缺失值大于样本总数的2%时,采用均值的方法进行填充,否则用0填充;并且用于在原始数据集中有分类属性时,填充为新的类别;还包括分类属性转化模块,用于采用虚拟变量代替分类属性,对分类属性进行处理。
数据划分单元用于分别将数据集中的正样本和负样本的20%用作测试集,剩余的80%用作训练集;每一个训练子集中样本数量为原始训练集样本数量的90%,训练子集的数量为10-15个。
深度神经网络模型的隐藏层数为3层,DNN的输入层激活函数采用ReLU;输出层的激活函数采用Softmax;代价函数为分类交叉熵;优化器采用Rmsprop;迭代数量为500,Batch_size为30。
XGBoost的学习率为0.03,树的最大深度为5,属性采样比为0.8,迭代次数为100。
实施例2:
如图1和图2所示,本发明实施例2提供一种结合深度神经网络的XGBoost集成信用评价系统的评价方法,该方法利用深度神经网络提取训练集中的隐藏特征,将提取出来的隐藏特征进一步作为XGBoost的输入进行训练,最后对测试集进行预测,所得预测结果为信用概率[0,1],其中信用概率大于0.5表示信用良好的申请人,小于0.5为信用不良的申请人。该方法包括如下步骤:
S1:数据预处理:对缺失数据的原始数据集进行缺失值处理,且对原始数据集中的分类属性进行转化;具体的,步骤S1中:进行缺失值处理具体为:若原始数据集中某个数值属性的缺失值大于样本总数的2%,采用均值的方法进行填充,否则用0填充;若原始数据集中有分类属性,则填充为新的类别;对分类属性的转化是采用虚拟变量代替分类属性(分类特征),对分类属性进行处理;
S2,将步骤一得到的数据集划分测试集与训练集,并将训练集划分为多个训练子集;
其中,采用装袋算法将训练集生成不同的训练子集,给定训练集D,其数据大小为P,使用装袋算法有放回的随机采样N个训练子集,每个训练子集的数据大小为m(m<P);具体的,在本实施例中,分别将数据集中的正样本和负样本的20%用作测试集,剩余的80%用作训练集;正样本是好客户即信用良好的申请人,负样本是坏客户即信用不良的申请人;每一个训练子集中样本数量为原始训练集样本数量的90%,训练子集的数量为10-15个。
S3,使用深度神经网络对每一个训练子集进行特征提取,同时根据该训练子集的模型提取测试集特征:
对于步骤S2中生成的每一个训练子集,训练深度神经网络模型,所述深度神经网络模型包括输入层、多个隐藏层和输出层;选取出每一个训练子集对应的深度神经网络模型中最后一个隐藏层,针对不同的训练子集对应的深度神经网络模型分别对测试集进行特征提取,得到测试集特征,以获得训练集中的隐藏特征;
图3中(a)(b)(c)分别展示了三个数据集中不同深度神经网络隐藏层数对模型性能的影响。对于澳大利亚数据集,隐藏层数为3和6时,模型的性能均较好。而隐藏层低于3的性能明显有所下降。隐藏层数为3的Ⅰ型和Ⅱ型错误率分别为0.0658、0.0656。隐藏层数为6时的AUC值为0.9592,准确率为0.9270,F分数也较高为0.9167,Ⅰ型和Ⅱ型错误率分别为0.0526、0.0984。但是更多的隐藏层数意味着时间成本的增加。同样在德国和日本数据集上,隐藏层数为3的性能也明显较更高层数的性能要好。除了Ⅰ型错误率有明显的差异之外,其他的度量指标波动幅度都较小。综上所述,当隐藏层数为3时,提出的模型的性能最佳;因此步骤S3中:深度神经网络的隐藏层数设置为3层,可达到最优效果;更具体的,DNN的输入层激活函数采用ReLU;输出层的激活函数采用Softmax;代价函数为分类交叉熵;优化器采用Rmsprop;迭代数量为500,Batch_size为30。
步骤S4,使用XGBoost对提取后的训练子集进行训练,并预测信用概率:对于步骤S3中每一个提取特征后的训练子集进一步使用XGBoost算法进行训练,每一个训练子集训练得到的XGBoost模型为一个基分类器,通过所述基分类器对步骤S3中得到的所述测试集特征进行信用概率预测;在本实施例中,XGBoost的学习率为0.03,树的最大深度为5,属性采样比为0.8,迭代次数为100。
步骤S5,多个基分类器的结果进行平均,得到最终信用表现:将步骤S4中不同的基分类器所得的测试集的信用概率进行平均,获得最终信用表现。
将本发明技术方案与常用的十个基础分类器方法进行性能比较如表1-3所示:
表1澳大利亚数据集在不同基分类器的结果
Figure BDA0002117376030000121
表2德国数据集在不同基分类器的结果
Figure BDA0002117376030000131
表3日本数据集在不同基分类器的结果
Figure BDA0002117376030000132
AUC表示ROC曲线下面积,ACC为准确率,PREC表示精确率,REC表示召回率,以下所有表中的表示均相同,粗体表示最佳的性能。根据表1-3的结果显示,XGBoost,SVM,GBDT,LDA,LR在三个数据集上都能表现出比较好的性能,而DT和NB的性能相对较差。SVM的Ⅰ型错误率在三个数据集中都比较高,在德国数据集上已经高达0.71,这对于信用评分来说,不是一种好的情况,意味着将更多的不良信用的客户预测为了良好信用,会对金融机构造成巨大的损失。相比之下,本发明技术方案的模型性能较基础分类器有显著的提高。与最好的基本分类器的单个性能相比,澳大利亚,德国,日本的AUC分别提高了2.7%,8.6%,1.6%,同时Ⅰ型错误率分别降低了23.6%,9.5%,54.2%。

Claims (10)

1.一种结合深度神经网络的XGBoost集成信用评价系统,其特征在于,包括:
数据预处理单元,用于对缺失数据的原始数据集进行缺失值处理,且对原始数据集中的分类属性进行转化;
数据划分单元,用于将从数据预处理单元得到的数据集划分测试集与训练集,并将训练集划分为多个训练子集;其中,采用装袋算法将训练集生成不同的训练子集,给定训练集D,其数据大小为P,使用装袋算法有放回的随机采样N个训练子集,每个训练子集的数据大小为m,其中,m<P;
特征提取单元,用于通过深度神经网络对每一个训练子集进行特征提取,同时根据该训练子集的模型提取测试集特征;
训练单元,用于通过XGBoost对提取后的训练子集进行训练,并预测信用概率,每一个训练子集训练得到的XGBoost模型为一个基分类器,通过所述基分类器对得到的测试集特征进行信用概率预测;
结果处理单元,用于将多个基分类器的结果进行平均,得到最终信用表现。
2.如权利要求1所述的结合深度神经网络的XGBoost集成信用评价系统,其特征在于,所述数据预处理单元包括:缺失值处理模块,用于在原始数据集中某个数值属性的缺失值大于样本总数的2%时,采用均值的方法进行填充,否则用0填充;并且用于在原始数据集中有分类属性时,填充为新的类别;
还包括分类属性转化模块,用于采用虚拟变量代替分类属性,对分类属性进行处理。
3.如权利要求1所述的结合深度神经网络的XGBoost集成信用评价系统,其特征在于,所述数据划分单元用于分别将数据集中的正样本和负样本的20%用作测试集,剩余的80%用作训练集;每一个训练子集中样本数量为原始训练集样本数量的90%,训练子集的数量为10-15个。
4.如权利要求1所述的结合深度神经网络的XGBoost集成信用评价系统,其特征在于,所述深度神经网络的隐藏层数为3层,DNN的输入层激活函数采用ReLU;输出层的激活函数采用Softmax;代价函数为分类交叉熵;优化器采用Rmsprop;迭代数量为500,Batch_size为30;所述XGBoost的学习率为0.03,树的最大深度为5,属性采样比为0.8,迭代次数为100。
5.一种权利要求1至4任一权利要求所述的结合深度神经网络的XGBoost集成信用评价系统的评价方法,其特征在于,该方法利用深度神经网络提取训练集中的隐藏特征,将提取出来的隐藏特征进一步作为XGBoost的输入进行训练,最后对测试集进行预测,所得预测结果为信用概率。
6.如权利要求5所述的结合深度神经网络的XGBoost集成信用评价系统的评价方法,其特征在于,该方法包括如下步骤:
S1:数据预处理:对缺失数据的原始数据集进行缺失值处理,且对原始数据集中的分类属性进行转化;
S2,将步骤一得到的数据集划分测试集与训练集,并将训练集划分为多个训练子集;
其中,采用装袋算法将训练集生成不同的训练子集,给定训练集D,其数据大小为P,使用装袋算法有放回的随机采样N个训练子集,每个训练子集的数据大小为m,其中,m<P;
S3,使用深度神经网络对每一个训练子集进行特征提取,同时根据该训练子集的模型提取测试集特征:
对于步骤S2中生成的每一个训练子集,训练深度神经网络模型,所述深度神经网络模型包括输入层、多个隐藏层和输出层;选取出每一个训练子集对应的深度神经网络模型中最后一个隐藏层,针对不同的训练子集对应的深度神经网络模型分别对测试集进行特征提取,得到测试集特征,以获得训练集中的隐藏特征;
步骤S4,使用XGBoost对提取后的训练子集进行训练,并预测信用概率:
对于步骤S3中每一个提取特征后的训练子集进一步使用XGBoost算法进行训练,每一个训练子集训练得到的XGBoost模型为一个基分类器,通过所述基分类器对步骤S3中得到的所述测试集特征进行信用概率预测;
步骤S5,多个基分类器的结果进行平均,得到最终信用表现:
将步骤S4中不同的基分类器所得的测试集的信用概率进行平均,获得最终信用表现。
7.如权利要求5所述的结合深度神经网络的XGBoost集成信用评价系统的评价方法,其特征在于,所述步骤S1中:
进行缺失值处理具体为:若原始数据集中某个数值属性的缺失值大于样本总数的2%,采用均值的方法进行填充,否则用0填充;若原始数据集中有分类属性,则填充为新的类别;
对分类属性的转化是采用虚拟变量代替分类属性,对分类属性进行处理。
8.如权利要求5所述的结合深度神经网络的XGBoost集成信用评价系统的评价方法,其特征在于,所述步骤S2中:分别将数据集中的正样本和负样本的20%用作测试集,剩余的80%用作训练集;
每一个训练子集中样本数量为原始训练集样本数量的90%,训练子集的数量为10-15个。
9.如权利要求5所述的结合深度神经网络的XGBoost集成信用评价系统的评价方法,其特征在于,所述步骤S3中:深度神经网络的隐藏层数设置为3层,可达到最优效果,DNN的输入层激活函数采用ReLU;输出层的激活函数采用Softmax;代价函数为分类交叉熵;优化器采用Rmsprop;迭代数量为500,Batch_size为30。
10.如权利要求5所述的结合深度神经网络的XGBoost集成信用评价系统的评价方法,其特征在于,所述步骤S4中:XGBoost的学习率为0.03,树的最大深度为5,属性采样比为0.8,迭代次数为100。
CN201910595039.5A 2019-07-03 2019-07-03 一种结合深度神经网络的XGBoost集成信用评价系统及其方法 Active CN110472817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910595039.5A CN110472817B (zh) 2019-07-03 2019-07-03 一种结合深度神经网络的XGBoost集成信用评价系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910595039.5A CN110472817B (zh) 2019-07-03 2019-07-03 一种结合深度神经网络的XGBoost集成信用评价系统及其方法

Publications (2)

Publication Number Publication Date
CN110472817A CN110472817A (zh) 2019-11-19
CN110472817B true CN110472817B (zh) 2023-03-24

Family

ID=68506705

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910595039.5A Active CN110472817B (zh) 2019-07-03 2019-07-03 一种结合深度神经网络的XGBoost集成信用评价系统及其方法

Country Status (1)

Country Link
CN (1) CN110472817B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104975B (zh) * 2019-12-10 2023-04-07 恒瑞通(福建)信息技术有限公司 一种基于广度学习的信用评估方法
CN111242358A (zh) * 2020-01-07 2020-06-05 杭州策知通科技有限公司 一种双层结构的企业情报流失预测方法
CN111476713B (zh) * 2020-03-26 2022-07-22 中南大学 基于多深度卷积神经网络融合的天气图像智能识别方法及系统
CN111311338A (zh) * 2020-03-30 2020-06-19 网易(杭州)网络有限公司 用户价值的预测方法以及用户价值预测模型的训练方法
CN111478904B (zh) * 2020-04-08 2022-05-03 莆田学院 一种基于概念漂移的物联网设备通信异常检测方法及装置
CN111667187B (zh) * 2020-06-10 2023-09-15 中交第二公路勘察设计研究院有限公司 基于多源遥感数据的公路滑坡危险性评价方法
CN111507648A (zh) * 2020-06-30 2020-08-07 航天宏图信息技术股份有限公司 一种国土空间规划评价系统
CN111784080A (zh) * 2020-07-28 2020-10-16 南方电网能源发展研究院有限责任公司 售电公司客户信用预测方法、装置、设备及存储介质
CN112766298A (zh) * 2020-08-20 2021-05-07 同济大学 基于XGBoost回归的技术成果定价评估方法
CN112182221B (zh) * 2020-10-12 2022-04-05 哈尔滨工程大学 一种基于改进随机森林的知识检索优化方法
CN112153636A (zh) * 2020-10-29 2020-12-29 浙江鸿程计算机系统有限公司 一种基于机器学习预测电信业用户携号转出的方法
CN112541536A (zh) * 2020-12-09 2021-03-23 长沙理工大学 用于信用评分的欠采样分类集成方法、设备及存储介质
CN112232951B (zh) * 2020-12-17 2021-04-27 中证信用云科技(深圳)股份有限公司 基于多维度交叉特征的信用评价方法、装置、设备及介质
CN112634059A (zh) * 2020-12-31 2021-04-09 中国移动通信集团江苏有限公司 一种联邦学习优化方法、装置、设备及计算机存储介质
CN112819604A (zh) * 2021-01-19 2021-05-18 浙江省农村信用社联合社 基于融合神经网络特征挖掘的个人信用评估方法与系统
CN112926640B (zh) * 2021-02-22 2023-02-28 齐鲁工业大学 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质
CN112990284B (zh) * 2021-03-04 2022-11-22 安徽大学 一种基于XGBoost算法的个体出行行为预测方法、系统及终端
CN113449459B (zh) * 2021-04-09 2023-04-07 江西高创保安服务技术有限公司 一种通用的提升神经网络推理准确性和保持运算速度的分布式计算系统设计方法
CN113239199B (zh) * 2021-05-18 2022-09-23 重庆邮电大学 一种基于多方数据集的信用分类方法
CN113506167A (zh) * 2021-07-23 2021-10-15 北京淇瑀信息科技有限公司 基于排序的风险预测方法、装置、设备和介质
CN113538132B (zh) * 2021-07-26 2024-04-23 天元大数据信用管理有限公司 一种基于回归树算法的信用评分方法、设备及介质
CN113904801B (zh) * 2021-09-03 2024-02-06 北京科东电力控制系统有限责任公司 一种网络入侵检测方法及系统
CN114581425B (zh) * 2022-03-10 2022-11-01 四川大学 一种基于深度神经网络的心肌段缺损图像处理方法
CN114662623B (zh) * 2022-05-25 2022-08-16 山东师范大学 基于XGBoost的凝血检测中血液样本的分类方法及系统
CN116702052B (zh) * 2023-08-02 2023-10-27 云南香农信息技术有限公司 一种社区社会信用体系信息处理系统及方法
CN117045217A (zh) * 2023-10-13 2023-11-14 深圳市奋达智能技术有限公司 一种无袖带血压测量方法及其相关设备
CN117422306A (zh) * 2023-10-30 2024-01-19 广州金财智链数字科技有限公司 基于动态神经网络的跨境电商风险控制方法及系统
CN118035457A (zh) * 2024-04-12 2024-05-14 广东省特种设备检测研究院佛山检测院 电梯故障描述文本分类方法、系统和计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596757A (zh) * 2018-04-23 2018-09-28 大连火眼征信管理有限公司 一种智能组合的个人信用评估方法及系统
CN108717869A (zh) * 2018-05-03 2018-10-30 中国石油大学(华东) 基于卷积神经网络的糖尿病视网膜并发症诊断辅助系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133865B (zh) * 2016-02-29 2021-06-01 阿里巴巴集团控股有限公司 一种信用分的获取、特征向量值的输出方法及其装置
CN107273429B (zh) * 2017-05-19 2018-04-13 哈工大大数据产业有限公司 一种基于深度学习的缺失值填充方法及系统
CN108564286B (zh) * 2018-04-19 2021-01-22 天合泽泰(厦门)征信服务有限公司 一种基于大数据征信的人工智能金融风控授信评定方法和系统
CN108596758A (zh) * 2018-05-03 2018-09-28 湖南大学 一种基于归类规则分类器的信用评级方法
CN108829763B (zh) * 2018-05-28 2021-09-07 电子科技大学 一种基于深度神经网络的影评网站用户的属性预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596757A (zh) * 2018-04-23 2018-09-28 大连火眼征信管理有限公司 一种智能组合的个人信用评估方法及系统
CN108717869A (zh) * 2018-05-03 2018-10-30 中国石油大学(华东) 基于卷积神经网络的糖尿病视网膜并发症诊断辅助系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"A Deep Learning Approach for Credit Scoring of Peer-to-Peer Lending Using Attention Mechanism LSTM";CHONGREN WANG 等;《IEEE Access》;20190107;第7卷;第2161-2168页 *

Also Published As

Publication number Publication date
CN110472817A (zh) 2019-11-19

Similar Documents

Publication Publication Date Title
CN110472817B (zh) 一种结合深度神经网络的XGBoost集成信用评价系统及其方法
Zhu et al. A combined machine learning algorithms and DEA method for measuring and predicting the efficiency of Chinese manufacturing listed companies
Lv et al. Multivariate wind speed forecasting based on multi-objective feature selection approach and hybrid deep learning model
Li et al. An overview of personal credit scoring: techniques and future work
Chen et al. Mining the customer credit using hybrid support vector machine technique
Fan et al. Robust deep auto-encoding Gaussian process regression for unsupervised anomaly detection
CN110929029A (zh) 一种基于图卷积神经网络的文本分类方法及系统
CN111275113B (zh) 基于代价敏感混合网络的偏斜类时间序列异常检测方法
CN110956273A (zh) 融合多种机器学习模型的征信评分方法及系统
CN109685653A (zh) 一种融合深度信念网络和孤立森林算法的信贷风险监测的方法
CN110580268A (zh) 一种基于深度学习的信用评分集成分类系统和方法
Cui et al. Internet financing credit risk evaluation using multiple structural interacting elastic net feature selection
CN115983984A (zh) 一种多模型融合的客户风险评级方法
Hu et al. pRNN: A recurrent neural network based approach for customer churn prediction in telecommunication sector
Guo et al. PILAE: A non-gradient descent learning scheme for deep feedforward neural networks
Shi et al. Dynamic barycenter averaging kernel in RBF networks for time series classification
CN114154557A (zh) 癌症组织分类方法、装置、电子设备及存储介质
Liu et al. Deep ensemble forests for industrial fault classification
Zhu et al. Loan default prediction based on convolutional neural network and LightGBM
Zhang et al. Multimodel integrated enterprise credit evaluation method based on attention mechanism
Rakesh et al. A general framework for class label specific mutual information feature selection method
Elthakeb et al. Divide and conquer: Leveraging intermediate feature representations for quantized training of neural networks
Yang Research on Financial Credit Evaluation and Early Warning System of Internet of Things Driven by Computer-Aided Technology
CN117093924A (zh) 基于域适应特征的旋转机械变工况故障诊断方法
Zhou et al. Online recommendation based on incremental-input self-organizing map

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant