CN105046559A - 一种基于贝叶斯网络和互信息的客户信用评分方法 - Google Patents
一种基于贝叶斯网络和互信息的客户信用评分方法 Download PDFInfo
- Publication number
- CN105046559A CN105046559A CN201510575186.8A CN201510575186A CN105046559A CN 105046559 A CN105046559 A CN 105046559A CN 201510575186 A CN201510575186 A CN 201510575186A CN 105046559 A CN105046559 A CN 105046559A
- Authority
- CN
- China
- Prior art keywords
- bayesian network
- credit
- customers
- mutual information
- customer data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于贝叶斯网络和互信息的客户信用评分方法,包括:客户数据预处理,并用离散型随机变量来描述全部客户数据属性;计算客户信用表现随机变量与其他客户数据属性随机变量之间的互信息,并对互信息进行排序;使用基于互信息的贝叶斯网络创建算法来构建一个初始贝叶斯网络;从初始贝叶斯网络中抽取客户信用表现属性结点的马尔科夫毯,并对其结构进行必要调整,得到最终贝叶斯网络作为客户信用评分模型的网络结构;使用最大似然估计对所得的网络结构进行参数学习,得到客户信用评分模型的参数;使用所得的客户信用评分模型来预测客户的未来信用表现。本发明的方法不仅实用,而且比现有的客户信用评分方法具有更高的预测准确性与精度。
Description
技术领域
本发明涉及一种利用数据挖掘或机器学习技术进行客户信用评分的方法,尤其是一种基于贝叶斯网络和互信息的客户信用评分方法。
背景技术
信用评分(creditscoring)也称客户信用(或资信)评估(或评级),是近年来兴起的一种为了保障银行等金融机构的金融安全(即降低其市场活动风险)而采用的一种对客户资信进行分析预测的方法。
信用评分是指根据客户的实证属性(empiricalattributes)(如:客户的年龄、学历、收入、家庭情况,等)和客户信用历史属性(如:客户的按时还款(贷)情况、骗保情况,等)来构建一个信用评分模型(creditscoringmodel),然后利用该信用评分模型来预测客户的信用分数(creditscore),从而评估客户的未来信用表现。
现有的信用评分方法主要分为四类(参见:“Nan-ChenHsieha,Lun-PingHung:Adatadrivenensembleclassifierforcreditscoringanalysis.ExpertSystemswithApplications,Volume37,Issue1,January2010,Pages534–545;DOI:10.1016/j.eswa.2009.05.059”):支持向量机(supportvectormachine)方法、决策树(decisiontree)方法、神经网络(neuralnetwork)方法、以及贝叶斯网络(Bayesiannetwork)方法。
支持向量机方法,典型的是Kima和Ahn于2012年提出的方法(参见:“Kyoung-jaeKima,HyunchulAhn:Acorporatecreditratingmodelusingmulti-classsupportvectormachineswithanordinalpairwisepartitioningapproach.Computers&OperationsResearch,Volume39,Issue8,August2012,Pages1800–1811;DOI:10.1016/j.cor.2011.06.023”)。该类方法需要通过训练样本来构建信用评分模型,但由于其难以处理大规模的训练样本,在实际中应用效果不佳。
决策树方法,典型的是Bozsik和于2011年提出的方法(参见:“JózsefBozsik,GergelyDecisiontree-basedcreditdecisionsupportsystem.LINDI2011-3rdIEEEInternationalSymposiumonLogisticsandIndustrialInformatics,Proceedings,IEEEComputerSociety,2011,Pages:189-193;DOI:10.1109/LINDI.2011.6031145”)。该类方法难以根据不完整的客户数据来构建信用评分模型,且预测准确性(accuracy)与精度(precision)较低。
神经网络方法,典型的是Hsieh于2005年提出的方法(参见:“Nan-ChenHsieh:Hybridminingapproachinthedesignofcreditscoringmodels.ExpertSystemswithApplications,Volume28,Issue4,May2005,Pages655–665;DOI:10.1016/j.eswa.2004.12.022”)。该类方法存在以下缺陷:(1)除了大量客户数据外,还需很多的输入参数(如:网络拓扑结构、阈值、权重值,等)才能构建信用评分模型;(2)信用评分模型的直观性、评价结果的可解释性不够,从而影响输出结果的可信度。
贝叶斯网络方法,典型的有Pavlenko和Chernyak于2010年提出的方法(参见:“TatjanaPavlenko,OleksandrChernyak:Creditriskmodelingusingbayesiannetworks.InternationalJournalofIntelligentSystems,Volume25,Issue4,April2010,pages326–344;DOI:10.1002/int.20410”)以及Leong于最近提出的方法(参见:“CheeKianLeong:CreditRiskScoringwithBayesianNetworkModels.ComputationalEconomics,Firstonlineon24June2015athttp://link.springer.com/article/10.1007/s10614-015-9505-8;DOI:10.1007/s10614-015-9505-8”)。现有研究工作表明,该类方法具有以下优点:(1)在预测准确性与精度、信用评分模型的敏感性(sensitivity)等方面比现有模型(尤其是基于神经网络方法的信用评分模型)更佳;(2)能处理大规模的客户数据;(3)贝叶斯网络的图结构(graphstructure)和概率参数估计(probabilityparameterestimate)易于根据实际情况进行合理调整。
在客户信用评分方法的实际应用中,常常会面临这样的问题或挑战:有的客户数据(实证属性与信用历史信息)与客户的信用表现关系不大,这就需要合理筛选有用的客户数据,以便构建更有效的信用评分模型。然而,仅用贝叶斯网络无法解决这个问题。在概率论和信息论中,互信息(mutualinformation,MI)(参见:“WenbinQiana,WenhaoShu:Mutualinformationcriterionforfeatureselectionfromincompletedata.Neurocomputing,Volume168,30November2015,Pages210–220;DOI:10.1016/j.neucom.2015.05.105”)是变量之间相互依赖关系(mutualdependence)的一种度量,可用来有效地衡量变量之间的相关性。因此,在构建基于贝叶斯网络的信用评分模型过程中,可借助互信息机制来合理筛选有用的客户数据。正是基于这个思想,本发明提出一种基于贝叶斯网络和互信息的客户信用评分方法。
下面简要说明本发明技术方案中采用的若干现有计算方法或算法。
在构建初始贝叶斯网络过程中,采用了贝叶斯信息准则(Bayesianinformationcriterion,BIC)(参见:“ErnstWit,EdwinvandenHeuvel,Jan-WillemRomeijn:‘Allmodelsarewrong...’:anintroductiontomodeluncertainty.StatisticaNeerlandica,Volume66,Issue3,August2012,pages217–236;DOI:10.1111/j.1467-9574.2012.00530.x”)对贝叶斯网络进行评分。
在构建初始贝叶斯网络过程中,采用了爬山(hillclimbing)算法(参见:“J.A.Gamez,J.L.Mateo,andJ.M.Puerta,"LearningBayesiannetworksbyhillclimbing:efficientmethodsbasedonprogressiverestrictionoftheneighborhood,"DataMiningandKnowledgeDiscovery,vol.22,no.1–2,January2011,pp.106–148,DOI:10.1007/s10618-010-0178-6.”)基于预处理过的客户数据来创建贝叶斯网络。
在对客户信用评分模型的网络结构进行参数学习过程中,采用了最大似然估计(maximum-likelihoodestimation)方法(参见:“MichielHazewinkel(editor):"Maximum-likelihoodmethod",EncyclopediaofMathematics,Springer,2001;ISBN978-1-55608-010-4”)。
最后,为了评价本发明技术方案(即基于贝叶斯网络和互信息的客户信用评分方法)的性能(客户信用的预测准确性与精度),在本发明内容的具体实施方式中,我们给出了一个基于基准(benchmark)客户数据集的具体实施例,并将本发明技术方案与其他典型的客户信用评分方法(决策树方法、神经网络方法、初始贝叶斯网络方法)进行了性能比较。在性能比较时,我们采用了常用的接受者操作特征(receiveroperatingcharacteristic,ROC)(参见:“JamesA.Hanley,BarbaraJ.McNeil:Themeaninganduseoftheareaunderareceiveroperatingcharacteristic(ROC)curve.Radiology,Volume143,Issue1,April1982,pp.29–36;DOI:http://dx.doi.org/10.1148/radiology.143.1.7063747”以及“TheReceiveroperatingcharacteristic,Wikipedia:https://en.wikipedia.org/wiki/Receiver_operating_characteristic”)曲线比较法。基于基准客户数据中真实的客户信用表现属性值,ROC曲线比较法将待比较的几种客户信用评分方法的预测结果均表示成以特异性(specificity,也称真阳性率(truepositiverate))为横坐标轴、以敏感性(sensitivity,也称假阳性率(falsepositiverate))为纵坐标轴的ROC曲线,通过各ROC曲线下的面积——称AUC(AreaundertheCurveofROC)的相对大小来比较各种客户信用评分方法的性能(AUC越大,相应的客户信用评分方法的性能越佳)。
发明内容
本发明所要解决的技术问题是提供一种与现有技术相比能处理更大规模的客户数据(客户实证属性和信用历史属性)和不完整的客户数据、能更为合理地筛选有用的客户数据来构建有效的信用评分模型、具有更高预测准确性与精度的客户信用评分方法。
为解决上述技术问题,本发明是通过以下技术方案实现的:一种基于贝叶斯网络和互信息的客户信用评分方法,包括:步骤S1,客户数据预处理,并用离散型随机变量来描述全部客户数据属性;步骤S2,计算客户信用表现随机变量与其他客户数据属性随机变量之间的互信息,并对互信息进行排序;步骤S3,使用基于互信息的贝叶斯网络创建算法来构建一个初始贝叶斯网络;步骤S4,从初始贝叶斯网络中抽取客户信用表现属性结点的马尔科夫毯,并对其结构进行必要调整,得到最终贝叶斯网络作为客户信用评分模型的网络结构;步骤S5,使用最大似然估计对客户信用评分模型的网络结构进行参数学习,得到客户信用评分模型的参数;步骤S6,使用所得的客户信用评分模型来预测客户的未来信用表现。
所述步骤S1进一步包括:步骤S1-1,客户数据清洗;步骤S1-2,客户数据中连续值的离散化;步骤S1-3,用离散型随机变量来描述全部客户数据属性。
所述步骤S2进一步包括:步骤S2-1,计算客户信用表现随机变量与其他客户数据属性随机变量之间的互信息;步骤S2-2,对客户信用表现随机变量与其他客户数据属性随机变量之间的互信息进行排序,形成互信息排序表。
所述步骤S3中基于互信息的贝叶斯网络创建算法由如下步骤S3-1至步骤S3-5所组成:
步骤S3-1,输入预处理过的客户数据集D、阈值s、客户信用表现随机变量与其他客户数据属性随机变量之间的互信息排序表MISortList。
步骤S3-2,基于客户数据集D使用爬山(hillclimbing)算法来构建一个贝叶斯网络BN1a,并计算其贝叶斯信息准则(Bayesianinformationcriterion)值BIC(BN1a)。
步骤S3-3,从MISortList中取出最小互信息MImin,将其从MISortList中删除,并从D中删除MImin所对应的非信用表现属性随机变量及其数据。
步骤S3-4,基于D中剩余的客户数据使用爬山算法来构建一个贝叶斯网络BN1b,并计算其贝叶斯信息准则值BIC(BN1b)。
步骤S3-5,若比值BIC(BN1b)/BIC(BN1a)小于阈值s,则令BN1a=BN1b,并返回步骤S3-3进行重复处理;否则,将当前贝叶斯网络BN1a作为初始贝叶斯网络输出。
所述步骤S4进一步包括:步骤S4-1,从初始贝叶斯网络中抽取客户信用表现属性结点的马尔科夫毯作为中间贝叶斯网络;步骤S4-2,对中间贝叶斯网络使用基于互信息的贝叶斯网络结构调整算法进行必要调整,得到最终贝叶斯网络作为客户信用评分模型的网络结构。
所述步骤S4-2中基于互信息的贝叶斯网络结构调整算法由如下步骤S4-2-1至步骤S4-2-4所组成:
步骤S4-2-1,输入中间贝叶斯网络BN2、客户信用表现随机变量与其他客户数据属性随机变量之间的互信息排序表MISortList、拟增加的客户信用表现属性结点的父结点数量n。
步骤S4-2-2,从MISortList中取出最大互信息MImax,并将其从MISortList中删除。
步骤S4-2-3,判断MImax所对应的非信用表现属性结点是否已在BN2中:若是,则返回步骤S4-2-2进行重复处理;否则,在BN2中创建MImax所对应的非信用表现属性结点,并添加从该结点到客户信用表现属性结点的有向边,且n值减1。
步骤S4-2-4,判断n值是否大于0:若是,则返回步骤S4-2-2进行重复处理;否则,即n值等于0,将当前贝叶斯网络BN2作为最终贝叶斯网络输出,该贝叶斯网络就是客户信用评分模型的网络结构。
由于本发明的技术方案能处理大规模的客户数据和不完整的客户数据,因此,它比现有的客户信用评分方法更为实用;由于本发明的技术方案通过互信息机制来合理筛选有用的客户数据并构建有效的信用评分模型,因此,它比现有的客户信用评分方法具有更高的预测准确性与精度。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1示出了根据本发明技术方案的一种基于贝叶斯网络和互信息的客户信用评分方法的流程示意图;
图2示出了根据本发明技术方案的基于互信息的贝叶斯网络创建算法的处理流程示意图;
图3示出了根据本发明技术方案的从初始贝叶斯网络中抽取客户信用表现属性结点的马尔科夫毯作为中间贝叶斯网络的方法示意图;
图4示出了根据本发明技术方案的基于互信息的贝叶斯网络结构调整算法的处理流程示意图;
图5示出了根据本发明技术方案的具体实施例中的初始贝叶斯网络;
图6示出了根据本发明技术方案的具体实施例中的中间贝叶斯网络;
图7示出了根据本发明技术方案的具体实施例中的最终贝叶斯网络;
图8示出了本发明技术方案与其他三种典型客户信用评分方法针对具体实施例的客户信用评分性能(预测准确性与精度)的接受者操作特征(ROC)曲线比较。
具体实施方式
下面详细描述本发明的具体实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的概念、对象、要素等或具有相同或类似功能的概念、对象、要素等。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为了解决上述技术问题,本发明是通过以下技术方案实现的:
如图1,一种基于贝叶斯网络和互信息的客户信用评分方法,包括如下步骤:
步骤S1,客户数据预处理,并用离散型随机变量来描述全部客户数据属性,具体包括:
步骤S1-1,客户数据清洗,具体如下:
对客户数据进行必要的数据清洗(datacleansing),包括:残缺数据的补齐,无效数据的删除,错误数据的纠正,不一致数据(如:单位不一致的量)的统一,等。
步骤S1-2,客户数据中连续值的离散化,具体如下:
采用等频分箱法(equal-frequencybinning)对客户数据中所有连续值进行离散化。
步骤S1-3,用离散型随机变量来描述全部客户数据属性,具体如下:
对其值已清洗的、离散化的每个客户数据属性,分别用一个离散型随机变量来描述。
步骤S2,计算客户信用表现随机变量与其他客户数据属性随机变量之间的互信息,并对互信息进行排序,具体包括:
步骤S2-1,计算客户信用表现随机变量与其他客户数据属性随机变量之间的互信息,具体如下:
设客户信用表现属性的离散型随机变量为X,任一其他客户数据属性的离散型随机变量为Y,对所有其他客户数据属性,计算X与它们之间的互信息(mutualinformation)MI(X;Y)。
步骤S2-2,对客户信用表现随机变量与其他客户数据属性随机变量之间的互信息进行排序,形成互信息排序表。
步骤S3,使用基于互信息的贝叶斯网络创建算法来构建一个初始贝叶斯网络,具体如下:
如图2所示,基于互信息的贝叶斯网络创建算法由如下步骤S3-1至步骤S3-5所组成:
步骤S3-1,输入预处理过的客户数据集D、阈值s、客户信用表现随机变量与其他客户数据属性随机变量之间的互信息排序表MISortList。
步骤S3-2,基于客户数据集D使用爬山(hillclimbing)算法来构建一个贝叶斯网络BN1a,并计算其贝叶斯信息准则(Bayesianinformationcriterion)值BIC(BN1a)。
步骤S3-3,从MISortList中取出最小互信息MImin,将其从MISortList中删除,并从D中删除MImin所对应的非信用表现属性随机变量及其数据。
步骤S3-4,基于D中剩余的客户数据使用爬山算法来构建一个贝叶斯网络BN1b,并计算其贝叶斯信息准则值BIC(BN1b)。
步骤S3-5,若比值BIC(BN1b)/BIC(BN1a)小于阈值s,则令BN1a=BN1b,并返回步骤S3-3进行重复处理;否则,将当前贝叶斯网络BN1a作为初始贝叶斯网络输出。
步骤S4,从初始贝叶斯网络中抽取客户信用表现属性结点的马尔科夫毯,并对其结构进行必要调整,得到最终贝叶斯网络作为客户信用评分模型的网络结构,具体包括:
步骤S4-1,从初始贝叶斯网络中抽取客户信用表现属性结点的马尔科夫毯作为中间贝叶斯网络,具体如下:
如图3所示,矩形框中是一个初始贝叶斯网络,该网络中客户信用表现属性结点X的马尔科夫毯(Markovblanket)是如下所有结点所构成的子网络(即图中虚线圆中部分):结点X;X的父结点和子结点;X的子结点的其他父结点。
步骤S4-2,对中间贝叶斯网络使用基于互信息的贝叶斯网络结构调整算法进行必要调整,得到最终贝叶斯网络作为客户信用评分模型的网络结构,具体如下:
如果中间贝叶斯网络中客户信用表现属性结点的父结点个数较少,那么使用基于互信息的贝叶斯网络结构调整算法来增加客户信用表现属性结点的父结点,如图4所示,该算法由如下步骤S4-2-1至步骤S4-2-4所组成:
步骤S4-2-1,输入中间贝叶斯网络BN2、客户信用表现随机变量与其他客户数据属性随机变量之间的互信息排序表MISortList、拟增加的客户信用表现属性结点的父结点数量n。
步骤S4-2-2,从MISortList中取出最大互信息MImax,并将其从MISortList中删除。
步骤S4-2-3,判断MImax所对应的非信用表现属性结点是否已在BN2中:若是,则返回步骤S4-2-2进行重复处理;否则,在BN2中创建MImax所对应的非信用表现属性结点,并添加从该结点到客户信用表现属性结点的有向边,且n值减1。
步骤S4-2-4,判断n值是否大于0:若是,则返回步骤S4-2-2进行重复处理;否则,即n值等于0,将当前贝叶斯网络BN2作为最终贝叶斯网络输出,该贝叶斯网络就是客户信用评分模型的网络结构。
步骤S5,使用最大似然估计对客户信用评分模型的网络结构进行参数学习,得到客户信用评分模型的参数,具体如下:
针对已获得的客户信用评分模型的网络结构(即最终贝叶斯网络),基于相应的客户数据(即:该贝叶斯网络中全部随机变量所表示的所有客户数据属性及其值),使用最大似然估计(maximum-likelihoodestimation)进行参数学习,得到该网络结构(即最终贝叶斯网络)的条件概率表(conditionalprobabilitytable)。至此,形成了一个完整的客户信用评分模型(包括它的网络结构和参数),可用来预测客户的未来信用表现。
步骤S6,使用所得的客户信用评分模型来预测客户的未来信用表现,具体如下:
将预测客户数据集中所有客户数据属性值(不包括客户的未来信用表现属性数据)输入到客户信用评分模型中,使用该模型来计算出客户未来信用表现随机变量的概率值(概率值越高,表明客户的信用级别越低)。
在实际应用中,可根据金融机构的金融安全(即市场活动风险)特定需求来设置特定的概率值区间,以评估客户的信用。例如,如果某客户的概率值属于区间[0.5,1],那么可认为该客户的未来信用表现不佳;如果某客户的概率值属于区间[0,0.5),那么可认为该客户的未来信用表现较佳,等等。
下面以一个具体实施例来进一步说明本发明技术方案的具体实施方式,并给出本发明技术方案与其他典型的客户信用评分方法(决策树方法、神经网络方法、初始贝叶斯网络方法)的性能(预测准确性与精度)比较结果。
在以下具体实施例中,客户数据及客户未来信用表现结果数据均取自于kaggle网站(网址:https://www.kaggle.com/)中GiveMeSomeCredit数据集cs-training.csv(网址:https://www.kaggle.com/c/GiveMeSomeCredit/data)。该数据集是2011年9月19日–12月15日期间用于客户信用评分国际竞赛的基准(benchmark)数据集。该数据集中共包含了150,000个客户数据(实证属性和客户信用属性数据),其中的全部11个客户数据属性(用离散型随机变量来表示)及其含义见表1。表中,随机变量Y1–Y7表示的是客户的7个实证属性,Y8–Y10表示的是客户的信用历史属性;而X用来表示客户的未来信用表现。
表1具体实施例中的随机变量符号、客户数据属性及其含义清单
我们将以上150,000个客户数据分成两个部分:前125,000个客户数据(X和Y1–Y10的属性值)作为训练样本用于学习出一个客户信用评分模型(即最终贝叶斯网络);后25,000个客户数据(其中的Y1–Y10的属性值)作为预测客户数据集(即客户信用评分模型的输入)用于预测客户的未来信用表现(即X属性的预测值),并将其与客户数据集中的真实X属性值进行比较,以便评价客户信用评分方法的实际效果(性能)。在下文的描述中,为行文简洁起见,不再特别说明“客户数据”是训练样本还是预测客户数据集,读者根据上下文很容易区分它们。
本发明技术方案已用R语言进行实现。针对这个具体实施例,本发明技术方案的具体实施方式如下:
如图1所示,一种基于贝叶斯网络和互信息的客户信用评分方法,包括如下步骤:
步骤S1,客户数据预处理,并用离散型随机变量来描述全部客户数据属性,具体包括:
步骤S1-1,客户数据清洗,具体如下:
对客户数据进行必要的数据清洗(datacleansing),包括:残缺数据的补齐,无效数据的删除,错误数据的纠正,不一致数据(如:单位不一致的量)的统一,等。
本具体实施例中,由于该客户数据集是国际竞赛的基准数据集,其中的客户数据已完成了清洗,本步骤不需做处理。
步骤S1-2,客户数据中连续值的离散化,具体如下:
采用等频分箱法(equal-frequencybinning)对客户数据中所有连续值进行离散化。
本具体实施例中,分别对Y3表示的DebtRatio属性值和Y5表示的RevolvingUtilizationOfUnsecuredLines属性值进行离散化。
步骤S1-3,用离散型随机变量来描述全部客户数据属性,具体如下:
对其值已清洗的、离散化的每个客户数据属性,分别用一个离散型随机变量来描述。
本具体实施例中,如表1所示,对该客户数据集中的全部11个客户数据属性用离散型随机变量X和Y1–Y10来表示。
步骤S2,计算客户信用表现随机变量与其他客户数据属性随机变量之间的互信息,并对互信息进行排序,具体包括:
步骤S2-1,计算客户信用表现随机变量与其他客户数据属性随机变量之间的互信息,具体如下:
本具体实施例中,计算客户信用表现随机变量X与其他客户数据属性随机变量Y1–Y10之间的互信息MI(X;Y1),MI(X;Y2),...,MI(X;Y10)。
步骤S2-2,对客户信用表现随机变量与其他客户数据属性随机变量之间的互信息进行排序,形成互信息排序表。
本具体实施例中,所产生的客户信用表现随机变量与其他客户数据属性随机变量之间的互信息排序表MISortList见表2。
表2互信息排序表MISortList
互信息 | 互信息值 |
MI(X;Y9) | 0.07734807 |
MI(X;Y10) | 0.07672814 |
MI(X;Y8) | 0.07577218 |
MI(X;Y1) | 0.06912785 |
MI(X;Y5) | 0.06371101 |
MI(X;Y3) | 0.06199255 |
MI(X;Y4) | 0.06049953 |
MI(X;Y7) | 0.05665691 |
MI(X;Y2) | 0.05181195 |
MI(X;Y6) | 0.04892935 |
步骤S3,使用基于互信息的贝叶斯网络创建算法来构建一个初始贝叶斯网络,具体如下:
如图2所示,基于互信息的贝叶斯网络创建算法由如下步骤S3-1至步骤S3-5所组成:
步骤S3-1,输入预处理过的客户数据集D、阈值s(本具体实施例中,s=0.9)、客户信用表现随机变量与其他客户数据属性随机变量之间的互信息排序表MISortList。
步骤S3-2,基于客户数据集D使用爬山(hillclimbing)算法来构建一个贝叶斯网络BN1a,并计算其贝叶斯信息准则(Bayesianinformationcriterion)值BIC(BN1a)。
步骤S3-3,从MISortList中取出最小互信息MImin,将其从MISortList中删除,并从D中删除MImin所对应的非信用表现属性随机变量及其数据。
步骤S3-4,基于D中剩余的客户数据使用爬山算法来构建一个贝叶斯网络BN1b,并计算其贝叶斯信息准则值BIC(BN1b)。
步骤S3-5,若比值BIC(BN1b)/BIC(BN1a)小于阈值s,则令BN1a=BN1b,并返回步骤S3-3进行重复处理;否则,将当前贝叶斯网络BN1a作为初始贝叶斯网络输出。
本具体实施例中,第1次计算出的比值BIC(BN1b)/BIC(BN1a)就大于等于阈值s=0.9,因此,输出的初始贝叶斯网络就是上述步骤S3-2中首次构建的、包含全部11个客户数据属性的贝叶斯网络。该初始贝叶斯网络如图5所示。
步骤S4,从初始贝叶斯网络中抽取客户信用表现属性结点的马尔科夫毯,并对其结构进行必要调整,得到最终贝叶斯网络作为客户信用评分模型的网络结构,具体包括:
步骤S4-1,从初始贝叶斯网络中抽取客户信用表现属性结点的马尔科夫毯作为中间贝叶斯网络,具体如下:
如图3所示,矩形框中是一个初始贝叶斯网络,该网络中客户信用表现属性结点X的马尔科夫毯(Markovblanket)是如下所有结点所构成的子网络(即图中虚线圆中部分):结点X;X的父结点和子结点;X的子结点的其他父结点。
本具体实施例中,抽取的客户信用表现属性结点X的马尔科夫毯(即中间贝叶斯网络)如图6所示。
步骤S4-2,对中间贝叶斯网络使用基于互信息的贝叶斯网络结构调整算法进行必要调整,得到最终贝叶斯网络作为客户信用评分模型的网络结构,具体如下:
如果中间贝叶斯网络中客户信用表现属性结点的父结点个数较少(本具体实施例中,父结点个数为2,较少),那么使用基于互信息的贝叶斯网络结构调整算法来增加客户信用表现属性结点的父结点,如图4所示,该算法由如下步骤S4-2-1至步骤S4-2-4所组成:
步骤S4-2-1,输入中间贝叶斯网络BN2、客户信用表现随机变量与其他客户数据属性随机变量之间的互信息排序表MISortList、拟增加的客户信用表现属性结点的父结点数量n(本具体实施例中,n=3)。
步骤S4-2-2,从MISortList中取出最大互信息MImax,并将其从MISortList中删除。
步骤S4-2-3,判断MImax所对应的非信用表现属性结点是否已在BN2中:若是,则返回步骤S4-2-2进行重复处理;否则,在BN2中创建MImax所对应的非信用表现属性结点,并添加从该结点到客户信用表现属性结点的有向边,且n值减1。
步骤S4-2-4,判断n值是否大于0:若是,则返回步骤S4-2-2进行重复处理;否则,即n值等于0,将当前贝叶斯网络BN2作为最终贝叶斯网络输出,该贝叶斯网络就是客户信用评分模型的网络结构。
本具体实施例中,运行完以上算法后,在中间贝叶斯网络中增加了客户信用表现属性结点的3个父结点:Y8、Y9和Y10。经调整后的最终贝叶斯网络(作为客户信用评分模型的网络结构)如图7所示。
步骤S5,使用最大似然估计对客户信用评分模型的网络结构进行参数学习,得到客户信用评分模型的参数,具体如下:
针对已获得的客户信用评分模型的网络结构(即最终贝叶斯网络),基于相应的客户数据(即:该贝叶斯网络中全部随机变量所表示的所有客户数据属性及其值),使用最大似然估计(maximum-likelihoodestimation)进行参数学习,得到该网络结构(即最终贝叶斯网络)的条件概率表(conditionalprobabilitytable)。至此,形成了一个完整的客户信用评分模型(包括它的网络结构和参数),可用来预测客户的未来信用表现。
本具体实施例中,用于参数学习的客户数据包括随机变量X、Y5、Y7、Y8、Y9和Y10所表示的所有客户数据属性及其值。
步骤S6,使用所得的客户信用评分模型来预测客户的未来信用表现,具体如下:
将预测客户数据集中所有客户数据属性值(不包括客户的未来信用表现属性数据)输入到客户信用评分模型中,使用该模型来计算出客户未来信用表现随机变量的概率值(概率值越高,表明客户的信用级别越低)。
在实际应用中,可根据金融机构的金融安全(即市场活动风险)特定需求来设置特定的概率值区间,以评估客户的信用。例如,如果某客户的概率值属于区间[0.5,1],那么可认为该客户的未来信用表现不佳;如果某客户的概率值属于区间[0,0.5),那么可认为该客户的未来信用表现较佳,等等。
将本发明技术方案与其他典型的客户信用评分方法(决策树方法、神经网络方法、初始贝叶斯网络方法)进行性能(客户信用的预测准确性与精度)比较的ROC曲线图如图8所示。从图中可看出,决策树方法和初始贝叶斯网络方法的ROC曲线下面积(即AUC)明显小于另外两种客户信用评分方法(实际上,决策树方法的AUC是0.7792127,初始贝叶斯网络方法的AUC是0.7814991)。本发明技术方案的AUC(实际上为0.850851)比神经网络方法的AUC(实际上为0.8314307)更大,这表明,本发明技术方案的基于贝叶斯网络和互信息的客户信用评分方法与典型的客户信用评分方法相比,具有更好的性能。
本发明的具体实施方式并不局限于以上描述。本发明的一种基于贝叶斯网络和互信息的客户信用评分方法,除说明书所述的技术特征外,均为本专业技术人员的已知技术。对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种基于贝叶斯网络和互信息的客户信用评分方法,包括:
步骤S1,客户数据预处理,并用离散型随机变量来描述全部客户数据属性;
步骤S2,计算客户信用表现随机变量与其他客户数据属性随机变量之间的互信息,并对互信息进行排序;
步骤S3,使用基于互信息的贝叶斯网络创建算法来构建一个初始贝叶斯网络;
步骤S4,从初始贝叶斯网络中抽取客户信用表现属性结点的马尔科夫毯,并对其结构进行必要调整,得到最终贝叶斯网络作为客户信用评分模型的网络结构;
步骤S5,使用最大似然估计对客户信用评分模型的网络结构进行参数学习,得到客户信用评分模型的参数;
步骤S6,使用所得的客户信用评分模型来预测客户的未来信用表现。
2.如权利要求1所述的方法,其特征在于,所述步骤S1进一步包括:
步骤S1-1,客户数据清洗;
步骤S1-2,客户数据中连续值的离散化;
步骤S1-3,用离散型随机变量来描述全部客户数据属性。
3.如权利要求1所述的方法,其特征在于,所述步骤S2进一步包括:
步骤S2-1,计算客户信用表现随机变量与其他客户数据属性随机变量之间的互信息;
步骤S2-2,对客户信用表现随机变量与其他客户数据属性随机变量之间的互信息进行排序,形成互信息排序表。
4.如权利要求1所述的方法,其特征在于,所述步骤S3中基于互信息的贝叶斯网络创建算法由如下步骤S3-1至步骤S3-5所组成:
步骤S3-1,输入预处理过的客户数据集D、阈值s、客户信用表现随机变量与其他客户数据属性随机变量之间的互信息排序表MISortList;
步骤S3-2,基于客户数据集D使用爬山算法来构建一个贝叶斯网络BN1a,并计算其贝叶斯信息准则值BIC(BN1a);
步骤S3-3,从MISortList中取出最小互信息MImin,将其从MISortList中删除,并从D中删除MImin所对应的非信用表现属性随机变量及其数据;
步骤S3-4,基于D中剩余的客户数据使用爬山算法来构建一个贝叶斯网络BN1b,并计算其贝叶斯信息准则值BIC(BN1b);
步骤S3-5,若比值BIC(BN1b)/BIC(BN1a)小于阈值s,则令BN1a=BN1b,并返回步骤S3-3进行重复处理;否则,将当前贝叶斯网络BN1a作为初始贝叶斯网络输出。
5.如权利要求1所述的方法,其特征在于,所述步骤S4进一步包括:
步骤S4-1,从初始贝叶斯网络中抽取客户信用表现属性结点的马尔科夫毯作为中间贝叶斯网络;
步骤S4-2,对中间贝叶斯网络使用基于互信息的贝叶斯网络结构调整算法进行必要调整,得到最终贝叶斯网络作为客户信用评分模型的网络结构。
6.如权利要求5所述的方法,其特征在于,所述步骤S4-2中基于互信息的贝叶斯网络结构调整算法由如下步骤S4-2-1至步骤S4-2-4所组成:
步骤S4-2-1,输入中间贝叶斯网络BN2、客户信用表现随机变量与其他客户数据属性随机变量之间的互信息排序表MISortList、拟增加的客户信用表现属性结点的父结点数量n;
步骤S4-2-2,从MISortList中取出最大互信息MImax,并将其从MISortList中删除;
步骤S4-2-3,判断MImax所对应的非信用表现属性结点是否已在BN2中:若是,则返回步骤S4-2-2进行重复处理;否则,在BN2中创建MImax所对应的非信用表现属性结点,并添加从该结点到客户信用表现属性结点的有向边,且n值减1;
步骤S4-2-4,判断n值是否大于0:若是,则返回步骤S4-2-2进行重复处理;否则,即n值等于0,将当前贝叶斯网络BN2作为最终贝叶斯网络输出,该贝叶斯网络就是客户信用评分模型的网络结构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510575186.8A CN105046559A (zh) | 2015-09-10 | 2015-09-10 | 一种基于贝叶斯网络和互信息的客户信用评分方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510575186.8A CN105046559A (zh) | 2015-09-10 | 2015-09-10 | 一种基于贝叶斯网络和互信息的客户信用评分方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105046559A true CN105046559A (zh) | 2015-11-11 |
Family
ID=54453082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510575186.8A Pending CN105046559A (zh) | 2015-09-10 | 2015-09-10 | 一种基于贝叶斯网络和互信息的客户信用评分方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105046559A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018076916A1 (zh) * | 2016-10-27 | 2018-05-03 | 中兴通讯股份有限公司 | 数据发布方法和装置及终端 |
CN108733696A (zh) * | 2017-04-19 | 2018-11-02 | 阿里巴巴集团控股有限公司 | 一种征信表单的生成方法及装置 |
CN109034729A (zh) * | 2018-07-02 | 2018-12-18 | 深圳市诺信连接科技有限责任公司 | 一种合同自动管理方法 |
CN109491991A (zh) * | 2018-11-08 | 2019-03-19 | 四川长虹电器股份有限公司 | 一种无监督的数据自动清洗方法 |
CN109816513A (zh) * | 2018-12-21 | 2019-05-28 | 上海拍拍贷金融信息服务有限公司 | 用户信用评级方法及装置、可读存储介质 |
CN110020942A (zh) * | 2019-04-12 | 2019-07-16 | 中电科大数据研究院有限公司 | 信用风险的预警方法、装置、设备及存储介质 |
CN111695680A (zh) * | 2020-06-15 | 2020-09-22 | 北京百度网讯科技有限公司 | 成绩预测方法、成绩预测模型训练方法、装置及电子设备 |
-
2015
- 2015-09-10 CN CN201510575186.8A patent/CN105046559A/zh active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009437A (zh) * | 2016-10-27 | 2018-05-08 | 中兴通讯股份有限公司 | 数据发布方法和装置及终端 |
CN108009437B (zh) * | 2016-10-27 | 2022-11-22 | 中兴通讯股份有限公司 | 数据发布方法和装置及终端 |
WO2018076916A1 (zh) * | 2016-10-27 | 2018-05-03 | 中兴通讯股份有限公司 | 数据发布方法和装置及终端 |
CN108733696B (zh) * | 2017-04-19 | 2021-05-04 | 创新先进技术有限公司 | 一种征信表单的生成方法及装置 |
CN108733696A (zh) * | 2017-04-19 | 2018-11-02 | 阿里巴巴集团控股有限公司 | 一种征信表单的生成方法及装置 |
CN109034729A (zh) * | 2018-07-02 | 2018-12-18 | 深圳市诺信连接科技有限责任公司 | 一种合同自动管理方法 |
CN109034729B (zh) * | 2018-07-02 | 2023-01-31 | 深圳市诺信连接科技有限责任公司 | 一种合同自动管理方法 |
CN109491991B (zh) * | 2018-11-08 | 2022-03-01 | 四川长虹电器股份有限公司 | 一种无监督的数据自动清洗方法 |
CN109491991A (zh) * | 2018-11-08 | 2019-03-19 | 四川长虹电器股份有限公司 | 一种无监督的数据自动清洗方法 |
CN109816513A (zh) * | 2018-12-21 | 2019-05-28 | 上海拍拍贷金融信息服务有限公司 | 用户信用评级方法及装置、可读存储介质 |
CN110020942A (zh) * | 2019-04-12 | 2019-07-16 | 中电科大数据研究院有限公司 | 信用风险的预警方法、装置、设备及存储介质 |
CN111695680A (zh) * | 2020-06-15 | 2020-09-22 | 北京百度网讯科技有限公司 | 成绩预测方法、成绩预测模型训练方法、装置及电子设备 |
CN111695680B (zh) * | 2020-06-15 | 2023-11-10 | 北京百度网讯科技有限公司 | 成绩预测方法、成绩预测模型训练方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105046559A (zh) | 一种基于贝叶斯网络和互信息的客户信用评分方法 | |
Dal Pozzolo et al. | Learned lessons in credit card fraud detection from a practitioner perspective | |
Jiang et al. | Credit card fraud detection: A novel approach using aggregation strategy and feedback mechanism | |
Veeramachaneni et al. | AI^ 2: training a big data machine to defend | |
Save et al. | A novel idea for credit card fraud detection using decision tree | |
US9159021B2 (en) | Performing multistep prediction using spatial and temporal memory system | |
Dalli | Impact of hyperparameters on deep learning model for customer churn prediction in telecommunication sector | |
Deng et al. | A data mining based system for transaction fraud detection | |
CN112700252A (zh) | 一种信息安全性检测方法、装置、电子设备和存储介质 | |
Irarrázaval et al. | Telecom traffic pumping analytics via explainable data science | |
Li et al. | A new intrusion detection system based on rough set theory and fuzzy support vector machine | |
Pan et al. | Ensemble methods in bank direct marketing | |
Gonaygunta | Machine learning algorithms for detection of cyber threats using logistic regression | |
Shaohui et al. | Customer transaction fraud detection using random forest | |
CN114841526A (zh) | 一种高风险用户的检测方法、计算设备及可读存储介质 | |
CN114615010A (zh) | 一种基于深度学习的边缘服务器端入侵防御系统设计方法 | |
CN113704637A (zh) | 基于人工智能的对象推荐方法、装置、存储介质 | |
CN106557983B (zh) | 一种基于模糊多类svm的微博垃圾用户检测方法 | |
Zhu et al. | Click fraud detection of online advertising–LSH based tensor recovery mechanism | |
Agrawal et al. | Comparative analysis of SVM kernels and parameters for efficient anomaly detection in IoT | |
CN116545679A (zh) | 一种工业情境安全基础框架及网络攻击行为特征分析方法 | |
Prieto et al. | Knowledge-based approach to detect potentially risky websites | |
CN113486754B (zh) | 基于视频的事件演化预测方法、系统 | |
CN115330490A (zh) | 一种产品推荐方法、装置、存储介质及设备 | |
Gabhane et al. | Churn Prediction in Telecommunication Business using CNN and ANN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20151111 |