CN110570300A

CN110570300A - 基于XGBoost驱动的海萨尼转换金融决策处理系统

Info

Publication number: CN110570300A
Application number: CN201910852902.0A
Authority: CN
Inventors: 龚谊承; 张艳娜; 余力; 周莲萤; 都承华
Original assignee: Wuhan University of Science and Engineering WUSE
Current assignee: Wuhan University of Science and Engineering WUSE; Wuhan University of Science and Technology WHUST
Priority date: 2019-09-10
Filing date: 2019-09-10
Publication date: 2019-12-13

Abstract

本发明属于互联网金融技术领域，公开了一种基于XGBoost驱动的海萨尼转换金融决策处理系统，首先构造出不完全信息互联网贷款信用博弈模型；然后采用统计学习方法度量贷款申请者的信用风险；接着进行信用风险驱动的海萨尼转换；最后基于博弈论和统计学习对互联网金融企业的贷款决策给出建议。本发明通过信息处理系统可以解决互联网金融中贷款申请者的信用风险度量问题，从而帮助互联网金融企业科学定量地认识贷款申请者，进一步分析他们之间的博弈关系时，可以帮助企业在处理申请贷款时做出正确的贷款决策，并制定出规避或控制风险的应对措施，保持企业健康的发展态势，促进互联网金融的健康稳定发展。

Description

基于XGBoost驱动的海萨尼转换金融决策处理系统

技术领域

本发明属于互联网金融技术领域，尤其涉及一种基于XGBoost驱动的海萨尼转换金融决策处理系统。

背景技术

目前，最接近的现有技术：

随着移动互联、云计算、大数据等信息通信技术的突飞猛进，互联网金融快速兴起。互联网金融的出现使得金融机构能够突破时间和地域的约束，在互联网上就能为有融资需要求的客户提供更加快捷的金融服务，通过互联网技术，加快业务的处理速度，已带给客户更好的服务体验。互联网金融的主要发展模式有：众筹、P2P网贷、第三方支付、数字货币、大数据金融、信息化金融机构、金融门户等。其优点主要有：成本低、效率高、覆盖广、发展快，但也存在一些的缺点，比如说风险大、管理弱等。

其中风险主要是指网络安全风险和信用风险。网络安全主要是指网络技术方面，黑客侵袭、病毒入侵等，是属于技术层面风险。信用风险是一种复杂的、较难处理的、人与人之间的一种信任关系。由于现阶段我国的信用体系尚不完善，互联网金融的相关法律还有待完善，同时互联网金融也因为信息不对称和违约成本较低等，更容易滋生信用风险。比如，金融机构的某些客户可能到期不会按时还款，而拖欠的贷款和追缴的成本都会影响金融机构的后续经营。因此为了正确认识互联网金融中的贷款申请者，需要对其信用进行度量，从而降低风险。

在互联网金融中，互联网金融企业与贷款申请者之间存在一种博弈关系。贷款申请者为了顺利获得贷款金额，可能会隐瞒一些自己的信息，如个人的信用状况，贷款申请者可能拥有一个好的信用，按时偿还贷款和利息；或者贷款申请者的信用差，不能按时偿还贷款和利息。互联网金融企业在面对不同类型的贷款申请者会做出不同的贷款决策，批准好信用的贷款申请者和拒绝坏信用的贷款申请者。由于信息的不对称，互联网金融企业无法准确了解到申请者的贷款信用类型，因此该博弈关系为不完全信息博弈。

对于不完全信息博弈，传统的分析方法是通过海萨尼转换，将不完全信息博弈转换为完全但不完美信息博弈进行分析。海萨尼转换核心步骤是引入“自然”，通过“自然”按一定概率分布选择局中人的类型。在互联网金融中的贷款企业与贷款申请者的不完全信息博弈中，采用海萨尼转换时，“自然”需要按概率分布选择贷款申请者的信用类型，那么该概率分布该如何确定呢？如果该贷款申请者是之前有贷过款的人，可以根据其历史记录来确定他的信用概率分布；如果该贷款申请者是一个新的贷款者，无贷款记录，那么他的信用概率分布该如何确定呢？因此，亟需一种信息处理系统以解决海萨尼转换在互联网金融中的应用问题。

海萨尼转换：为了分析不完全信息博弈，Harsanyi在1967年提出了海萨尼转换，这是解决不完全信息的重要的传统方法。海萨尼转换的关键步骤是在局中人某些参数不确定的情况下引入了一个虚拟的局中人“自然”，“自然”以一定的概率分布来分配局中人的类型，这可以将不完全信息博弈转换为完全但不完美博弈。对于完全信息博弈可以采用贝叶斯纳什均衡来进行分析。

在博弈中，博弈局中人往往会为了获得更高的收益而隐藏他们自己真实的信息，因此博弈双方可能会面临一种信息不对称的局面，不完全信息增加了博弈双方判断和决策的难度，并且会对博弈的结果产生很大的影响。

熊菲等利用海萨尼转换研究了具有不完全信息的群体决策博弈。黄河等提出了海萨尼转换的频谱拍卖，通过市场竞争优化资源配置，缓解了日益严重的频谱资源危机。Yang等利用海萨尼转换分析了序贯博弈。Shun等构建了关于PPP项目风险的讨价还价模型，其中运用了海萨尼转化。这些学者在不同的不完全信息博弈的理论分析中成功地运用了海萨尼转化，但是“自然”如何在实践中分配局中人的类型依然是比较困难的。

近年来，一些学者依据局中人的历史数据来帮助“自然”分配局中人的类型。MonteCarlo(MC)模拟将在此运用。牛晓梦根据足球运动员梅西的历史数据来帮助“自然”分配其踢球的方向。Gong Yicheng等利用历史数据对物流企业的类型进行随机分组。当局中人自己的历史数据无法获得时，“自然”又该如何分配博弈局中人的类型，海萨尼转换的实践依旧是个难题。

随着技术的发展，2010年计算机的数据处理能力迅速从GB跃升到TB，大数据分析正在逐步渗透到人类社会。一些学者开始利用大数据技术来推动不完全信息博弈理论的发展。考虑到不断增长的数据，刘(2013)在International Artificial IntelligenceCongress(IJCAI)首次提出“博弈机器学习”这一概念。在他们的研究中，运用积累的数据和博弈论的动态策略，构建了一个机器学习广告搜索竞价排名模型，通过大量数据和马尔可夫链消除了博弈的不确定性。在百度、腾讯等公司的实践应用中表明了该博弈机器学习效果显著，不仅减少了广告投放，而且还增加了10％的收入。动态的AI博弈也被提出。其中最出名的AI博弈AlphaGo在围棋比赛中以5:0击败了人类欧洲围棋冠军，这是计算机程序首次在博弈中完全击败人类职业选手。

这些已取得的成果都给予启发，可以利用数据来改变博弈在实践中的困难，本文将利用大量数据来帮助“自然”在实践中分配局中人的类型，实现海萨尼转换更好应用于实践之中，促进博弈论的发展。

XGBoost模型全称是eXtreme Gradient Boosting，是由华盛顿大学的陈天奇博士于2014年提出的，文章公开发表于2016年。因为在陈博士研究机器学习时，感觉受到现有机器学习库的计算速度和精度的限制，从而通过对GBDT算法进行改进，提出了XGBoost，因此可以说XGBoost是由GBDT延伸而来，XGBoost主要用于分类和回归算法。XGBoost最大的优点是它可以自动使用CPU的多线程并行处理，同时在算法上加以改进来提高精度。

综上所述，现有技术存在的问题是：

(1)用统计学习方法辅助互联网金融中的贷款企业做贷款决策的技术，没有充分考虑企业与用户之间的策略互动关系，忽略了数据种包含的博弈信息。

(2)利用博弈论辅助互联网金融中的贷款企业做贷款决策的技术，由于均衡策略的理论性难以与实践结合，忽视了数据中包含的信息。

(3)构建的不完全信息博弈模型，在分析过程中需要用到的海撒泥转需要按概率分布选择贷款申请者的信用类型，但现有技术中，该概率分布无法确定。

解决上述技术问题的难度：

由于一些贷款申请人为了获得贷款，可能会隐藏自己的信用状况，而互联网金融企业无法清楚知道这一信息，所以贷款申请者的风险是不确定的。构建的不完全信息博弈模型，在分析过程中需要用到的海撒泥转需要按概率分布选择贷款申请者的信用类型，但现有技术中，该概率分布无法确定。

构建互联网金融企业与贷款申请者之间的不完全信息互联网贷款信用博弈模型，为了解决海萨尼转换在互联网金融中的应用，本发明提出通过信用风险帮助“自然”确定贷款申请者的信用概率分布，将贷款申请者不能按时还款的概率定义为其信用风险，因此在发明中需要度量贷款申请者的信用风险，并将其应用于海萨尼转换中。本发明将基于其他有贷款记录的特征数据和还款记录数据与新申请者的特征数据，利用统计学习方法学习特征数据与信用类型之间的关系，度量出新的贷款申请者的信用风险。

解决上述技术问题的意义：

3ILCG是一个不完全信息博弈，海萨尼转换是分析不完全信息博弈的一种传统方法。因此用海萨尼转换分析3ILCG，将不完全信息静态博弈转换为完全但不完美的动态博弈。假设贷款申请者拥有好信用的概率为p_g，则坏信用的概率是1-pg。虚拟局中人“自然”将根据概率分布(pg,1-pg)来分配贷款申请者的信用类型。

本发明提出利用XGBoost和其它已发生的贷款申请者的全部数据以及新贷款申请者填报数据预测出pg，然后用其驱动的海萨尼转换，进而帮助互联网金融企业做出决策。

发明内容

针对现有技术存在的问题，本发明提供了一种基于XGBoost驱动的海萨尼转换金融决策处理系统。

本发明是这样实现的，一种基于XGBoost驱动的海萨尼转换金融决策处理系统，系统功能模块包括：博弈模块、信用风险度量模块、数据驱动的海萨尼转换模块、决策模块；

博弈模块，构造出互联网金融企业与贷款申请者之间的不完全信息互联网贷款信用博弈(3ILCG)关系；

信用风险度量模块，采用三种统计学习方法基于其他已贷款者全部数据和新贷款者部分数据度量贷款申请者的信用风险；

数据驱动的海萨尼转换模块，将度量的信用风险应用于海萨尼转换中，进行信用风险驱动的海萨尼转换；

决策模块，用于基于博弈论和统计学习对互联网金融企业的贷款决策给出建议。

用于根据概率分布(1-p_xgb,p_xgb)分配一个新的贷款申请者类型，并将p_e和p_g进行比较，做出贷款决策。

进一步，所述信用风险度量模块包括：

数据预处理子单元，对采集的贷款申请者的数据进行预处理；

信用风险学习子单元：定义信用风险，采用梯度提升决策树(GBDT)模型度量；提出耦合支持向量机的GBDT模型(SVM-GBDT)，选择SVM中的支持向量作为新的训练集，并利用该模型度量信用风险；最后采用XGBoost模型度量信用风险；

训练集和测试集划分子单元，用于将预处理后的数据划分为训练集和测试集两个数据集；

XGBoost模型训练检验子单元，用于XGBoost模型通过训练集学习信用风险模型，通过测试集检验学习效果。

进一步，所述数据驱动的海萨尼转换模块包括：

贝叶斯纳什均衡概率获取子单元，用于3ILCG模型通过海萨尼转换，获得贝叶斯纳什均衡概率p_e。

信用概率分布预测子单元，用于通过XGBoost模型预测海萨尼转换中自然选择贷款申请者的信用概率分布p_g。

进一步，贝叶斯纳什均衡概率获取子单元的3ILCG模型中，p_g表示贷款申请者拥有好信用的概率，XGBoost预测的p_xgb表示的是贷款申请者的信用风险，即不能按时还款的概率，为坏信用的概率，p_g的预测值为p’_g＝1-p_xgb。P_xgb是位于(0,1)之间的数，如果p_xgb接近1，则表示一个新的贷款申请者拥有良好信用的概率越小，p’_g接近于0；p_xgb接近0，则表示一个新的贷款申请者拥有差信用的概率越大，p’_g接近于1。

进一步，所述决策模块对互联网金融企业的贷款决策给出建议中，用于根据概率分布(1-p_xgb,p_xgb)分配一个新的贷款申请者类型，并将p_e和p_g进行比较，做出贷款决策，如果p’_g≥p_e，批准贷款申请者的贷款申请，获得更大的收益：反之，如果p’_g<p_e，拒绝贷款申请的贷款申请。

本发明的另一目的在于提供一种搭载所述基于XGBoost驱动的海萨尼转换金融决策处理系统的信息数据处理终端。

本发明的另一目的在于提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行所述基于XGBoost驱动的海萨尼转换金融决策处理系统的功能。

综上所述，本发明的优点及积极效果为：

本发明首先构造出不完全信息互联网贷款信用博弈(3ILCG)模型；然后采用统计学习方法度量贷款申请者的信用风险；接着进行信用风险驱动的海萨尼转换；最后基于博弈论和统计学习对互联网金融企业的贷款决策给出建议。本发明通过信息处理系统可以解决互联网金融中贷款申请者的信用风险度量问题，从而帮助互联网金融企业科学定量地认识贷款申请者，进一步分析他们之间的博弈关系时，可以帮助企业在处理申请贷款时做出正确的贷款决策，并制定出规避或控制风险的应对措施，保持企业健康的发展态势，促进互联网金融的健康稳定发展。

与现有技术相比，本发明的优点进一步包括：

本发明采用三种统计学习方法度量贷款申请者的信用风险。首先，定义了信用风险，并采用梯度提升决策树(GBDT)模型度量之。其次，提出了耦合支持向量机(SVM)的GBDT模型(SVM-GBDT)，选择SVM中的支持向量作为新的训练集，在保证数据信息的同时大大减少数据规模；并利用该模型度量了信用风险，结果表明：SVM-GBDT在保证正确率的前提下效率提升了73.72％。最后，采用eXtreme Gradient Boosting模型(XGBoost)度量信用风险，实证结果表明：该模型相比于GBDT模型，精度提升了0.0107且效率提升了44.34％。三种方法综合比较表明：在征信数据规模较大时适合采用SVM-GBDT模型，在一般情况下优先采用XGBoost模型。

本发明在3ILCG中提出了信用风险驱动的海萨尼转换。基于本文数据特征，采用XGBoost驱动海萨尼转换。实证分析表明：互联网金融贷款企业依据XGBoost驱动的海萨尼转换做出的贷款决策准确率为94.8％。

本发明通过金融决策处理系统可以解决互联网金融中贷款申请者的信用风险问题，从而帮助互联网金融企业可以正确认识贷款申请者，进一步分析他们之间的博弈关系时，可以帮助企业在申请贷款时可以做出正确的贷款决策，并制定出规避或控制风险的应对措施，保持企业健康的发展态势，促进互联网金融的健康稳定发展。

附图说明

图1是本发明实施例提供的基于XGBoost驱动的海萨尼转换金融决策处理系统结构图。

图中：1、博弈模块；2、信用风险度量模块；3、数据驱动的海萨尼转换模块；4、决策模块。

图2是本发明实施例提供的信用风险驱动的海萨尼转换的整体流程图。

图3是本发明实施例提供的基于XGBoost模型的信用风险度量流程图。

图4是本发明实施例提供的基于XGBoost驱动的海萨尼转换的3ILCG博弈流程图。

图5是本发明实施例提供的基于XGBoost驱动的海萨尼转换金融决策处理系统的系统分析流程图。

图6是本发明实施例提供的海萨尼转换后的拓展博弈示意图。

图7是本发明实施例提供的训练集上学习到的XGBoost模型示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在互联网金融中的贷款企业与贷款申请者的不完全信息博弈中，采用海萨尼转换时，“自然”需要按概率分布选择贷款申请者的信用类型，但现有技术中，该概率分布无法确定。

针对现有技术存在的问题，本发明提供了一种基于XGBoost驱动的海萨尼转换金融决策处理系统，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的一种基于XGBoost驱动的海萨尼转换金融决策处理系统，系统功能模块包括：博弈模块1、信用风险度量模块2、数据驱动的海萨尼转换模块3、决策模块4；

博弈模块1，构造出互联网金融企业与贷款申请者之间的不完全信息互联网贷款信用博弈(3ILCG)模型。

信用风险度量模块2，采用三种统计学习方法基于其他已贷款者全部数据和新贷款者部分数据度量贷款申请者的信用风险。

数据驱动的海萨尼转换模块3，将度量的信用风险应用于海萨尼转换中，进行信用风险驱动的海萨尼转换。

决策模块4，用于根据概率分布(1-p_xgb,p_xgb)分配一个新的贷款申请者类型，并将p_e和p_g进行比较，做出贷款决策。

在本发明实施例中，所述信用风险度量模块2包括：

数据预处理子单元21，对采集的贷款申请者的数据进行预处理。

信用风险学习子单元22：定义信用风险，采用梯度提升决策树(GBDT)模型度量；提出耦合支持向量机的GBDT模型(SVM-GBDT)，选择SVM中的支持向量作为新的训练集，并利用该模型度量信用风险；最后采用XGBoost模型度量信用风险。

训练集和测试集划分子单元23，用于将预处理后的数据划分为训练集和测试集两个数据集。

XGBoost模型训练检验子单元24，用于XGBoost模型通过训练集学习信用风险模型，通过测试集检验学习效果。

在本发明实施例中，所述数据驱动的海萨尼转换模块3包括：

贝叶斯纳什均衡概率获取子单元31，用于3ILCG模型通过海萨尼转换，获得贝叶斯纳什均衡概率p_e。

信用概率分布预测子单元32，用于通过XGBoost模型预测海萨尼转换中自然选择贷款申请者的信用概率分布p_g。

在本发明实施例中，贝叶斯纳什均衡概率获取子单元31的3ILCG模型中，p_g表示贷款申请者拥有好信用的概率，XGBoost预测的p_xgb表示的是贷款申请者的信用风险，即不能按时还款的概率，为坏信用的概率，p_g的预测值为p’_g＝1-p_xgb。P_xgb是位于(0,1)之间的数，如果p_xgb接近1，则表示一个新的贷款申请者拥有良好信用的概率越小，p’_g接近于0；p_xgb接近0，则表示一个新的贷款申请者拥有差信用的概率越大，p’_g接近于1。

在本发明实施例中，所述利用决策模块4做出贷款决策中，如果p’_g≥p_e，批准贷款申请者的贷款申请，获得更大的收益：反之，如果p’_g<p_e，拒绝贷款申请的贷款申请。

下面结合具体实施例对本发明作进一步描述。

实施例1

本发明的信用风险度量子系统基于XGBoost模型度量信用风险，该模型基于改进的GBDT算法。

本发明实施例提供的基于XGBoost模型的信用风险度量主要步骤包括：

S101：对采集的数据进行预处理。

S102：将预处理后的数据划分为训练集和测试集两个数据集。

S103：XGBoost模型通过训练集学习信用风险模型，通过测试集检验学习效果。

本发明的信用风险驱动的海萨尼转换子系统的3ILCG中，XGBoost驱动的海萨尼转换主要步骤包括：

S201：对于3ILCG模型通过传统的海萨尼转换，获得贝叶斯纳什均衡概率p_e。

S202：通过XGBoost模型来预测海萨尼转换中“自然”选择贷款申请者的信用概率分布p_g。

S203：“自然”根据概率分布(1-p_xgb,p_xgb)，即(p’_g,1-p’_g)分配一个新的贷款申请者类型，并将p_e和p_g进行比较，帮助互联网金融企业做出贷款决策。

在本发明实施例中，对于3ILCG模型，p_g表示贷款申请者拥有好信用的概率，XGBoost预测的p_xgb表示的是贷款申请者的信用风险，即不能按时还款的概率，也就是坏信用的概率，因此p_g的预测值为p’_g＝1-p_xgb。P_xgb是位于(0,1)之间的数，如果p_xgb接近1，则表示一个新的贷款申请者拥有良好信用的概率越小，p’_g接近于0；p_xgb接近0，则表示一个新的贷款申请者拥有差信用的概率越大，p’_g接近于1。

在本发明实施例中，在3ILCG中，“自然”将根据概率分布(1-p_xgb,p_xgb)，即(p’_g,1-p’_g)来分配一个新的贷款申请者的类型，帮助互联网金融企业做出贷款决策。如果p’_g≥p_e，互联网金融企业将会“批准”贷款申请者的贷款申请，获得更大的收益：反之，如果p’_g<p_e，互联网金融企业将会“拒绝”贷款申请的贷款申请。

实施例2

1、系统分析

1.1分析思路，本发明思路如图5所示。具体包括：

第一步为互联网金融贷款博弈分析，首先构造出互联网金融企业与贷款申请者之间的博弈关系，即不完全信息互联网贷款信用博弈(3ILCG)；然后采用传统的海萨尼转换分析3ILCG。在分析过程中，由于新贷款申请者历史记录的缺失，“自然”无法确定其信用概率分布，为此提出了采用统计学习方法基于其他已贷款者全部数据和新贷款者部分数据来预测贷款申请者的信用风险，用度量的信用风险驱动海萨尼转换。

第二步为信用风险度量。信用风险度量中共使用了三种度量方法，首先采用eXtreme Gradient Boosting(XGBoost)模型度量信用风险，该方法为GBDT的改进算法，可以提高GBDT模型的计算速度和精度。

第三步将度量的信用风险应用于海萨尼转换中，即信用风险驱动的海萨尼转换。在实践应用中，基于本文数据信用风险的度量模型采用XGBoost模型，即XGBoost驱动的海萨尼转换，该方法将用于帮助海萨尼转换中“自然”确定概率分布，分析3ILCG模型，帮助互联网金融企业做出正确的贷款决策。

1.2互联网金融不完全信息博弈(3ILCG)

在互联网金融中，互联网金融企业和贷款申请者之间存在一种博弈。贷款申请者只有一个行为策略，即申请贷款，但是其信用类型有两种，可能是一个好信用申请者，也可能是一个坏信用申请者；而互联网金融企业的行为策略有两种，可能批准贷款申请人的贷款申请，也可能拒绝贷款申请。一些贷款申请人为了获得贷款，可能会隐藏自己的信用状况，而互联网金融企业无法清楚知道这一信息，因此该博弈为互联网金融企业基于贷款申请者信用做对策的不完全信息的单人博弈。这样互联网金融企业可能会拒绝了一个好信用的贷款申请者，减少了企业受益；也可能批准一个坏信用的贷款申请者而无法按时回收贷款和利息，遭受损失和增加不必要的成本。因此，互联网金融企业需要在此博弈中科学分析博弈关系，做出正确的博弈决策，使得企业效益最大化，稳固企业的发展。在一些假设条件下，本章构造了一个不完全信息互联网贷款信用博弈(3ILCG)。

假设贷款申请人申请的贷款金额为D，贷款利率为r，这里贷款利率采用简单年利率，贷款时间为1年。对于一个好信用的贷款申请者，其按时偿还贷款和利息，如果互联网金融企业批准其贷款申请，那么互联网金融企业在贷款申请人还款后将会获得rD的收益；如果互联网金融企业拒绝贷款申请，那么互联网金融企业将无法获得该收益，从经济学角度来说，就是损失了该收益，则在这种情形下互联网金融企业的收益为-rD。对于一个坏信用的贷款申请者，其不能按时偿还贷款和利息，如果互联网金融企业批准其贷款申请，互联网金融企业在此情况下的收益则为-(1+r)D；如果互联网金融企业拒绝该贷款申请者，则互联网金融企业不会将贷款本金丢失，在经济学角度企业获得收益D。根据以上假设，可以得到互联网金融企业与贷款申请者之间的不完全信息互联网贷款信用博弈(3ILCG)，用博弈矩阵表示，如下表1所示。

表1 3ILCG的博弈矩阵

1.3传统海萨尼转换分析3ILCG

3ILCG是一个不完全信息博弈，海萨尼转换是分析不完全信息博弈的一种传统方法。因此用海萨尼转换分析3ILCG，将不完全信息静态博弈转换为完全但不完美的动态博弈。假设贷款申请者拥有好信用的概率为p_g，则坏信用的概率是1-p_g。虚拟局中人“自然”将根据概率分布(p_g,1-p_g)来分配贷款申请者的信用类型。海萨尼转换后的拓展博弈将如图6所示。

在图6中，第一个节点表示“自然”。因为互联网金融企业决策时无法知道“自然”已经做出的选择，因此虽然自然选择的两条路径会到达两个节点，但互联网金融企业却只做一个选择，而不是针对两个节点分别作选择。对于互联网金融企业的两种策略仍然有四种结果，即图6中的4个黑点表示的终端，其对应的收益表示互联网金融企业沿着相应路径到达终端时的收益。

通过海萨尼转换，经分析可以得到3ILCG的均衡策略。当互联金融企业选择“批准”贷款申请时，企业收益为rD的概率即为贷款申请者是好信用的概率p_g；企业收益为-(1+r)D的概率即为贷款申请者坏信用的概率1-p_g。因此互联网金融贷款企业选择“批准”的期望收益可以算出，如公式(1-1)所示。

E_批准＝p_grD+(1-p_g)[-(1+r)D]＝(2r+1)p_gD–(1+r)D (1-1)

当互联金融企业选择“拒绝”贷款申请时，企业收益为-rD的概率即为贷款申请者好信用的概率p_g；企业收益为D的概率即为贷款申请者信用差的概率1-p_g。因此可以计算出互联网金融贷款企业选择“拒绝”的期望收益，如公式(1-2)所示。

E_拒绝＝p_g(-rD)+(1-p_g)D＝D–(1+r)p_gD (1-2)

互联网金融企业的均衡策略即为E_批准＝E_拒绝的解，即(2r+1)p_gD–(1+r)D＝D–(1+r)p_gD。经计算，可以得出贝叶斯纳什均衡概率p_e，如公式(1-3)所示。

p_e＝(r+2)/(3r+2) (1-3)

根据上述假设，互联网金融企业认为一个新的贷款申请者是好信用的概率为p_g。如果p_g＝p_e，那么E_批准＝E_拒绝，即互联网金融企业选择“批准”策略还是“拒绝”策略所获得的收益都是一样的。如果p_g>p_e，那么E_批准>E_拒绝，即互联网金融企业选择“批准”的收益大于“拒绝”的收益，因此互联网金融企业最优的选择策略是“批准”。如果p_g<p_e，那么E_批准<E_拒绝，即互联网金融企业选择“批准”的收益小于选择“拒绝”的收益，因此互联网金融企业最优的选择策略是“拒绝”。

从公式(1-3)可以看出，p_e只和贷款利率r有关系，对公式(1-3)关于r求导，其结果如公式(1-4)所示。

P_e’＝-4/(3r+2)² (1-4)

从公式(1-4)可以看出，p_e随着r的增大而减小。当利率r越大时，均衡概率信念p_e越低，则对于相同的p_g来说，互联网金融企业批准贷款的可能性就越大，那么企业面临的风险也就越大；反之亦然。这一结论与互联网金融企业在实际贷款中遇到的情况是一致的，因此互联网金融企业想要降低风险，就要选择一个合理的、较低的贷款利率r，并且要尽量准确地判断贷款申请者好信用概率p_g。

1.4信用风险驱动的海萨尼转换的构想

在海萨尼转换中，注意到“自然”在选择贷款申请者信用类型的概率分布(p_g,1-p_g)是海萨尼转换顺利进行的关键步骤，那么该概率分布式该如何确定？当贷款申请者是已有贷款记录的用户，根据其历史记录“自然”可以很容易确定概率分布；但当贷款申请者是一个新的贷款用户，没有历史记录可以获得，“自然”又该如何选择新贷款申请者的信用类型？这是海萨尼转换在实践应用中面临的一个困难，也是本发明研究的一个重点。

基于科学技术的发展，可以获得已有贷款记录用户的基础数据和贷款记录，利用统计学习方法可以学习到基础数据与贷款记录之间的信用概率关系，则基于学习到的模型可以根据新贷款申请者的基础数据预测出新贷款申请者的信用风险，基于该信用风险来帮助“自然”确定概率分布，完成海萨尼转换的过程，该方法即为信用风险驱动的海萨尼转换。

基于以上想法，本发明提出采用统计学习方法预测贷款申请者的信用风险来驱动海萨尼转换的构想，即信用风险驱动的海萨尼转换，如图2所示。

信用风险驱动的海萨尼转换主要是基于统计学习方法预测概率分布，其关键步骤为信用风险度量，利用统计学习方法和大量其他已有贷款记录用户数据可以学习到基础数据与贷款记录之间的信用概率关系模型，基于学习到的模型和新贷款申请者的基础数据预测出新贷款申请者的信用风险p，即新贷款申请者不能按时还款的概率p，也就是坏信用的概率p。基于预测的信用风险来帮助“自然”确定新贷款申请者的信用概率分布，完成海萨尼转换的过程。

2、基于XGBoost模型的信用风险度量

由于受到现有机器学习库的计算速度和精度的限制，陈天奇博士通过对GBDT算法进行改进，提出了eXtreme Gradient Boosting模型(XGBoost)，因此本章对于GBDT的改进将采用XGBoost模型度量信用风险。

2.1Extreme Gradient Boosting(XGBoost)概述

XGBoost模型全称是eXtreme Gradient Boosting，XGBoost是由GBDT延伸而来，XGBoost主要用于分类和回归算法。XGBoost最大的优点是它可以自动使用CPU的多线程并行处理，同时在算法上加以改进来提高精度。

原GBDT模型其算法是基于经验损失函数的负梯度建立的新的决策树。而XGBoost模型是在决策树的构建阶段添加了常规项，因此XGBoost的多目标函数如公式(2-1)所示。

在公式(2-1)中，i表示第i个样本，表示第i个样本的预测误差，表示树的复杂程度，即正则项，其定义如公式(2-2)所示。

在公式(2-2)中，T表示叶节点的数目，w表示节点的值。

在公式(2-1)集成树模型中包含作为参数的函数，因此在欧几里得空间中不能使用传统的方法进行优化，需要加入f_t最小化目标，如公式(2-3)所示。

为了在一般情况下也能快速优化目标函数，公式(2-3)可以用二阶泰勒展开式来近似表示，如公式(2-4)所示。

在公式(2-4)中，和是损失函数的一阶和二阶梯度统计量。公式(2-4)可以去掉其中常数项化简如公式(2-5)所示。

定义叶子j的实例集为I_i＝{i|q(x_i)＝j}。将正则项公式(2-2)带入公式(2-5)可得公式(2-6)。

令和因此公式(2-6)可以被改写成公式(2-7)。

然后对公式(2-7)关于w_j进行求导，并令导数等于0，从而得到公式(2-7)的最优解w^*,其最优解如公式(2-8)所示。

将最优解w^*代入公式(2-7)中，可以得到目标函数，如公式(2-9)所示。

XGBoost与传统的GBDT相比，传统GBDT是以CART作为基分类器，而XGBoost还支持线性分类器，此时XGBoost相当于带L₁和L₂正则项的logistic回归(分类问题)或者线性回归(回归问题)。此外传统GBDT在优化时只用到了一阶导数信息，XGBoost则对损失函数进行了二阶泰勒展开，同时用到了一阶和二阶导数，且XGBoost可以自定义损失函数，主要损失函数一阶和二阶可导。基于XGBoost较GBDT各方面的良好特性，本发明将采用XGBoost模型度量贷款申请者的信用风险。

2.2基于XGBoost模型的信用风险度量框架

基于XGBoost信用风险度量的模型框架图将如图3所示，该模型主要也分为3步。图3中信用风险学习是用XGBoost模型，即改进的GBDT模型。

2.3学习和检验XGBoost模型

对于预处理后的数据，采用确定的划分比例，将数据划分为训练集和测试集，训练集有25500个样本，测试集有4500个样本。XGBoost模型将在训练集上学习信用风险模型，在测试集上检验学习的效果。下表6.1和表6.2给出了模型的学习过程和检验结果。表2给出了在测试集上基于XGBoost的部分学习结果。

表2基于XGBoost在测试集上的部分学习结果

在训练集上学习的XGBoost模型，其学习结果是多棵树组成，如图7所示。

比较表2的第3列和第4列，可以得到XGBoost模型在测试集上的混淆矩阵，如表3所示。

表3基于XGBoost模型在测试集上的混淆矩阵

根据表3和公式(2-1)、(2-2)、(2-6)和(2-10)，可以计算SVM-GBDT模型4个性能指标，如公式(2-10)-(2-13)所示。

A＝(4202+78)/4500＝0.9511 (2-10)

P＝4202/4389＝0.957393 (2-11)

R＝4202/4235＝0.992208 (2-12)

F₁＝0.974490 (2-13)

通过计算，XGBoost模型的运行时间为t₃＝9.6854s。

2.4三种度量信用风险模型对比

通过比较GBDT模型、SVM-GBDT模型和XGBoost模型，三种统计度量模型的原始训练集和测试集都是相同的，其比较结果如表4所示。

表4三种统计模型度量信用风险的对比结果

从表4可以看出，与基础度量模型GBDT相比，SVM-GBDT模型的正确率(A)和调和均值(F₁)都略高，但运行时间(t)却大大减少，效率提升了73.72％；XGBoost模型的正确率(A)和调和均值(F₁)均高于GBDT模型和SVM-GBDT，运行时间(t)只比GBDT模型快7.7155s，效率提升44.34％，XGBoost模型效率没有SVM-GBDT模型快。因此在数据集规模较大时，愿意选择牺牲一定的准确率以提高模型效率，可以采用SVM-GBDT模型度量贷款申请者的信用风险；在数据集规模不是特别大时，选择牺牲一定的效率来追求更高的正确率，可以采用XGBoost模型来度量贷款申请者的信用风险。

基于本发明所用数据集的规模只有30000，可以选择XGBoost模型来度量贷款申请的信用风险，并用于后续研究。

3、信用风险驱动的海萨尼转换及其应用

有了贷款申请者的信用风险，可以使得海萨尼转换在实践中更好应用，“自然”对于新的贷款申请者时也可以确定类型的概率分布。将信用风险应用于海萨尼转换中这一方法称为信用风险驱动的海萨尼转换，并将其应用于3ILCG中进行实证分析。

3.1XGBoost驱动的海萨尼转换在3ILCG中的应用

3.1.1 3ILCG中的XGBoost驱动的海萨尼转换

基于本发明的数据特征，这里的信用风险度量模型采用提出的XGBoost模型，因此该海萨尼转换将变为XGBoost驱动的海萨尼转换。在3ILCG中博弈分析框架图如图4所示。

对于不完全信息互联网贷款信用博弈，其海萨尼转换中“自然”选择贷款申请者信用概率分布的p_g将通过XGBoost模型来预测。对于3ILCG模型，p_g表示贷款申请者拥有好信用的概率，XGBoost预测的p_xgb表示的是贷款申请者的信用风险，即不能按时还款的概率，也就是坏信用的概率，因此p_g的预测值为p’_g＝1-p_xgb。P_xgb是位于(0,1)之间的数，如果p_xgb接近1，则表示一个新的贷款申请者拥有良好信用的概率越小，p’_g接近于0；p_xgb接近0，则表示一个新的贷款申请者拥有差信用的概率越大，p’_g接近于1。

在3ILCG中，“自然”将根据概率分布(1-p_xgb,p_xgb)，即(p’_g,1-p’_g)来分配一个新的贷款申请者的类型，帮助互联网金融企业做出贷款决策。如果p’_g≥p_e，互联网金融企业将会“批准”贷款申请者的贷款申请，获得更大的收益：反之，如果p’_g<p_e，互联网金融企业将会“拒绝”贷款申请的贷款申请，以减少贷款回收不回来带来的损失。

3.1.2数值分析

数据集中30000个样本，28125个贷款申请者是好信用，标签为0；1875个贷款申请者是坏信用，标签为1。互联网金融的贷款利率为r＝20％，这是通过查阅各个互联网金融贷款企业的贷款利率数据获得的。

当贷款利率r＝20％，根据公式(1-3)计算均衡概率p_e如公式(3-1)所示。

p_e＝(r+2)/(3r+2)＝(0.2+2)/(3×0.2+2)＝0.8462 (3-1)

对信用概率采用XGBoost学习结果，如表5第二列所示。

为了检测模型是否具有可信度，需要在测试集上进行检验，检验指标使用正确率(A)、查准率(P)、召回率(R)和调和均值(F₁)。在测试集上，每一个贷款申请者的p’_g都由XGBoost模型学习p_xgb得到，其中p’_g＝1-p_xgb。XGBoost模型学习的结果p_xgb和好信用概率p’_g的第二列和第三列所示，表5为测试集上由XGBoost学习一个贷款申请者的部分结果。

表5基于XGBoost驱动海萨尼转换的3ILCG博弈矩阵

通过比较表5的第三列和第四列，根据7.2.1节可以得到互联网金融企业的策略，其为模型帮助企业做出的决策，为预测策略，如表5中的第五列所示。表5中的第六列是企业真正做的决策，比较表5的第五列和第六列，可以得到测试集上的混淆矩阵，如表6所示。

表6基于XGBoost驱动海萨尼转换在测试集上3ILCG的混淆矩阵

在表6中，有4235个贷款申请者信用良好，其中互联网金融企业根据XGBoost驱动的海萨尼转换做出贷款策略为“批准”的有4218人，做出贷款策略为“拒绝”的有17人。在贷款申请者信用良好的情况下，由于“批准”策略比“拒绝”策略更能为互联网金融企业带来更大的回报，因此“批准”策略是正确的策略。在贷款申请者信用差的情况下，共有265人，其中互联网金融企业根据XGBoost驱动的海萨尼转换做出贷款策略为“批准”的有217人，做出贷款策略为“拒绝”的有48人，由于“拒绝”策略比“批准”策略可以为互联网金融企业减少风险，从而降低损失，因此在这种情形下“拒绝”策略是正确的策略。

根据表6和公式(2-1)、(2-2)、(2-6)和(2-10)，可以计算SVM-GBDT模型4个性能指标。如公式(3-2)-(3-5)所示。

A＝(4218+48)/4500＝0.948 (3-2)

P＝4218/4435＝0.951071 (3-3)

R＝4218/4235＝0.995986 (3-4)

F₁＝0.980869 (3-5)

由上述计算结果，正确率A＝0.948和调和均值F₁＝0.980869，表明模型的性能较好，即基于XGBoost驱动的海萨尼转换在不完全信息互联网信用博弈(3ILCG)模型是可靠的，XGBoost驱动的海萨尼转换的应用是成功的。且该方法将机器学习模型和博弈论模型相结合，不仅解决了博弈论中海萨尼转换遇到的困难，拓展了博弈论，同时也促进了博弈机器学习的发展。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于XGBoost驱动的海萨尼转换金融决策处理系统，其特征在于，所述系统功能模块包括：

博弈模块，用于构造互联网金融企业与贷款申请者之间的不完全信息互联网贷款信用博弈模型；

信用风险度量模块，用于采用统计学习方法基于其他已贷款者全部数据和新贷款者部分数据度量贷款申请者的信用风险；

数据驱动的海萨尼转换模块，用于将度量的信用风险应用于海萨尼转换中，进行信用风险驱动的海萨尼转换；

2.如权利要求1中所述的基于XGBoost驱动的海萨尼转换金融决策处理系统，其特征在于，所述信用风险度量模块包括：

信用风险学习子单元：定义信用风险，采用梯度提升决策树模型度量；提出耦合支持向量机的GBDT模型，选择SVM中的支持向量作为新的训练集，并利用该模型度量信用风险；最后采用XGBoost模型度量信用风险；

3.如权利要求1中所述的基于XGBoost驱动的海萨尼转换金融决策处理系统，其特征在于，所述数据驱动的海萨尼转换模块包括：

贝叶斯纳什均衡概率获取子单元，用于3ILCG模型通过海萨尼转换，获得贝叶斯纳什均衡概率p_e；

信用概率分布预测子单元，用于通过XGBoost模型预测海萨尼转换中自然选择贷款申请者的信用良好的概率p_g。

4.如权利要求3中所述的基于XGBoost驱动的海萨尼转换金融决策处理系统，其特征在于，贝叶斯纳什均衡概率获取子单元的3ILCG模型中，p_g表示贷款申请者拥有好信用的概率，XGBoost预测的p_xgb表示的是贷款申请者的信用风险，即不能按时还款的概率，为坏信用的概率，p_g的预测值为p’_g＝1-p_xgb。P_xgb是位于(0,1)之间的数，如果p_xgb接近1，则表示一个新的贷款申请者拥有良好信用的概率越小，p’_g接近于0；p_xgb接近0，则表示一个新的贷款申请者拥有差信用的概率越大，p’_g接近于1。

5.如权利要求1中所述的基于XGBoost驱动的海萨尼转换金融决策处理系统，其特征在于，所述决策模块对互联网金融企业的贷款决策给出建议中，根据概率分布分配一个新的贷款申请者类型，并将pe和pg进行比较，做出贷款决策；如果p’_g≥p_e，批准贷款申请者的贷款申请，获得更大的收益：反之，如果p’_g<p_e，拒绝贷款申请的贷款申请。

6.一种搭载权利要求1～5任意一项所述基于XGBoost驱动的海萨尼转换金融决策处理系统的信息数据处理终端。

7.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-5任意一项所述基于XGBoost驱动的海萨尼转换金融决策处理系统的功能。