CN113344692B - 多信息源融合的网络借贷信用风险评估模型的建立方法 - Google Patents
多信息源融合的网络借贷信用风险评估模型的建立方法 Download PDFInfo
- Publication number
- CN113344692B CN113344692B CN202110444878.4A CN202110444878A CN113344692B CN 113344692 B CN113344692 B CN 113344692B CN 202110444878 A CN202110444878 A CN 202110444878A CN 113344692 B CN113344692 B CN 113344692B
- Authority
- CN
- China
- Prior art keywords
- loan
- investment
- investor
- similarity
- amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000004927 fusion Effects 0.000 title claims abstract description 38
- 238000012502 risk assessment Methods 0.000 title claims abstract description 30
- 230000010354 integration Effects 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 47
- 238000005259 measurement Methods 0.000 claims description 32
- 238000007477 logistic regression Methods 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 12
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000000691 measurement method Methods 0.000 claims description 7
- 230000006399 behavior Effects 0.000 claims description 6
- 239000013256 coordination polymer Substances 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 5
- 238000007500 overflow downdraw method Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000011524 similarity measure Methods 0.000 claims 1
- 238000005457 optimization Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 5
- 238000013210 evaluation model Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000009545 invasion Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005422 blasting Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了多信息源融合的网络借贷信用风险评估模型的建立方法,包括以下步骤:第一步:根据借款人的信息源对贷款相似性进行度量;第二步:根据投资者的信息源对贷款相似性进行度量;第三步:最小逆序对融合的贷款相似性信息的整合。本发明通过实证得出当目标收益率水平持续增加时,基于相对熵约束的投资组合模型总是比经典的“均值‑方差”投资组合模型获得更高的投资收益;此外本发明提出的基于最小逆序对融合的贷款信用风险评估模型在不同的目标收益率水平下都能够获得最高的投资收益,进一步证明了基于多信息源融合的网络借贷信用风险评估模型的稳健性,能够帮助投资者获得更高更稳定的投资收益。
Description
技术领域
本发明涉及多信息源融合的网络借贷信用风险评估模型的建立方法。
背景技术
随着互联网金融的繁荣,网络借贷行业获得了快速发展。网络借贷作为传统借贷方式的一种补充,使借贷双方可以直接通过网络平台完成借贷交易,省去了传统银行借贷中复杂的审核交易流程。使资金能够直接在借贷双方之间流动,借款人可以有较低的借款利率,同时投资者可以获得更高的投资收益。网络借贷凭借这种低门槛、高收益的优势,受到了很多中小企业和个人借贷者的关注,极大增强了市场中资金的流动效率,促进了互联网金融的发展。
但是网络借贷在高收益率的同时,往往存在着较高的信用风险。首先,由于网络借贷属于无抵押物的贷款,如果借款人违约,投资者将会被动承担大部分的风险。其次,在网络借贷中,投资者与贷款之间存在多对多的复杂借贷关系,并且网络借贷中独有的社交网络关系也会影响借贷双方的行为。最后,由于网络的虚拟性以及征信不完善,使网络借贷中存在严重的信息不对称现象,进一步增加了投资风险。近年来出现的“P2P爆雷”和“网贷平台跑路”等现象,使投资者蒙受了巨大损失,也严重危害了网络借贷行业的发展和金融秩序的稳定。因此,迫切需要对网络借贷的信用风险进行有效评估,以剔除劣质贷款,维护投资者权益和行业稳定。
在贷款信用风险评估的研究中,按照使用的信息源不同,方法可以大致分为两类,基于借款人信息的方法和基于投资者信息的方法。在基于借款人信息的网络借贷风险估计方法中,学者们利用借款人提供的贷款金额、贷款利率、就业情况以及借款人当前的欠款金额等信息,采用统计学、金融学以及机器学习等方法,对贷款进行评级分类或风险预测,以区分优劣贷款。此外,由于网络借贷网站与传统银行不同,缺乏严格的资格审查能力,借款人的信息并不够客观、完备,因此需要寻找更为可靠真实的信息源来评估贷款风险,一些学者从投资者行为的角度切入,基于投资者与贷款之间的投资关系,通过对贷款中投资者的投资收益、风险偏好和投资经验等因素的度量,从新的视角测度网络借贷中贷款的信用风险。
以上的方法分别基于借款人和投资者信息源来评估贷款的信用风险,能够从不同的角度揭示贷款的投资价值和风险状况。但是仅仅通过单一信息源进行风险评估存在可信度和可靠性不强的限制,并且基于不同信息源的评估结果可能会存在差异,甚至同一信息源中不同模型的预测结果之间也会发生冲突,这些不一致性都将对投资者的投资决策造成一定的困难。因此,如何对不同信息源进行充分挖掘,并将其有效集成,成为急需解决的问题。
故而,现提出一种多信息源融合的网络借贷信用风险评估模型的建立方法。
发明内容
本发明的目的是提供多信息源融合的网络借贷信用风险评估模型的建立方法,解决了现有技术中现有的贷款信用风险评估方法利用的信息源单一,不能准确地对网络借贷信用风险进行评估;以及不同信息源和模型的评估结果会发生冲突的问题。
为了实现上述目的,本发明采用了如下技术方案:
多信息源融合的网络借贷信用风险评估模型的建立方法,包括以下步骤:
第一步:根据借款人的信息源对贷款相似性进行度量,具体包括以下步骤;
(1)、对借款人信息中的风险特征进行提取,建立借款人信息的特征向量为X={x1,x2,x3,...,x8},其中x1,x2和x3分别表示不同的风险特征;
(2)、根据逻辑回归算法对借款人贷款相似性度量,具体为:
2)、两笔贷款违约概率差值的绝对值,表示为贷款vi与贷款vj之间的距离,表达式为:dL(vi,vj)=|pi-pj|,其中,pi和pj分别为在1)中预测的贷款vi和贷款vi的违约概率;
3)、当2)中dL(vi,vj)越小,则两笔贷款的违约概率的相似性越近;当dL(vi,vj)越大,则两笔贷款的违约概率的相似性越远;
(3)、根据度量学习算法对借款人贷款相似性度量,具体为:
2)、通过大间隔最近邻居算法计算出马氏矩阵M,然后对马氏距离进行计算,当1)中的dM(vi,vj)越大,贷款间的相似性越小;
第二步:根据投资者的信息源对贷款相似性进行度量,具体包括以下步骤:
(1)、对投资者的投资行为和投资关系信息进行提取;
(2)、根据PageRank方法对贷款相似性度量,具体为:
1)、对于目标贷款vj, 其中PRj为目标贷款vj的PR值,即目标贷款vj的所有投资者PR值的加权和;P(ui)为每位投资者ui的PR值,即每位投资者ui的历史投资贷款的收益率之和;rk表示贷款vk的实际收益率;
2)、贷款vi和贷款vj之间的距离为PR值差值的绝对值为:dP(vi,vj)=|PRi-PRj|;
3)、当2)中的dP(vi,vj)越小,贷款间距离越小,相似性越大;当3)中的dP(vi,vj)越大,贷款间距离越大,相似性越小;
(3)、根据投资者构成成分对贷款相似性度量,具体为:
1)、投资者ui和投资者uj之间的相关关系,可表示为:Jik表示投资者ui和投资者uj之间投资相似系数;Hi和Hk分别代表投资者ui和uk历史投资的贷款数目,Hik代表投资者ui和投资者uk投资过的相同贷款数目;当Jik=0,表示投资者ui和投资者uj从来没有投资过同一笔贷款;当Jik=1,表示投资者ui和投资者uj历史投资贷款的集合完全相同;
其中CSj为投资者构成分数,即每承受一单位风险,可得到的投资收益大小;贷款vj的投资者构成表示为 其中eij的大小代表投资者ui对贷款vj的投资金额;ωij表示是投资者ui对贷款vj的投资金额与投资者ui对n笔贷款的总投资金额之比,Rj表示贷款vj的真实收益率;Pi表示为每个投资者ui的风险偏好;投资经验Hi可表示为其中#表示集合总元素的个数;为投资者ui的历史投资收益绩效;CRj为贷款vj的预期收益,即为投资过该笔贷款的所有投资者的历史加权收益;λij表示投资者ui对贷款vj的投资金额与所有投资者对贷款vj的投资总金额之比;CPj为投资过贷款vi的所有投资者的风险偏好的标准差;
3)贷款vi与贷款vj之间的距离为投资者构成分数差值的绝对值,即可表示为:dC(vi,vj)=|CSi-CSj|;其中,dC(vi,vj)越小,贷款间距离越小,相似性越大;dC(vi,vj)越大,贷款间距离越大,相似性小;
第三步:最小逆序对融合的贷款相似性信息的整合,具体包括以下步骤:
(1)、定义逆序对;
1)、将第一步和第二步中得出的四种贷款相似性度量的结果,通过距离矩阵的形式表示为:
2)、根据贷款数据集以及单信息源距离矩阵,选择加权融合的方法对其进行融合,融合后的距离矩阵D*可以表示为:D*=∑k∈φWkDk,Φ={L,M,P,C},其中Wk表示分配给每个单信息源矩阵的权重;
3)、当出现度量结果冲突的现象时,建立逆序对公式:其中D1和D2分别表示两种不同方法计算出的贷款距离矩阵,p和q分别代表距离矩阵的行数和列数,逆序对的值越大,说明两个矩阵的冲突性越强,即两种评估方法的不一致性越大;
(3)、建立最小逆序对的多信息源融合模型,基于逆序对的定义,建立模型为:
第四步:多信息源融合的投资组合模型的建立:
(1)、经典投资决策模型可表示为:其中,μ为n笔目标贷款的预期收益向量,V为目标贷款收益的协方差矩阵;ξ∈Rn为投资组合策略中对n笔目标贷款的投资权重;ξi表示贷款vi的投资金额占总投资金额的比例,ξTμ和ξTVξ为投资的总收益和总风险,R*为期望的投资收益率水平;
假设S是投资者的可获得的总投资金额,则投资金额的约束条件为:m≤ξiS≤ai,否则,ξi=0,表示该投资者未投资贷款vi;
优选的,所述第一步中,借款人信息的风险特征包括贷款金额、贷款利率、借款人的债务收入比、借款人的FIC0分数、借款人当前的欠款金额、借款人过去七年的欠款违约次数、借款人收入、借款人最近六个月内的咨询次数。
优选的,所述第二步中,对投资者提取的信息包括投资二部网络G、贷款权重矩阵Ω以及投资者权重矩阵λ,具体为:
(1)、G={U,V,E},其中U和V分别代表投资者和贷款,E=(eij)m×n是连接它们的边,每个边eij的大小代表投资者ui对贷款vj的投资金额;
优选的,所述第四步(2)中,可行域∧存在以下三个约束条件:
(1)投资者的投资比例和为1,即∑iξi=1;
(2)投资者对每笔贷款的投资比例为非负数,即ξi≥0;
(3)每笔贷款的投资金额介于贷款申请的总金额和平台要求的最低限额之间,即m≤ξiS≤ai,m、S和ai分别为网络借贷平台最低投资限额、投资者可获得的总投资金额以及贷款vi申请的总金额。
本发明至少具备以下有益效果:
1.本发明通过实证得出当目标收益率水平持续增加时,基于相对熵约束的投资组合模型总是比经典的“均值-方差”投资组合模型获得更高的投资收益;此外本发明提出的基于最小逆序对融合的贷款信用风险评估模型在不同的目标收益率水平下都能够获得最高的投资收益,进一步证明了基于多信息源融合的网络借贷信用风险评估模型的稳健性,能够帮助投资者获得更高更稳定的投资收益。
2.本发明从借款人信息源出发,提取影响网络借贷信用风险的特征向量,然后分别构建了基于逻辑回归和度量学习的贷款相似性度量模型;通过对投资者行为和投资关系信息的量化,引入PageRank方法和投资者构成分数来评估贷款间的相似性;基于不同的信息源和模型,共提出了四种贷款相似性度量方法,有利于降低单一方法的片面性,提高贷款相似性度量的准确性。
3.本发明提出了基于最小逆序对融合的方法来对多个评估结果进行集成,目标是最大程度地减少多个度量结果间的不一致性,从而能够更加全面地评估网络借贷的信用风险。
4.本发明建立了基于多信息源融合的投资组合模型;基于融合后的信用风险评估模型,分别构建了经典的“均值-方差”投资决策模型和基于相对熵约束的稳健的投资组合模型,来帮助投资者管理投资风险,扩大投资收益。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为具体实施例中基于单信息源的贷款距离示意图;
图2为具体实施例中融合模型的优化过程示意图;
图3为具体实施例中逻辑回归(LR)和度量学习(ML)方法的收益结果;
图4为具体实施例中投资者构成分数(CS)和PageRank方法(PR)的收益结果;
图5为收益率(R*)设置为4.0%时,基于相对熵约束的投资组合模型与经典的“均值-方差”投资组合模型相比获得的投资收益区别示意图;
图6为收益率(R*)设置为5.0%时,基于相对熵约束的投资组合模型与经典的“均值-方差”投资组合模型相比获得的投资收益区别示意图;
图7为不同收益率水平下的投资收益表现示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例一
多信息源融合的网络借贷信用风险评估模型的建立方法,包括以下步骤:
第一步:根据借款人的信息源对贷款相似性进行度量;从借款人信息源出发,通过提取借款人影响网络借贷信用风险的特征向量,然后分别构建了基于逻辑回归和度量学习的贷款相似性度量模型;
第二步:根据投资者的信息源对贷款相似性进行度量;通过对投资者行为和投资关系信息的量化,引入PageRank方法和投资者构成分数来评估贷款间的相似性;
第三步:最小逆序对融合的贷款相似性信息的整合;在第一步和第二步中,基于不同的信息源和模型,共提出了四种贷款相似性度量方法,而在此步骤中,基于最小逆序对融合的方法来对多个评估结果进行集成,目标是最大程度地减少多个度量结果间的不一致性,从而能够更加全面地评估网络借贷的信用风险;
第四步:多信息源融合的投资组合模型的建立;基于融合后的信用风险评估模型,分别构建了经典的“均值-方差”投资决策模型和基于相对熵约束的稳健的投资组合模型,来帮助投资者管理投资风险,扩大投资收益;
综上,本实施例中,风险评估模型可以对目标贷款的信用风险进行更加充分的评估,研究成果可用于监管机构和网贷平台,帮助其有效区分优劣贷款,促进网贷行业的有序发展,维护金融秩序的稳定;其次,基于多信息源融合的投资决策模型可以帮助个人投资者量化投资比例,控制投资风险,提高投资收益;因此,本文提出的模型拥有广阔的应用前景。
实施例二
多信息源融合的网络借贷信用风险评估模型的建立方法,其中,第一步:根据借款人的信息源对贷款相似性进行度量,具体包括以下步骤;
(1)、对借款人信息中的风险特征进行提取,建立借款人信息的特征向量为X={x1,x2,x3,...,x8},其中x1,x2和x3分别表示不同的风险特征;借款人信息的风险特征包括贷款金额、贷款利率、借款人的债务收入比、借款人的FICO分数、借款人当前的欠款金额、借款人过去七年的欠款违约次数、借款人收入、借款人最近六个月内的咨询次数;
(2)、根据逻辑回归算法对借款人贷款相似性度量,具体为:
2)、两笔贷款违约概率差值的绝对值,表示为贷款vi与贷款vj之间的距离,表达式为:dL(vi,vj)=|pi-pj|,其中,pi和pj分别为在1)中预测的贷款vi和贷款vi的违约概率;
3)、当2)中dL(vi,vj)越小,则两笔贷款的违约概率的相似性越近;当dL(vi,vj)越大,则两笔贷款的违约概率的相似性越远;
(3)、根据度量学习算法对借款人贷款相似性度量,具体为:
2)、通过大间隔最近邻居算法计算出马氏矩阵M,然后对马氏距离进行计算,当1)中的dM(vi,vj)越大,贷款间的相似性越小;大间隔最近邻居算法计算出马氏矩阵M,具体包括以下内容:
(a)、目标贷款点vi,需要对其k个邻点和入侵点进行定义,且k个邻点需要满足:要与目标贷款vi为同一类贷款,即要么都属于违约贷款,要么都属于未违约贷款;在满足是同类贷款的基础上,是所有历史贷款中距离目标贷款vi最近的k笔贷款;
(b)、当缺乏先验知识时,属于同类别的目标邻居可以由欧氏距离确定;其次,目标贷款点vi的入侵点需满足的条件为:与目标贷款vi是非同类贷款;距离目标贷款vi的距离小于其邻点距离加上设置的边界距离;
(c)、大间隔最近邻居算法在对训练样本学习过程中应尽可能的使入侵样本的数目达到最小化,因而,为了达到距离度量优化的目标,将损失函数定义为:
该式一共包含两部分,第一部分表示目标贷款点与邻点之间的距离,其中δij∈{0,1}表示贷款vi与贷款vj是否属于同类,δij=1表示两笔贷款属于同一类,δij=0表示不属于同一类;第二部分表示入侵点对目标贷款点的入侵距离,φil∈{0,1}与δij含义相反,φil=0表示贷款vi和贷款vl属于同一类,φil=1则表明两笔贷款不属于同一类,[z]+=max(z,0),margin为设置的边际距离,c∈(0,1),用来平衡两部分的大小,通常取值为0.5;通过对损失函数的最小化优化,第一项惩罚了目标点与邻点之间的距离过大,第二项惩罚了入侵点的侵入距离过大,最终可达到“目标点与邻点间距离尽可能小,与入侵点之间的距离尽可能大”的目的,进而得到马氏矩阵M;
本实施例中,通过基于借款人信息源,对影响贷款信用风险的特征进行提取;然后基于逻辑回归和度量学习两种方法来衡量贷款间相似性;逻辑回归可以对变量之间的线性关系进行有效衡量,在信用风险评估领域被广泛应用,并被证明有良好的预测效果;度量学习一种是距离优化的算法,可以衡量贷款属性之间的相关关系,从而实现良好的相似性度量效果;这两种方法对样本空间有不同的前提假设,从而能够对借款人信息以不同角度进行挖掘,有利于降低单一方法的片面性,提高贷款相似性度量的准确性。
实施例三
多信息源融合的网络借贷信用风险评估模型的建立方法,其中,第二步:根据投资者的信息源对贷款相似性进行度量,具体包括以下步骤:
(1)、对投资者的投资行为和投资关系信息进行提取;对投资者提取的信息包括投资二部网络G、贷款权重矩阵Ω以及投资者权重矩阵λ,具体为:
(a)、G={U,V,E},其中U和V分别代表投资者和贷款,E=(eij)m×n是连接它们的边,每个边eij的大小代表投资者ui对贷款vj的投资金额;
(2)、根据PageRank方法对贷款相似性度量,具体为:
1)、对于目标贷款vj, 其中PRj为目标贷款vj的PR值,即目标贷款vj的所有投资者PR值的加权和;P(ui)为每位投资者ui的PR值,即每位投资者ui的历史投资贷款的收益率之和;rk表示贷款vk的实际收益率;
2)、贷款vi和贷款vi之间的距离为PR值差值的绝对值为:dP(vi,vj)=|PRi-PRj|;
3)、当2)中的dP(vi,vj)越小,贷款间距离越小,相似性越大;当3)中的dP(vi,vj)越大,贷款间距离越大,相似性越小;
(3)、根据投资者构成成分对贷款相似性度量,具体为:
1)、投资者ui和投资者uj之间的相关关系,可表示为:Jik表示投资者ui和投资者uj之间投资相似系数;Hi和Hk分别代表投资者ui和uk历史投资的贷款数目,Hik代表投资者ui和投资者uk投资过的相同贷款数目;当Jik=0,表示投资者ui和投资者uj从来没有投资过同一笔贷款;当Jik=1,表示投资者ui和投资者uj历史投资贷款的集合完全相同;
其中CSj为投资者构成分数,即每承受一单位风险,可得到的投资收益大小;贷款vj的投资者构成表示为 其中eij的大小代表投资者ui对贷款vj的投资金额;ωij表示是投资者ui对贷款vj的投资金额与投资者ui对n笔贷款的总投资金额之比,Rj表示贷款vj的真实收益率;Pi表示为每个投资者ui的风险偏好;投资经验Hi可表示为其中#表示集合总元素的个数;为投资者ui的历史投资收益绩效;CRj为贷款vj的预期收益,即为投资过该笔贷款的所有投资者的历史加权收益;λij表示投资者ui对贷款vj的投资金额与所有投资者对贷款vj的投资总金额之比;CPj为投资过贷款vi的所有投资者的风险偏好的标准差;
3)贷款vi与贷款vj之间的距离为投资者构成分数差值的绝对值,即可表示为:dC(vi,vj)=|CSi-CSj|;其中,dC(vi,vj)越小,贷款间距离越小,相似性越大;dC(vi,vj)越大,贷款间距离越大,相似性小;
本实施例中,通过用PageRank方法衡量目标贷款可获得的“期望收益”的差异,用投资者构成分数方法综合衡量贷款“期望收益”和“信用风险”之间的不同,从而可以从多个角度对贷款间的相似性进行度量。
实施例四
多信息源融合的网络借贷信用风险评估模型的建立方法,其中,第三步:最小逆序对融合的贷款相似性信息的整合,具体包括以下步骤:
(1)、定义逆序对;
1)、将第一步和第二步中得出的四种贷款相似性度量的结果,通过距离矩阵的形式表示为:
2)、根据贷款数据集以及单信息源距离矩阵,选择加权融合的方法对其进行融合,融合后的距离矩阵D*可以表示为:D*=∑k∈φWkDk,Φ={L,M,P,C},其中Wk表示分配给每个单信息源矩阵的权重;
3)、当出现度量结果冲突的现象时,建立逆序对公式:其中D1和D2分别表示两种不同方法计算出的贷款距离矩阵,p和q分别代表距离矩阵的行数和列数,逆序对的值越大,说明两个矩阵的冲突性越强,即两种评估方法的不一致性越大;
(4)、建立最小逆序对的多信息源融合模型,基于逆序对的定义,建立模型为:
本步骤中,基于“二八法则”的思想,在对融合模型进行优化时,对于每笔目标贷款,仅对相似性最大的前500笔贷款中的逆序对数量进行优化,即在贷款距离矩阵中,对每一行的逆序对进行计算时,仅统计融合矩阵D*中距离最近的前500笔贷款与单信息源矩阵中存在的逆序对的数量;
本步骤中,在融合矩阵D*中,对于每一行中距离最近的前500笔贷款,首先将其平均分为两个集合,即距离较近的前250笔贷款和距离较远的后250笔贷款,然后在计算逆序对个数时,只计算两个集合之间贷款距离的不一致性,而不考虑集合内部出现的贷款间距离的不一致性,以减少计算的时间,提高模型优化的效率;
本实施例中,通过鉴排序学习算法的思想,对逆序对进行定义;并构建多信息源融合模型,对实施例二和实施例三种四个相似性度量结果进行综合集成,以克服单一信息源评估模型的片面性以及不一致的缺点,更加客观全面地对贷款相似性进行了度量,有利于增加信用风险评估的有效性,能够帮助投资者更好地识别贷款的信用风险。
实施例五
多信息源融合的网络借贷信用风险评估模型的建立方法,其中,第四步:多信息源融合的投资组合模型的建立,具体包括以下两方面内容:
(1)、经典投资决策模型可表示为:∑iξi=1;其中,μ为n笔目标贷款的预期收益向量,V为目标贷款收益的协方差矩阵;ξ∈Rn为投资组合策略中对n笔目标贷款的投资权重;ξi表示贷款vi的投资金额占总投资金额的比例,ξTμ和ξTVξ为投资的总收益和总风险,R*为期望的投资收益率水平;
假设S是投资者的可获得的总投资金额,则投资金额的约束条件为:m≤ξiS≤ai,否则,ξi=0,表示该投资者未投资贷款vi;
且可行域Λ存在以下三个约束条件:
(1)投资者的投资比例和为1,即∑iξi=1;
(2)投资者对每笔贷款的投资比例为非负数,即ξi≥0;
(3)每笔贷款的投资金额介于贷款申请的总金额和平台要求的最低限额之间,即m≤ξiS≤ai,m、S和ai分别为网络借贷平台最低投资限额、投资者可获得的总投资金额以及贷款vi申请的总金额;
结合本实施例中可得知,基于经典的“均值-方差”投资组合理论,构建投资组合模型,来帮助投资者量化投资比例,控制投资风险;在经典的“均值-方差”投资组合模型中,投资比例的确定是投资者根据自己的风险偏好,在投资收益与风险之间平衡后的结果,但在实际情况中,由于投资者个人认知、信息获取以及知识水平等条件的局限性,对贷款收益和风险的估计值和真实值之间通常存在一定的差异;因此,直接使用估计的收益和风险进行投资组合可能会产生较大的风险;而稳健的投资组合优化模型将帮助投资者找到对参数估计不敏感的投资策略,这种策略无论参数估计值与实际值的差异如何,都能够帮助投资者获得较为稳定的投资收益。
根据实施例一至实施例五,并做出以下具体实施例:
参照图1-7,本具体实施例中使用的是Prosper网站中的贷款数据集;本实施例中将收集到的17407笔历史贷款数据分为测试集和训练集两类,其中,随机抽取4000笔贷款作为测试集,其他的13407笔贷款作为训练集;训练集用来训练学习逻辑回归模型中的相关系数β,以及计算度量学习中的马氏矩阵M;测试集用来进行贷款信用风险评估和投资组合优化;其具体过程包括以下步骤:
第一步,通过实施例二和实施例三中的四种贷款相似性度量方法,能够得到四个4000×4000的贷款距离矩阵Dk(k∈{L,M,P,C}),如图1所示;
第二步,构建式实施例三种的多信息源融合模型,进而用粒子群优化算法对该模型进行求解;从而迭代计算出分配给每个单信息源距离矩阵的权重Wk,最终可计算出融合后的距离矩阵D*,如图2所示;
第三步,设计实验对比模型进行实证分析,将从违约预测表现和投资组合收益大小两方面与其他的模型进行比较;具体的对比模型如
表1所示,
表1
第四步,引入一种简单的加权平均融合模型(AW)作为基本模型,以为了进一步证明本文模型的优越性;最后引入实施例四中的基于最小逆序对融合的网络借贷信用风险评估模型(IN);
第五步,针对第一步和第四步中得出的六种模型,对六种模型的相关预测指标进行对比,具体包括以下内容:
(1)、首先基于KNN算法对目标贷款的违约情况对六种模型进行预测分类,预测结果包含违约和未违约两种情;其中六种模型计算的贷款距离矩阵来表示KNN算法中的样本间距离;
(2)、通过准确率、精确率、召回率以及F值四个指标,来评估六个模型的分类性能;其中,准确率是预测正确的样本数量在总样本中所占的比例,正确率越高,分类器越好;精确度表示预测为正的样本中有多少是真正的正样本;召回率表示的是样本中的正例有多少被预测正确了,衡量了分类器对正例的识别能力;F分数同时考虑了准确率和召回率,为精确率和召回率的调和平均值;四个指标的值越大,说明分类结果越准确,分类器的性能越好;
在计算每个指标之前,首先定义混淆矩阵;预测贷款是否会违约是一个二元分类问题,假设贷款违约时预测结果为1(正例),否则为0(负例);那么将预测结果和实际结果相结合将会产生表3中的四种情况:
表3
其中,TP、FP、FN和TN可分别理解为:
(1)若一笔贷款实际情况下违约,同时预测结果也为违约,则将其定义为真正类(True Postive,TP);
(2)若一笔贷款实际情况下未违约,同时预测结果也为未违约,则将其定义为真负类(True Negative,TN);
(3)若一笔贷款实际情况下违约,但是预测结果为未违约,则将其定义为假正类(False Postive,FP);
(4)若一笔贷款实际情况下未违约,但是预测结果为违约,则将其定义为假负类(False Negative,FN);
基于以上的混淆矩阵,四个性能衡量指标的计算公式如下:
准确率(accuracy)=(TP+TN)/(TP+FP+FN+TN)
精确率(precision)=TP/(TP+FP)
召回率(recall)=TP/(TP+FN)
F=精确率*召回率*2/(精确率+召回率)
其中通过设置不同的k值,得到六种模型的分类评估指标对比如
表2所示,
表2
第六步,通过交叉验证的方法,验证本文模型在获取投资收益中的稳定性;具体包括以下内容:
(1)、将测试集中的4000笔贷款数据随机分为8组,每组500笔贷款数据;每次选取一组数据作为目标贷款数据集,其他7组作为历史贷款数据集,一共进行8组实验;
(2)、基于6种不同的相似性矩阵,用历史贷款数据对目标贷款的收益和风险进行预测;
(3)、通过设置不同的预期收益率,通过设置不同的预期收益率R*(4.5%和5.5%),分别构建经典的“均值-方差”投资组合模型和基于相对熵约束的投资组合模型,来计算在每笔目标贷款中的投资比例,进而计算出实际的收益率水平;
(4)、对不同模型中8组投资的平均收益率进行对比;
本实施例中,如图3分别为逻辑回归(LR)和度量学习(ML)方法的收益结果;图4分别为投资者构成分数(CS)和PageRank方法(PR)的结果;由图3和图4得知,无论目标收益率(R*)设置为4.0%还是5.0%,基于借款人信息的收益率水平均高于基于投资者信息的收益率水平;在对贷款的信用风险进行评估时,利用借款人信息比投资者信息更为可靠,前者蕴含着更多的投资价值信息,可以更准确的预测贷款的信用风险并帮助投资者获得更好的投资回报;而且与其他的评估模型相比,无论预期收益率水平的大小,基于最小逆序对融合的网络借贷信用风险评估模型(IN)都能够帮助投资者获得最高的投资回报率,充分验证了该模型在提高投资收益中的有效性;
如图5为收益率(R*)设置为4.0%时,基于相对熵约束的投资组合模型与经典的“均值-方差”投资组合模型相比获得的投资收益区别;如图6为收益率(R*)设置为5.0%时,基于相对熵约束的投资组合模型与经典的“均值-方差”投资组合模型相比获得的投资收益区别;由图5和图6可知,无论目标收益率设置的大小多少,以及采用的网络借贷信用评估方法的不同,基于相对熵约束的投资组合模型均比经典的“均值-方差”投资组合模型表现的更好,说明该模型可以帮助投资者进一步扩大投资收益;
如图7为保持其他条件不变,对不同模型的真实收益率情况进行对比的示意图,由图7得知,当目标收益率水平持续增加时,所有模型的实际平均收益都将增大;并且,基于相对熵约束的投资组合模型总是比经典的“均值-方差”投资组合模型获得更高的投资收益;此外,本发明提出的基于最小逆序对融合的贷款信用风险评估模型(IN)在不同的目标收益率水平下都能够获得最高的投资收益,进一步证明了基于多信息源融合的网络借贷信用风险评估模型的稳健性,能够帮助投资者获得更高更稳定的投资收益;
综上,本实施例首先通过对单信息源模型的可视化分析,证明了不同的相似性度量方法之间确实存在冲突和不一致的现象;其次在违约预测当中,与单信息源的模型以及简单加权平均的融合模型相比,本文提出的基于最小逆序对融合的评估模型在所有预测指标以及投资收益上的表现都更加优异;最后基于对投资收益的分析,发现借款人信息比投资者信息蕴含着更多的投资价值信息,并且基于相对熵约束的投资组合方法可以帮助投资者进一步扩大投资收益,提高收益的稳健性。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。
Claims (4)
1.多信息源融合的网络借贷信用风险评估模型的建立方法,其特征在于,包括以下步骤:
第一步:根据借款人的信息源对贷款相似性进行度量,具体包括以下步骤;
(1)、从贷款vi的借款人信息中提取风险特征,建立借款人信息的特征向量为Xi={xi1,xi2,xi3,...,xis},其中xij,j=1,2,…,s分别表示不同的风险特征;
(2)、根据逻辑回归算法对借款人贷款相似性度量,具体为:
2)、两笔贷款违约概率差值的绝对值,表示为贷款vi与贷款vj之间的距离,表达式为:dL(vi,vj)=|pi-pj|,其中,pi和pj分别为在1)中预测的贷款vi和贷款vj的违约概率;
3)、当2)中dL(vi,vj)越小,则两笔贷款的违约概率的相似性越近;当dL(vi,vj)越大,则两笔贷款的违约概率的相似性越远;
(3)、根据度量学习算法对借款人贷款相似性度量,具体为:
2)、通过大间隔最近邻居算法计算出马氏矩阵M,然后对马氏距离进行计算,当1)中的dM(vi,vj)越大,贷款间的相似性越小;
第二步:根据投资者的信息源对贷款相似性进行度量,具体包括以下步骤:
(1)、对投资者的投资行为和投资关系信息进行提取;
(2)、根据PageRank方法对贷款相似性度量,具体为:
1)、对于目标贷款vj, 其中PRj为目标贷款vj的PR值,即目标贷款vj的所有投资者PR值的加权和;P(ui)为每位投资者ui的PR值,即每位投资者ui的历史投资贷款的收益率之和;rk表示贷款vk的实际收益率;m,n分别是投资者和贷款的数量;
2)、贷款vi和贷款vj之间的距离为PR值差值的绝对值为:dP(vi,vj)=|PRi-PRj|;
3)、当2)中的dP(vi,vj)越小,贷款间距离越小,相似性越大;当3)中的dP(vi,vj)越大,贷款间距离越大,相似性越小;
(3)、根据投资者构成成分对贷款相似性度量,具体为:
1)、投资者ui和投资者uj之间的相关关系,可表示为:Jik表示投资者ui和投资者uj之间投资相似系数;Hi和Hk分别代表投资者ui和uk历史投资的贷款数目,Hik代表投资者ui和投资者uk投资过的相同贷款数目;当Jik=0,表示投资者ui和投资者uj从来没有投资过同一笔贷款;当Jik=1,表示投资者ui和投资者uj历史投资贷款的集合完全相同;
其中CSj为投资者构成分数,即每承受一单位风险,可得到的投资收益大小;贷款vj的投资者构成表示为其中eij的大小代表投资者ui对贷款vj的投资金额;ωij表示是投资者ui对贷款vj的投资金额与投资者ui对n笔贷款的总投资金额之比,Rj表示贷款vj的真实收益率;Pi表示为每个投资者ui的风险偏好;投资经验Hi可表示为其中#表示集合总元素的个数;为投资者ui的历史投资收益绩效;CRj为贷款vj的预期收益,即为投资过该笔贷款的所有投资者的历史加权收益;λij表示投资者ui对贷款vj的投资金额与所有投资者对贷款vj的投资总金额之比;λik表示投资者ui对贷款vk的投资金额与所有投资者对贷款vk的投资总金额之比;λi,i+k表示投资者ui对贷款vi+k的投资金额与所有投资者对贷款vj+k的投资总金额之比;CPj为投资过贷款vi的所有投资者的风险偏好的标准差;
3)贷款vi与贷款vj之间的距离为投资者构成分数差值的绝对值,即可表示为:dC(vi,vj)=|CSi-CSj|;其中CSi和CSj分别是贷款vi与贷款vj的投资者构成分数,计算方式见2),dC(vi,vj)越小,贷款间距离越小,相似性越大;dC(vi,vj)越大,贷款间距离越大,相似性小;
第三步:最小逆序对融合的贷款相似性信息的整合,具体包括以下步骤:
(1)、定义逆序对;
1)、将第一步和第二步中得出的四种贷款相似性度量的结果,通过距离矩阵的形式表示为:
2)、根据贷款数据集以及单信息源距离矩阵,选择加权融合的方法对第一步和第二步中得出的四种贷款相似性度量进行融合,融合后的距离矩阵D*可以表示为:D*=∑k∈ΦWkDk,Φ={L,M,P,C},其中Wk表示分配给每个单信息源矩阵的权重;
3)、当出现度量结果冲突的现象时,建立逆序对公式:
其中D1和D2分别表示两种不同方法计算出的贷款距离矩阵,p和q分别代表距离矩阵的行数和列数,vi,vj,vl分别代表三笔不同的贷款,逆序对的值越大,说明两个矩阵的冲突性越强,即两种评估方法的不一致性越大;
(2)、建立最小逆序对的多信息源融合模型,基于逆序对的定义,建立模型为:
第四步:多信息源融合的投资组合模型的建立:
(1)、经典投资决策模型可表示为:s.t.ξTμ≥R*;∑iξi=1;其中,μ为n笔目标贷款的预期收益向量,V为目标贷款收益的协方差矩阵;ξ∈Rn为投资组合策略中对n笔目标贷款的投资权重;ξi表示贷款vi的投资金额占总投资金额的比例,ξTμ和ξTVξ为投资的总收益和总风险,R*为期望的投资收益率水平;
假设S是投资者的可获得的总投资金额,ai为贷款vi所需的投资金额,amin为最小的投资金额,则投资金额的约束条件为:amin≤ξiS≤ai,否则,ξi=0,表示该投资者未投资贷款vi;
2.根据权利要求1所述的多信息源融合的网络借贷信用风险评估模型的建立方法,其特征在于,第一步中,借款人信息的风险特征包括贷款金额、贷款利率、借款人的债务收入比、借款人的FICO分数、借款人当前的欠款金额、借款人过去七年的欠款违约次数、借款人收入、借款人最近六个月内的咨询次数。
4.根据权利要求1所述的多信息源融合的网络借贷信用风险评估模型的建立方法,其特征在于,第四步(2)中,可行域Λ存在以下三个约束条件:
(1)投资者的投资比例和为1,即∑iξi=1;
(2)投资者对每笔贷款的投资比例为非负数,即ξi≥0;
(3)每笔贷款的投资金额介于贷款申请的总金额和平台要求的最低限额之间,即amin≤ξiS≤ai,amin、S和ai分别为网络借贷平台最低投资限额、投资者可获得的总投资金额以及贷款vi申请的总金额。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110444878.4A CN113344692B (zh) | 2021-04-24 | 2021-04-24 | 多信息源融合的网络借贷信用风险评估模型的建立方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110444878.4A CN113344692B (zh) | 2021-04-24 | 2021-04-24 | 多信息源融合的网络借贷信用风险评估模型的建立方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113344692A CN113344692A (zh) | 2021-09-03 |
CN113344692B true CN113344692B (zh) | 2022-03-11 |
Family
ID=77468485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110444878.4A Expired - Fee Related CN113344692B (zh) | 2021-04-24 | 2021-04-24 | 多信息源融合的网络借贷信用风险评估模型的建立方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113344692B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114092200A (zh) * | 2022-01-17 | 2022-02-25 | 南京审计大学 | 基于决策距离和概率矩阵的信用冲突检测方法 |
CN115378856B (zh) * | 2022-08-15 | 2023-07-14 | 中国科学院深圳先进技术研究院 | 通讯检测方法、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008126998A1 (en) * | 2007-04-17 | 2008-10-23 | Hyun Uk Shin | Interpersonal loan brokerage system and method |
CN106570631A (zh) * | 2016-10-28 | 2017-04-19 | 南京邮电大学 | 一种面向p2p平台运营风险评估的方法和系统 |
CN107194723A (zh) * | 2017-05-17 | 2017-09-22 | 中国科学技术大学 | 网络小额贷款中借款项目与出借人的双向匹配推荐方法 |
CN109325844A (zh) * | 2018-06-25 | 2019-02-12 | 南京工业大学 | 多维数据下的网贷借款人信用评价方法 |
CN109886807A (zh) * | 2019-03-06 | 2019-06-14 | 安徽大学 | 一种p2p平台上基于风险收益管理的个性化推荐方法 |
CN111507825A (zh) * | 2020-04-16 | 2020-08-07 | 安徽大学 | 一种p2p平台上基于博弈多目标优化的双向推荐方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105809535A (zh) * | 2016-03-07 | 2016-07-27 | 浙江爱贷金融服务外包股份有限公司 | 一种借贷风险控制方法及系统 |
-
2021
- 2021-04-24 CN CN202110444878.4A patent/CN113344692B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008126998A1 (en) * | 2007-04-17 | 2008-10-23 | Hyun Uk Shin | Interpersonal loan brokerage system and method |
CN106570631A (zh) * | 2016-10-28 | 2017-04-19 | 南京邮电大学 | 一种面向p2p平台运营风险评估的方法和系统 |
CN107194723A (zh) * | 2017-05-17 | 2017-09-22 | 中国科学技术大学 | 网络小额贷款中借款项目与出借人的双向匹配推荐方法 |
CN109325844A (zh) * | 2018-06-25 | 2019-02-12 | 南京工业大学 | 多维数据下的网贷借款人信用评价方法 |
CN109886807A (zh) * | 2019-03-06 | 2019-06-14 | 安徽大学 | 一种p2p平台上基于风险收益管理的个性化推荐方法 |
CN111507825A (zh) * | 2020-04-16 | 2020-08-07 | 安徽大学 | 一种p2p平台上基于博弈多目标优化的双向推荐方法 |
Non-Patent Citations (2)
Title |
---|
"P2P网络借贷中的投资决策模型研究";雒春雨;《中国优秀博硕士学位论文全文数据库(博士) 经济与管理科学辑》;20120915;第J162-2页 * |
"在线网络借贷投资决策模型及实证研究";郭艳红等;《运筹与管理》;20160430;第25卷(第2期);第214-219页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113344692A (zh) | 2021-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Guo et al. | Instance-based credit risk assessment for investment decisions in P2P lending | |
Babaei et al. | A multi-objective instance-based decision support system for investment recommendation in peer-to-peer lending | |
CN111401600A (zh) | 基于关联关系的企业信用风险评价方法和系统 | |
Callejón et al. | A System of Insolvency Prediction for industrial companies using a financial alternative model with neural networks | |
Angilella et al. | A credit risk model with an automatic override for innovative small and medium-sized enterprises | |
Zhang et al. | Corporate credit-risk evaluation system: Integrating explicit and implicit financial performances | |
CN113344692B (zh) | 多信息源融合的网络借贷信用风险评估模型的建立方法 | |
Ruyu et al. | A comparison of credit rating classification models based on spark-evidence from lending-club | |
Zhang et al. | A credit rating model based on a customer number bell-shaped distribution | |
Orlova | Economic efficiency of the mechanism for credit risk management | |
Haga et al. | Initial stage clustering when estimating accounting quality measures with self-organizing maps | |
Philosophov et al. | Predicting the event and time horizon of bankruptcy using financial ratios and the maturity schedule of long-term debt | |
Cucaro | The bankruptcy prediction model Z-ScoreM for Italian Manufacturing Listed Companies and Z'-ScoreM for Italian Industrial Company | |
CN115049495A (zh) | 一种基于特征选择与学习模型融合的波动率预测方法 | |
Pang et al. | WT combined early warning model and applications for loaning platform customers default prediction in smart city | |
CN113989050A (zh) | 一种基于topsis综合分析的钢贸企业供应链金融风险评估方法 | |
Guo et al. | Borrower-lender Information Fusion for P2P Lending: A Nonparametric Approach. | |
Li et al. | Research on listed companies’ credit ratings, considering classification performance and interpretability | |
Liu et al. | RETRACTED ARTICLE: Company financial path analysis using fuzzy c-means and its application in financial failure prediction | |
Anglekar et al. | Machine learning based risk assessment analysis for smes loan grant | |
Wang et al. | Research on Credit Decision Issues of the Small and Medium-Sized Enterprises Based on TOPSIS and Hierarchical Cluster Analysis | |
Dhakar et al. | DLBR: Bankruptcy Prediction using Deep Learning-A Case Study on Indian Firms | |
Nur | Comparing the Accuracy of Multiple Discriminant Analyisis, Logistic Regression, and Neural Network to estimate pay and not to pay Dividend | |
Sezgin | Statistical methods in credit rating | |
Tajik et al. | Machine learning support to provide an intelligent credit risk model for banks' real customers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220311 |
|
CF01 | Termination of patent right due to non-payment of annual fee |