CN117237096B - 可解释的机器学习驱动的信贷风控系统 - Google Patents
可解释的机器学习驱动的信贷风控系统 Download PDFInfo
- Publication number
- CN117237096B CN117237096B CN202311273361.9A CN202311273361A CN117237096B CN 117237096 B CN117237096 B CN 117237096B CN 202311273361 A CN202311273361 A CN 202311273361A CN 117237096 B CN117237096 B CN 117237096B
- Authority
- CN
- China
- Prior art keywords
- instance
- distance
- user
- counterfactual
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 13
- 230000006870 function Effects 0.000 claims description 35
- 238000000034 method Methods 0.000 claims description 26
- 230000002068 genetic effect Effects 0.000 claims description 15
- 210000000349 chromosome Anatomy 0.000 claims description 12
- 108090000623 proteins and genes Proteins 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 2
- 238000013459 approach Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于机器学习系统可解释性领域,公开了一种可解释的机器学习驱动的信贷风控系统。首先,根据用户的反馈,即让用户对特征变量值改变的难易程度打分,分数区间为[0,10]分,分数越高该特征对于该用户来说越容易改变,在生成反事实实例时优先考虑分数高的特征。其次,要考虑生成的样本的数据分布和改变的特征的数量。生成的反事实解释优先使用用户打分高的特征、并且使用的特征数量越少,越容易被用户理解和接受。如果生成的反事实样本,使用了大量的不相关的特征,对于用户来说是不易于理解的。除了评分高的特征这个指标外,还需要考虑稀疏性和与原始样本的接近性,即:合理性、稀疏性和接近性是评价一个好的反事实样本的关键指标。
Description
技术领域
本发明属于机器学习系统可解释性领域,涉及一种可解释的机器学习驱动的信贷风控系统,具体而言是用一种特征加权的反事实方法来解释信贷风控系统的结果。
背景技术
信贷风控系统主要由专家规则和机器学习模型组成,用于判断借款人的信用情况,从而决定是否给借款人进行贷款。当用户被拒绝贷款,该用户可能会想知道自己为什么被拒绝贷款?自己如何改进才能获得贷款?因此,需要信贷风控系统具有可解释性。专家规则很好理解,具有很好的可解释性。然而机器学习模型并不都是可解释的,例如:深度神经网络。本发明主要是提供了一种基于机器学习模型的信贷风控系统的可解释性方法。
已有很多研究是关于机器学习模型可解释性的,然而这些可解释性方法主要是解释哪些特征变量对结果影响比较显著,并不能说明如何改变这些特征变量从而可以改变模型的结果。例如:年收入到底提升多少,才能通过贷款?特征重要性的解释方法并不能给出答案。
后来有研究使用反事实的方法,例如:Wachter,S.等人提出了“COUNTERFACTUALEXPLANATIONS WITHOUT OPENING THE BLACK BOX:AUTOMATED DECISIONS AND THE GDPR”方法,来解释如何改变特征变量的值可以改变模型的结果。然而这些方法主要是针对机器学习模型进行可解释性的研究,没有从工程应用的角度和结合特定领域知识进行可解释的研究。特定领域的某些特征变量是无法改变的或者很难改变的,例如:年龄、性别、学历等,然而传统的反事实方法未考虑到特征变量改变的难易程度,例如信贷风控领域,一个反事实实例是:该用户的年龄降低10岁即可获得贷款或者改变该用户的性别可以获得贷款。然而年龄是不能降低的、性别是不能改变的。再例如:改变年收入和学历特征变量的难易程度是不同的,年收入从10万提升到11万也许很容易,然而学历却很难从专科提升到本科。因此生成反事实解释的时候要考虑到不同特征变量值改变的难易程度。
然而,现有的反事实方法没有考虑到用户的反馈,即对于不同的用户来说,同一个特征变量的改变难易程度是不同的。例如,对于用户A来说,年收入从10万提升到11万很容易,然而对于用户B来说,年收入很难从10万提升到11万;对于用户A来说,最近一个月消费从1000元提升到3000元很容易,然而对于用户B来说,最近一个月消费很难从1000元提升到3000元。
因此本发明提出了特征加权的反事实方法。根据专家经验对特征的初始权重进行设定,作为预训练的反事实方法。根据用户的反馈可以对初始权重进行调整,得到调整后的反事实实例。通过最终的反事实模型可以给出更合理的解释。
发明内容
本发明的目的是提供一种特征加权的反事实方法,可用于解释信贷风控系统的决策结果并给出如何改变决策结果的方法。本发明不仅仅是对决策结果进行解释,并且给出了如何改变决策结果的方法。本发明同时考虑到了不同特征变量值改变的难易程度是不同的,提出了一种基于用户反馈的特征加权的反事实方法。
生成反事实解释实例可以被定义为一个优化问题,通过在特征空间中寻找近似于原始特征但产生不同决策结果的扰动,来找到一个解决方案(即反事实样本)。本发明提出了一种基于用户反馈的特征加权反事实实例生成方案,将用户反馈加入到评价函数中,使用多目标遗传算法生成反事实实例,并应用于信贷风控系统的决策结果解释中,给出用户如何改进可以获得贷款的解释。具体流程图如图1所示。
使用多目标优化方法,可以考虑多个目标的权衡,可以生成更好的反事实实例,从而提高所生成的反事实实例的可理解性。首先,根据用户的反馈,即让用户对特征变量值改变的难易程度打分,分数区间为[0,10]分,分数越高该特征对于该用户来说越容易改变,在生成反事实实例时优先考虑分数高的特征。其次,要考虑生成的样本的数据分布和改变的特征的数量。生成的反事实解释优先使用用户打分高的特征、并且使用的特征数量越少,越容易被用户理解和接受。如果生成的反事实样本,使用了大量的不相关的特征,对于用户来说是不易于理解的。除了评分高的特征这个指标外,还需要考虑稀疏性和与原始样本的接近性,即:合理性、稀疏性和接近性是评价一个好的反事实样本的关键指标。在本发明中,使用这三个指标的加权值作为评价函数。
本发明的目的是找到满足多目标的用户满意的反事实解释(现实中用户可以通过改变相应特征变量值来改变决策结果)。本发明使用遗传算法来寻找最优解,遗传算法流程图如图2所示。
本发明的技术方案:
一种可解释的机器学习驱动的信贷风控系统,步骤如下:
X表示样本集,x∈X表示样本集中的一个实例,xi表示实例x第i个特征变量的值,scorei为用户对特征变量xi值改变所付出的代价的打分,scorei∈[0,10],分数越高,表示特征变量xi值改变所付出的代价越小。wi为特征变量xi的代价权重系数,见式(1):
scorei分值越高,代价权重系数wi越小,则特征变量xi的值的改变所付出的代价越小。
适应度函数的定义如式(2)所示,其中,x∈X表示样本集中的一个实例,表示反事实的一个实例;f(·)是已经训练好的预测模型,/>是实例/>在预测模型f(·)下的输出结果;适应度函数值越高,表示相应反事实实例的效果越好;
适应度函数:
式中,为距离函数,表示反事实实例的合理性,见式(3),/>为反事实实例的结节性,即尽量接近原始样本集,见式(4)-(6),/>表示反事实实例的稀疏性,即特征变量值发生改变的数量,见式(7)。λ为权重系数,用来权衡三个优化目标的权重,满足约束:λ1+λ2+λ3=1。
当时,表示/>不是可行解,因此,给适应度函数赋值-∞;
适应度函数由三个子项加权组成,每个子项的具体含义如下:
适应度函数的第一项为特征的距离函数,表示生成的反事实实例的合理性,是考虑到用户反馈打分的加权特征距离函数,如式(3):
式中,wi为特征变量xi的代价权重系数,见式(1)。该距离函数考虑到了不同特征变量值改变代价权重是不同的。
适应度函数的第二项表示生成的反事实实例的接近性,即生成的反事实实例要尽量接近原始的样本集,否则生成的反事实实例可能是一个离群点或在现实生活中不可能出现的情况;用局部异常因子lof来表示反事实实例在其局部区域内的异常值程度,lof越小越好;lof根据局部密度计算其得分,局部性由其k个邻居定义;可达距离的定义见式(4),局部可达密度见式(5);lof的计算见式(6);通常情况下,lof值大于1,则表示该实例很有可能是异常点,因为它相较于它的相邻实例有更小的局部密度;
rdk(o,p)=max{k-distance(o),d(o,p)} (4)
式中,k-distance表示o和它k个邻居的平均距离,d(o,p)表示o点和p的空间距离,rdk(o,p)为点p到点o的第k可达距离,就是在点p与点o的距离、距离点o最近k-distance的k个点距离中取较大的一个;Nk(p)表示p附近距离k-distance以内的邻居的数量,lrdk(p)表示点p的局部可达密度,是基于点p的k个最近邻的平均可达距离的倒数;距离越大,密度越小;
适应度函数的第三项表示生成的反事实实例的稀疏性,即特征变量值发生改变的数量;改变的特征变量数量越少,反事实实例就越简洁,越容易理解;
遗传算法的种群是由一组染色体集合组成,每个染色体代表一个可行解,根据适应度函数种群不断进化,得到最优的染色体,即最优解;
初始种群由随机生成的染色体组成;每个染色体由多个基因组成,每个基因是[0,1]的实数,表示反事实的一个特征变量值。因此,染色体的基因数量与特征的数量是一致的;
算法步骤如下:
第一步,由领域专家对所有特征变量打分,计算出各个特征变量的代价权重,如式(1);
第二步,执行遗传算法,根据第一步的特征变量的代价权重计算各个个体的适应度函数值,如式(2),直到得到满足条件的最优个体为止,输出基于专家评分的反事实实例,作为当前结果的解释,如果用户接受该解释,则停止,否则执行第三步;
第三步,在领域专家对特征变量打分的基础上,由用户对特征变量的打分进行调整,重新计算各个特征变量的代价权重,如式(1);
第四步,执行遗传算法,根据第三步的特征变量的代价权重计算各个个体的适应度函数值,如式(2),直到得到满足条件的最优个体为止,输出基于用户评分的反事实实例,作为当前结果的解释,停止。
本发明的有益效果:
(1)提出了特征变量代价权重的概念,考虑到了不同特征变量改变的难易程度,使得到的结果更符合现实情况,并且是可行的;
(2)提出了专家对特征变量打分的机制,提供了一种计算特征变量代价权重的可行方法;
(3)定义了反事实生成算法的目标函数,并使用遗传算法求解,使得结果更具备可解释性和实际可行性;
(4)在专家对特征变量打分的基础上给出了用户对特征变量打分调整的机制,并进行二次迭代优化,从而考虑到每个不同用户对结果的差异化需求;
(5)本发明可以对信贷风控的结果进行很好的解释,同时具有实际可行性。
附图说明
图1是信贷风控系统结果的特征加权反事实解释流程图。
图2是基于遗传算法的特征加权反事实方法示意图。
图3是反事实实例的基因编码示例。
具体实施方式
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
以某个拒贷用户为例,该用户的特征变量值如表1所示。
表1拒贷用户原始特征变量
采用传统反事实方法得到的反事实解释如表2所示。该方法给出的解释是:如果用户的网龄从1个月增加到128个月,并且当月视频播放类应用使用次数从42次增加到22905次,那么该用户将通过贷款。可见该解释并不具备实际可行性,用户网龄不可能一下子从1个月增加到128个月。
表2传统反事实算法得到的反事实实例
第一步,由领域专家对所有特征变量值改变所付出的代价进行打分,分数越高表示该特征变量值改变所花的代价越小,根据式(1)计算出各个特征变量的代价权重,如表3所示。
表3特征变量专家打分及代价权重
第二步,按照图2的流程执行遗传算法,首先随机生成遗传算法的初始种群,对特征变量值进行归一化处理,将特征变量值缩放为[0,1]之间的实数,按照图3所示进行基因浮点编码。根据公式(2)计算种群中个体的适应度函数值。然后执行选择、交叉、变异操作,直到满足停止条件为止,根据适应度函数值得到最优的反事实个体。
使用基于专家评分的反事实方法,得到的反事实解释如表4所示,近6个月平均消费值由41.66提升到226.1,当月到过福州山姆会员店,即可通过贷款。可见基于专家打分的反事实解释具有实际可行性。
表4基于专家打分的特征加权反事实方法得到的反事实实例
根据图2的流程,如果用户对于该反事实解释满意,则停止,否则进入第三步,在专家打分的基础上由用户对特征变量打分进行调整,并重新计算特征变量的代价权重,如表5所示。
表5特征变量用户打分及代价权重
第四步,前面遗传算法最后一代种群作为本次遗传算法的初始种群,使用表5的用户打分计算适应度函数值。然后执行选择、交叉、变异操作,直到满足停止条件为止,根据适应度函数值得到最优的反事实个体。
以表1拒贷用户为例,使用用户评分的反事实方法得到的反事实解释如表6所示。如果用户当月通话交往人数从1个人增加到550个人,那么该用户将通过贷款。
表6基于用户打分的特征加权反事实方法得到的反事实实例
以上,可证明本方法给出的解释是具有实际可行性的,不仅能够解释用户为什么贷款被拒绝,也能够告诉用户如何做出改变从而能够获得贷款。
Claims (1)
1.一种可解释的机器学习驱动的信贷风控系统,其特征在于,步骤如下:
设X表示样本集,x∈X表示样本集中的一个实例,xi表示实例x第i个特征变量的值,scorei为用户对特征变量xi值改变所付出的代价的打分,scorei∈[0,10],分数越高,表示特征变量xi值改变所付出的代价越小;wi为特征变量xi的代价权重系数,见式(1):
scorei分值越高,代价权重系数wi越小,则特征变量xi的值的改变所付出的代价越小;
适应度函数的定义如式(2)所示,其中,x∈X表示样本集中的一个实例,表示反事实的一个实例;f(·)是已经训练好的预测模型,/>是实例/>在预测模型f(·)下的输出结果;适应度函数值越高,表示相应反事实实例的效果越好;
适应度函数:
式中,为距离函数,表示反事实实例的合理性,见式(3),/>为反事实实例的结节性,即接近原始样本集,见式(4)-(6),/>表示反事实实例的稀疏性,即特征变量值发生改变的数量,见式(7);λ为权重系数,用来权衡三个优化目标的权重,满足约束:λ1+λ2+λ3=1;
当时,表示/>不是可行解,因此,给适应度函数赋值-∞;
适应度函数由三个子项加权组成,每个子项的具体含义如下:
适应度函数的第一项为特征的距离函数,表示生成的反事实实例的合理性,是考虑到用户反馈打分的加权特征距离函数,如式(3):
该距离函数考虑到了不同特征变量值改变代价权重是不同的;
适应度函数的第二项表示生成的反事实实例的接近性,即生成的反事实实例要接近原始的样本集,否则生成的反事实实例是一个离群点或在现实生活中不可能出现的情况;用局部异常因子lof来表示反事实实例在其局部区域内的异常值程度,lof越小越好;lof根据局部密度计算其得分,局部性由其k个邻居定义;可达距离的定义见式(4),局部可达密度见式(5);lof的计算见式(6);lof值大于1,则表示该实例是异常点,因为它相较于它的相邻实例有更小的局部密度;
rdk(o,p)=max{k-distance(o),d(o,p)} (4)
式中,k-distance表示o和它k个邻居的平均距离,d(o,p)表示o点和p的空间距离,rdk(o,p)为点p到点o的第k可达距离,就是在点p与点o的距离、距离点o最近的k个点距离中取较大的一个;Nk(p)表示p附近距离k-distance以内的邻居的数量,lrdk(p)表示点p的局部可达密度,是基于点p的k个最近邻的平均可达距离的倒数;距离越大,密度越小;
适应度函数的第三项表示生成的反事实实例的稀疏性,即特征变量值发生改变的数k-distance量;改变的特征变量数量越少,反事实实例就越简洁,越容易理解;
遗传算法的种群是由一组染色体集合组成,每个染色体代表一个可行解,根据适应度函数种群不断进化,得到最优的染色体,即最优解;
初始种群由随机生成的染色体组成;每个染色体由多个基因组成,每个基因是[0,1]的实数,表示反事实的一个特征变量值;因此,染色体的基因数量与特征的数量是一致的;
算法步骤如下:
第一步,由领域专家对所有特征变量打分,计算出各个特征变量的代价权重,如式(1);
第二步,执行遗传算法,根据第一步的特征变量的代价权重计算各个个体的适应度函数值,如式(2),直到得到满足条件的最优个体为止,输出基于专家评分的反事实实例,作为当前结果的解释,如果用户接受该解释,则停止,否则执行第三步;
第三步,在领域专家对特征变量打分的基础上,由用户对特征变量的打分进行调整,重新计算各个特征变量的代价权重,如式(1);
第四步,执行遗传算法,根据第三步的特征变量的代价权重计算各个个体的适应度函数值,如式(2),直到得到满足条件的最优个体为止,输出基于用户评分的反事实实例,作为当前结果的解释,停止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311273361.9A CN117237096B (zh) | 2023-09-28 | 2023-09-28 | 可解释的机器学习驱动的信贷风控系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311273361.9A CN117237096B (zh) | 2023-09-28 | 2023-09-28 | 可解释的机器学习驱动的信贷风控系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117237096A CN117237096A (zh) | 2023-12-15 |
CN117237096B true CN117237096B (zh) | 2024-02-23 |
Family
ID=89090937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311273361.9A Active CN117237096B (zh) | 2023-09-28 | 2023-09-28 | 可解释的机器学习驱动的信贷风控系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117237096B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114897181A (zh) * | 2022-05-09 | 2022-08-12 | 哈尔滨工业大学 | 一种基于因果关系的元学习解释方法 |
CN115270634A (zh) * | 2022-08-04 | 2022-11-01 | 南京航空航天大学 | 一种适用于自主空战领域的反事实解释生成方法及系统 |
CN115587884A (zh) * | 2022-11-23 | 2023-01-10 | 常熟理工学院 | 一种基于改进的极限学习机的用户贷款违约预测方法 |
CN115759263A (zh) * | 2022-12-08 | 2023-03-07 | 四川新网银行股份有限公司 | 一种基于因果推断的策略效果评估方法及装置 |
CN115936159A (zh) * | 2022-08-24 | 2023-04-07 | 之江实验室 | 基于自动特征挖掘的可解释信贷违约率预测方法、系统 |
CN116348894A (zh) * | 2020-10-08 | 2023-06-27 | 硕动力公司 | 用于机器学习模型中的反事实解释的系统和方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11610085B2 (en) * | 2019-02-28 | 2023-03-21 | Adobe Inc. | Prototype-based machine learning reasoning interpretation |
-
2023
- 2023-09-28 CN CN202311273361.9A patent/CN117237096B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116348894A (zh) * | 2020-10-08 | 2023-06-27 | 硕动力公司 | 用于机器学习模型中的反事实解释的系统和方法 |
CN114897181A (zh) * | 2022-05-09 | 2022-08-12 | 哈尔滨工业大学 | 一种基于因果关系的元学习解释方法 |
CN115270634A (zh) * | 2022-08-04 | 2022-11-01 | 南京航空航天大学 | 一种适用于自主空战领域的反事实解释生成方法及系统 |
CN115936159A (zh) * | 2022-08-24 | 2023-04-07 | 之江实验室 | 基于自动特征挖掘的可解释信贷违约率预测方法、系统 |
CN115587884A (zh) * | 2022-11-23 | 2023-01-10 | 常熟理工学院 | 一种基于改进的极限学习机的用户贷款违约预测方法 |
CN115759263A (zh) * | 2022-12-08 | 2023-03-07 | 四川新网银行股份有限公司 | 一种基于因果推断的策略效果评估方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于改进教学式方法的可解释信用风险评价模型构建;董路安;叶鑫;;中国管理科学(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117237096A (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dash | Performance analysis of a higher order neural network with an improved shuffled frog leaping algorithm for currency exchange rate prediction | |
Zeng et al. | Fuzzy forecasting based on linear combinations of independent variables, subtractive clustering algorithm and artificial bee colony algorithm | |
Slowik | Application of an adaptive differential evolution algorithm with multiple trial vectors to artificial neural network training | |
Nayak et al. | Index prediction with neuro-genetic hybrid network: A comparative analysis of performance | |
CN111104975B (zh) | 一种基于广度学习的信用评估方法 | |
Chen et al. | Uncertain portfolio selection with high-order moments | |
Antonelli et al. | Multi-objective evolutionary learning of granularity, membership function parameters and rules of Mamdani fuzzy systems | |
CN115438842A (zh) | 一种基于自适应改进蜉蝣和bp神经网络的负荷预测方法 | |
CN116843456B (zh) | 基于人工智能的金融大数据处理方法及系统 | |
Delima | An experimental comparison of hybrid modified genetic algorithm-based prediction models | |
CN117237096B (zh) | 可解释的机器学习驱动的信贷风控系统 | |
Yeh et al. | Evaluation approach to stock trading system using evolutionary computation | |
CN108537663A (zh) | 一种股票趋势预测方法 | |
Das et al. | A self-adaptive fuzzy-based optimised functional link artificial neural network model for financial time series prediction | |
Song et al. | Study on GA-based training algorithm for extreme learning machine | |
Hsiao et al. | A neurofuzzy-evolutionary approach for product design | |
García et al. | A two-step approach of feature construction for a genetic learning algorithm | |
Dlapa | Differential migration: Sensitivity analysis and comparison study | |
Shengdong et al. | Entrepreneurial borrowing overdue prediction based on stacking model transfer learning | |
Kumar et al. | A GA-based method for constructing TSK fuzzy rules from numerical data | |
Zhang | Nature-inspired multi-objective optimisation and transparent knowledge discovery via hierarchical fuzzy modelling | |
Zhang et al. | Integrating harmony search algorithm and deep belief network for stock price prediction model | |
Ankaiah et al. | Multi objective constrained optimisation of data envelopment analysis by differential evolution | |
García et al. | An iterative strategy for feature construction on a fuzzy rule-based learning algorithm | |
Chang et al. | Prediction of the return of common fund through General Regression Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |