CN115587828A - 一种基于Shap值的电信欺诈场景的可解释方法 - Google Patents
一种基于Shap值的电信欺诈场景的可解释方法 Download PDFInfo
- Publication number
- CN115587828A CN115587828A CN202211345894.9A CN202211345894A CN115587828A CN 115587828 A CN115587828 A CN 115587828A CN 202211345894 A CN202211345894 A CN 202211345894A CN 115587828 A CN115587828 A CN 115587828A
- Authority
- CN
- China
- Prior art keywords
- value
- feature
- model
- user
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000000694 effects Effects 0.000 claims abstract description 18
- 238000012216 screening Methods 0.000 claims description 26
- 230000000875 corresponding effect Effects 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000006399 behavior Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 13
- 238000000926 separation method Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 11
- 238000010801 machine learning Methods 0.000 claims description 10
- 238000009795 derivation Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 239000000654 additive Substances 0.000 claims description 6
- 230000000996 additive effect Effects 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 230000001186 cumulative effect Effects 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 230000009286 beneficial effect Effects 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 4
- 230000002596 correlated effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 3
- 230000006698 induction Effects 0.000 abstract description 3
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 235000000332 black box Nutrition 0.000 description 2
- 230000008092 positive effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004138 cluster model Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000366 juvenile effect Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Accounting & Taxation (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Entrepreneurship & Innovation (AREA)
- Finance (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于Shap值的电信欺诈场景的可解释方法。本发明可以清楚的得到每个被模型判定为欺诈用户的主要原因,由特征层次的重要性细化到每个用户级别的特征重要性,有效地增强了样本的可解释性;通过设定80%阈值,可以有效地减少选出的特征数量,便于归纳总结;有机地将SHAP值和分箱结合到一起,利用分箱后特征值解释性更强的特点,在SHAP本身具有的可解释性上更近一步,对后续进行欺诈用户分组能够起到指导作用,通过在用户主要欺诈特征中找出具有相似特征的用户进行分组,方便进行分群和总结经验。
Description
技术领域
本发明涉及数据挖掘技术领域,特别涉及一种基于Shap值的电信欺诈场景的可解释方法。
背景技术
现有的电信欺诈识别的技术方案大致分为以下几种:专家经验规则、传统评分卡、机器学习模型如LightGBM等。
方案一为专家经验。专家经验规则主要是基于人工经验建立的简单规则来判断和区分是否欺诈,这类方法主要的问题有以下两个方面,一方面是识别精度问题,由于识别方法仅仅是基于人工经验建立的简单规则,往往采用一刀切的不够精细的处置方式,所以这类方法的精度不高,对欺诈客户的识别效果也不够好;另一方面是可解释和归因匮乏,由于简单的人工经验容易存在误差和人为倾向,所以这类方法较难获知欺诈用户的真正原因,制定的响应的反欺诈措施没有基于性,因此往往效果也不够好。
方案二为传统评分卡。传统评分卡的发展从20世纪80年代美国征信巨头FairIsaac推出第一张评分卡FICO开始,评分卡模型(Scorecard Model) 逐步替代专家模型,成为传统金融机构最为依仗的信用评级方法。传统评分卡通常采用逻辑回归算法,对比于前一种专家经验规则,传统评分卡具有可解释性强的特点和优势,更适用于对可解释性有较大需求的场景,但也有相应弱势的地方,分别是:一方面由于模型架构整体采用复杂的特征工程结合简单模型的方式,所以模型的精度比现阶段应用较多的LightGBM等集成树模型差很多;其次由于采用了复杂的特征工程,所以建模往往会花费更长的时间。
方案三为机器学习模型。常用的机器学习模型分为有监督、半监督和无监督,比较具有代表性的应用在反欺诈领域较多的有LightGBM、聚类模型、孤立森林等,这类模型簇的特点就是具有比较可观的识别率,效果往往比前两种方法效果更好,耗时也比传统评分卡耗时少,唯一存在的的问题就是可解释性较弱,集成树模型能够得到整体维度的特征重要权重,但无法得到样本级别的特征权重,无法提供具体到个人对应每一个选出特征的可解释原因,只能够看到具体的特征值和每个特征对于模型的重要程度或者说对于客群整体的影响程度,而无法得知具体哪些特征对判断具体的单个用户是否欺诈起到了多大的影响。
发明内容
本发明要解决的技术问题是克服现有技术的缺陷,提供一种基于Shap值的电信欺诈场景的可解释方法,创新的提出了利用Shap值可解释性方法加上重要性阈值再加上分箱方法并结合高精度的集成树模型的方案解决电信欺诈场景对可解释的需求。首先利用集成树模型(本发明使用LightGBM,后续简称LGB,其他的集成树模型也适用)对欺诈场景进行建模满足了电信欺诈场景对模型高精度的需求,利用TreeSHAP(后续简称Shap)这种基于集成树方法优化的结合树模型对实现了计算和性能优化后的方案实现模型事后的可解释性,由原有模型的基于客群整体的特征重要性细化为基于单个用户级别的特征重要性,得到基于每个用户在每个特征上导致用户欺诈的占比率,将Shap value值进行排序后,根据累计占比前80%(重要性阈值)为标准,选出影响用户被识别为欺诈的主要因素,搭配分箱技术之后进行WOE编码并结合业务经验对分箱结果进行归因,使模型的可解释性进一步增强,最终实现样本层次可解释。
通俗的理解就是利用Shap value值衡量样本对应的每个特征值对结果影响的占比,按照Shap value值降序排列,结合重要性阈值得到影响占比较大的若干因素,随后结合分箱后的WOE编码,将影响占比较大的若干因素对应的特征值归类到若干组别中提升可解释性,最终可以得到每个被判别为欺诈的用户的主要因素归类。
本发明提供了如下的技术方案:
本发明提供一种基于Shap值的电信欺诈场景的可解释方法,其特征在于,包括以下步骤:
S1、数据准备:
S1.1、客群筛选,根据已有的电信欺诈场景及线索,圈出潜在客群,并选出观测点,观察期和表现期;
S1.2、标签标注,好坏样本划分;根据用户在表现期的表现区分为欺诈用户样本(标记为1)和正常用户样本(标记为0);
S1.3、特征汇总;在观测点获取整合用户观察期内的行为特征以及用户自身属性特征,其中行为特征包括如近天的每日通话行为、短信行为、上网流量等数据特征;通话和短信行为数据包括:时间、次数、呼叫类型、漫游类型、对端号码、归属地等;上网流量数据包括:时间、时长、次数、流量字节等;其他特征包括用户属性等特征;最终将所有特征汇总到特征宽表里,并关联正负样本表进行打标签;
S2、数据处理:
S2.1、数据预处理,包括对异常值进行盖帽法处理、连续型缺失值按照是否有意义填充为-9999或0(如xx金额)、离散型缺失值填充missing,单一值比例超过90%进行删除处理、缺失值比例超过90%进行删除处理;
S2.2、特征衍生,有效的特征衍生可以增强模型的效果,可以根据实际情况酌情进行;
S2.3、对特征进行分箱并进行WOE编码,分别对连续型特征与离散型特征进行分箱,计算各个分箱的WOE值并替代原有特征值;
每个分箱中的WOE值为:
1)对连续型变量进行离散化,分别统计各个bin中欺诈用户数,正常用户数,分别记为:Badi,Goodi;
2)统计数据中总欺诈用户数,总正常用户数,分别记为:Badtotal,Goodtotal;
3)按照上述计算公式,为每个分箱计算出WOE值,某个分箱中的WOE值=ln(该分箱中的欺诈用户人数/总欺诈用户人数)-ln(该分箱中的正常用户人数/总正常用户人数);
S2.4、进行特征筛选,利用多种特征筛选方法进行冗余特征的去除;LGB 虽然自带选出重要特征的属性,但适当的进行特征筛选有利于减轻计算压力和耗时;常用的特征筛选方法如利用IV值是否大于0.01进行特征初筛、Null Importance、Boruta等方法;
S2.5、相关性筛选,进行相关性分析,若发现两个特征之间相关性大于 0.75,则认为此组特征相关,删除IV值较小的特征,因为后续用到的SHAP 值在进行计算的时候如果两个特征相似,会影响SHAP值的准确性;
S3、建模训练并进行归因分析:
S3.1、模型训练,使用LGB算法利用经过预处理和特征筛选后的用户特征宽表进行建模输出概率值,其中概率值范围为0-1,概率值越大代表模型认为该用户为欺诈用户的概率越大;
S3.2、模型验证,利用划分的验证集进行验证,调整LGB模型的参数,最终选出使模型效果最优的一组参数作为模型参数;
S3.4、模型结果输出,利用最优模型参数重新训练LGB模型,将样本输入后得到输出概率值,概率值的范围在0-1之间,概率值的大小可以理解为欺诈概率的大小,概率值越大欺诈概率越大;
S3.4、融合SHAP值,利用SHAP值对模型的可解释性,可以得到样本级别的特征重要性大小以及重要程度,将特征重要性进行排序后,可以得到影响每个用户被判别为欺诈用户的特征重要性排序,也就能够梳理出最重要的几个核心因素,具体的方式就是将所有对欺诈影响正相关的特征选出来,每个特征值除以选出特征值的总和,得到具体的比例;然后通过设定阈值的方式,比如将累计影响80%以上的特征作为该用户的主要影响特征;最终得到用户级别的主要影响特征;
在机器学习模型来说,集成树模型在做分类任务时,模型输出的是一个概率值;仅仅能够表示该样本为1的概率值,而具体的原因或者说具体哪些特征导致该用户的概率为模型输出值并不得而知;而本方案利用SHAP值对树模型进行事后建模,在同样得到每个用户的欺诈概率的同时,明确了具体哪些特征对用户有正反馈或负反馈,也就是说可以看到每个特征值影响模型结果的具体的正负值,并得出可以衡量大小的具体的值,这样我们就可以得到影响每个用户最关键的几个特征,从而达到可以给用户解释为什么他被识别为电信欺诈的主要原因;
SHAP是ShapleyAdditive exPlanations的缩写,即沙普利加和解释,属于模型事后解释的方法,可以对复杂机器学习模型进行解释;虽然来源于博弈论,但只是以该思想作为载体;在进行局部解释时,SHAP的核心是计算其中每个特征变量的ShapleyValue;
Shapley:代表对每个样本中的每一个特征变量,都计算出它的SHAPley Value;
Additive:代表对每一个样本而言,特征变量对应的SHAPley value是可加的;
exPlanation:代表对单个样本的解释,即每个特征变量是如何影响模型的预测值;
因此SHAP实际是将输出值归因到每一个特征的Shapley值上,换句话说,就是计算每一个特征的Shapley值,依此来衡量特征对最终输出值的影响;用公式表示:
其中,其中g是解释模型,M是输入特征的数目,x表示相应特征是否存在(1 或0),这里的存在是基于如图像和文本数据(如文本中,将词one-hot后,某个句子中并不会出现所有词);是每个特征的归因值(Shapley值),是一个常数;由于树模型的输入是结构化数据,对于样本x,所有的特征都是存在的,且根据事后解释模型g的局部保真性(localaccuracy),对于单个样本x,有g(x)=f(x),所以可以使用黑盒模型的预测结果f(x)替换上式中的g(x),因此公式可以写为:
根据上式可以看到,黑盒模型的预测结果f(x)可以分解为各个特征的[插图]i 之和,φi反映了各项特征对f(x)的影响大小,因而上式可以实现对黑盒模型预测结果的解释;其中,φi的计算公式为:
上式是一个期望值,表示在不同特征组合下,xi入模与不入模时模型结果的变化情况;其中,M表示特征全集;S表示{M\xi}的特征子集,S的取值有多种情况,分别对应了不同的特征组合;f(xs∪{i}和f(xs)分别表示各种特征组合下 xi入模与不入模时,模型的输出结果;表示各种特征组合对应的概率,“||”表示集合的元素个数,“!”表示阶乘;下面对该概率计算公式进行推导,在计算特征xi的边际贡献时,各种特征组合出现的概率计算过程如下:
训练完LGB模型之后,我们可以选择一个样本,来查看SHAP的解释过程,分析出主要影响因素,得到主要影响因素后,找到对应分箱的业务解析即完成样本的可解释性,在得到的主要欺诈原因的基础上,给出具体的分组,替代原有的特征值,可解释性更强。
与现有技术相比,本发明的有益效果如下:
1.在电信欺诈识别领域创造性地引入可解释性概念和方法,采用 TreeShap的方法,对模型进行事后可解释性赋能,可以清楚的得到每个被模型判定为欺诈用户的主要原因,由特征层次的重要性细化到每个用户级别的特征重要性,有效地增强了样本的可解释性。具体的提升可以参照图4的附加Shap值效果;
2.采用了重要性阈值的方式,比如通过将累计影响80%以上的特征设定为该用户的主要影响特征。根据实践可知,重要性阈值之前的特征往往重要性占比比较大,只有为数不多的个位数特征(根据入模特征的整体规模会动态变化),而有大量的重要性占比极小的特征,通过设定80%阈值,可以有效地减少选出的特征数量,便于归纳总结;
3.有机地将SHAP值和分箱结合到一起,利用分箱后特征值解释性更强的特点,在SHAP本身具有的可解释性上更近一步,对后续进行欺诈用户分组能够起到指导作用,通过在用户主要欺诈特征中找出具有相似特征的用户进行分组,方便进行分群和总结经验。具体效果可以参照图4的附加分箱效果。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的实施流程图以及与传统方案流程图的对比;
图2是本发明的分箱后WOE编码的示意图;
图3是本发明的SHAP值赋能后单个用户特征重要性示意图;
图4是本发明对比传统方案结果以及SHAP和分箱新增的效果示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。其中附图中相同的标号全部指的是相同的部件。
实施例1
如图1-4,本发明提供一种基于Shap值的电信欺诈场景的可解释方法,包括以下步骤:
S1、数据准备:
S1.1、客群筛选,根据已有的电信欺诈场景及线索,圈出潜在客群,并选出观测点,观察期和表现期;
S1.2、标签标注,好坏样本划分。根据用户在表现期的表现区分为欺诈用户样本(标记为1)和正常用户样本(标记为0);
S1.3、特征汇总。在观测点获取整合用户观察期内的行为特征以及用户自身属性特征,其中行为特征包括如近天的每日通话行为、短信行为、上网流量等数据特征。通话和短信行为数据包括:时间、次数、呼叫类型、漫游类型、对端号码、归属地等;上网流量数据包括:时间、时长、次数、流量字节等;其他特征包括用户属性等特征。最终将所有特征汇总到特征宽表里,并关联正负样本表进行打标签;
S2、数据处理:
S2.1、数据预处理,包括对异常值进行盖帽法处理、连续型缺失值按照是否有意义填充为-9999或0(如xx金额)、离散型缺失值填充missing,单一值比例超过90%进行删除处理、缺失值比例超过90%进行删除处理;
S2.2、特征衍生,有效的特征衍生可以增强模型的效果,可以根据实际情况酌情进行;
S2.3、对特征进行分箱并进行WOE编码,分别对连续型特征与离散型特征进行分箱,计算各个分箱的WOE值并替代原有特征值;
分箱以及WOE编码的案例如图2所示,由于企业保密性的限制以及电信欺诈这个业务的特殊性,此次的示意图忽略了特征名,相应的解释也以低中高等代替。其中train柱状代表训练集在不同分箱组别中的数量占比,train 折线代表该分组中负样本的比例,test为测试集,意义与训练集类似。假设该特征为浏览某页面的次数,缺失值处理为-9999,则第一个分箱归纳为“最近未浏览页面”也可以理解为低活跃用户。第二个分箱归纳为“最近浏览过页面”,第三个分箱归纳为“最近频繁浏览页面”也就是高活跃用户。由此将原有的数值对应到各个分箱组中,归纳为不同的业务表达,一方面提升了可解释性,另一方面对后续的用户分组起到了指导作用。
WOE值的一大益处就是能够重新编码,使后续输入模型的所有特征值都是数值表示,方便模型训练。而本发明分箱并计算WOE值的目的更主要的是为了增强模型的可解释性。由于数据分为离散型和连续型,对于连续型数据,分箱的作用是将连续值分到几个区间段内,如年龄特征经过分箱后,假如分为5箱,如0-18,19-25,25-45,45-60,60以上,则可以进行人工标注为少年、青年、中青年、中老年、老年,通过这种类似的划分,特征值就不再是冰冷的数字,而是可以理解的递进的关系组。基于于离散型特征,也是类似的方式,通过分箱将较多的离散值(10个以上)分到较少的箱中,然后进行标注解释,也是能够增加可解释性的。
每个分箱中的WOE值为:
1)对连续型变量进行离散化,分别统计各个bin中欺诈用户数,正常用户数,分别记为:Badi,Goodi;
2)统计数据中总欺诈用户数,总正常用户数,分别记为:Badtotal,Goodtotal;
3)按照上述计算公式,为每个分箱计算出WOE值,某个分箱中的WOE值=ln(该分箱中的欺诈用户人数/总欺诈用户人数)-ln(该分箱中的正常用户人数/总正常用户人数);
S2.4、进行特征筛选,利用多种特征筛选方法进行冗余特征的去除。LGB 虽然自带选出重要特征的属性,但适当的进行特征筛选有利于减轻计算压力和耗时。常用的特征筛选方法如利用IV值是否大于0.01进行特征初筛、Null Importance、Boruta等方法;
S2.5、相关性筛选,进行相关性分析,若发现两个特征之间相关性大于 0.75,则认为此组特征相关,删除IV值较小的特征,因为后续用到的SHAP 值在进行计算的时候如果两个特征相似,会影响SHAP值的准确性;
S3、建模训练并进行归因分析:
S3.1、模型训练,使用LGB算法利用经过预处理和特征筛选后的用户特征宽表进行建模输出概率值,其中概率值范围为0-1,概率值越大代表模型认为该用户为欺诈用户的概率越大。
S3.2、模型验证,利用划分的验证集进行验证,调整LGB模型的参数,最终选出使模型效果最优的一组参数作为模型参数。
S3.4、模型结果输出,利用最优模型参数重新训练LGB模型,将样本输入后得到输出概率值,概率值的范围在0-1之间,概率值的大小可以理解为欺诈概率的大小,概率值越大欺诈概率越大。
S3.4、融合SHAP值,利用SHAP值对模型的可解释性,可以得到样本级别的特征重要性大小以及重要程度,将特征重要性进行排序后,可以得到影响每个用户被判别为欺诈用户的特征重要性排序,也就能够梳理出最重要的几个核心因素,具体的方式就是将所有对欺诈影响正相关的特征选出来,每个特征值除以选出特征值的总和,得到具体的比例。然后通过设定阈值的方式,比如将累计影响80%以上的特征作为该用户的主要影响特征。最终得到用户级别的主要影响特征。
在机器学习模型来说,集成树模型在做分类任务时,模型输出的是一个概率值。仅仅能够表示该样本为1的概率值,而具体的原因或者说具体哪些特征导致该用户的概率为模型输出值并不得而知。而本方案利用SHAP值对树模型进行事后建模,在同样得到每个用户的欺诈概率的同时,明确了具体哪些特征对用户有正反馈或负反馈,也就是说可以看到每个特征值影响模型结果的具体的正负值,并得出可以衡量大小的具体的值,这样我们就可以得到影响每个用户最关键的几个特征,从而达到可以给用户解释为什么他被识别为电信欺诈的主要原因。
SHAP是ShapleyAdditive exPlanations的缩写,即沙普利加和解释,属于模型事后解释的方法,可以对复杂机器学习模型进行解释。虽然来源于博弈论,但只是以该思想作为载体。在进行局部解释时,SHAP的核心是计算其中每个特征变量的ShapleyValue。
Shapley:代表对每个样本中的每一个特征变量,都计算出它的SHAPley Value。
Additive:代表对每一个样本而言,特征变量对应的SHAPley value是可加的。
exPlanation:代表对单个样本的解释,即每个特征变量是如何影响模型的预测值。
因此SHAP实际是将输出值归因到每一个特征的Shapley值上,换句话说,就是计算每一个特征的Shapley值,依此来衡量特征对最终输出值的影响。用公式表示:
其中,其中g是解释模型,M是输入特征的数目,x表示相应特征是否存在(1 或0),这里的存在是基于如图像和文本数据(如文本中,将词one-hot后,某个句子中并不会出现所有词);是每个特征的归因值(Shapley值),是一个常数。由于树模型的输入是结构化数据,对于样本x,所有的特征都是存在的,且根据事后解释模型g的局部保真性(localaccuracy),对于单个样本x,有g(x)=f(x),所以可以使用黑盒模型的预测结果f(x)替换上式中的g(x),因此公式可以写为:
根据上式可以看到,黑盒模型的预测结果f(x)可以分解为各个特征的[插图]i 之和,φi反映了各项特征对f(x)的影响大小,因而上式可以实现对黑盒模型预测结果的解释。其中,φi的计算公式为:
上式是一个期望值,表示在不同特征组合下,xi入模与不入模时模型结果的变化情况。其中,M表示特征全集;S表示{M\xi}的特征子集,S的取值有多种情况,分别对应了不同的特征组合;f(xs∪{i}和f(xs)分别表示各种特征组合下 xi入模与不入模时,模型的输出结果;表示各种特征组合对应的概率,“||”表示集合的元素个数,“!”表示阶乘。下面对该概率计算公式进行推导,在计算特征xi的边际贡献时,各种特征组合出现的概率计算过程如下:
本发明使用的TreeSHAP方法是由Lundberg等人提出,是SHAP的一种变体,用于基于树的机器学习模型,例如决策树、随机森林和梯度提升树。 TreeSHAP的速度很快,可以计算精确的Shapley值,并且在特征相关时可以正确估计Shapley值。对于精确的Shapley值,它将计算复杂度从O(2MTL) 降低到了O(TLD2),其中T是树的数量,L是所有树中的最大叶子数量,D 是所有树的最大深度。
训练完LGB模型之后,我们可以选择一个样本,来查看SHAP的解释过程。
如图3所示:该样本的预测概率为0.55,整个数据集的基准值是0.3。左边黑色的特征代表其对模型预测值有正向的影响,即会使得预测概率增加。由于本案例的欺诈用户样本目标值为1,所以左边黑色特征就是导致用户被判定为电信欺诈用户的原因。右边灰色的变量代表其对模型预测值有负向的影响,即会使得预测概率降低,也就是该用户被判定为正常用户的原因。因为我们仅需要对被判定为欺诈用户的客户解释原因,所以我们仅关注左边黑色的特征。同时,SHAP图也展示了贡献程度较大的变量,并依据左边黑色部分的长短显示贡献程度的大小,同时还包括该用户在该变量下的取值,以 feature5=1.35为例,该式代表该用户的特征feature5在原始数据集中的取值为1.35。同时,我们还可以看到,feature5排在左边黑色部分的第一位,这意味着其正向作用最大,也就是说该特征是导致用户被模型判定为电信欺诈用户首要因素。类似的,我们可以将左边黑色部分的特征分别除以左边黑色特征shap value值的总和,就得到各个特征的占比,然后按照由大到小的顺序排列,统计出累计占比超过80%的部分作为该用户的欺诈主要影响因素。
在得到主要影响因素后,找到对应分箱的业务解析即完成样本的可解释性,具体的效果可以参照图4,第一部分是传统较好的方案,输出的是单纯的欺诈概率值。第二部分则是经过Shap值加成后,可以得到用户级别的主要欺诈原因,因为我们主要关注欺诈用户,一方面需要给投诉客户一个合理的解释,另一方面为后续的归纳总结和欺诈客群画像等工作服务。第三部分是经过分箱后WOE编码,在得到的主要欺诈原因的基础上,给出具体的分组,替代原有的特征值,可解释性更强。
本方案中其简化步骤如下所示:
1.根据经验进行潜在客群的筛选
2.对选好的客群进行黑白样本标注,欺诈用户为1,正常用户为0。
3.将所有可用特征进行汇总,利用客户标识特征进行各个特征表的关联,并汇总为特征宽表,并关联黑白样本标注特征。
4.进行特征预处理,包括异常值处理、单一值处理、缺失值处理等。
5.进行特征衍生。
6.进行分箱,分箱后进行WOE编码替换原有特征值。
7.进行特征筛选,对相关性较强的特征进行择优保留。
8.利用LightGBM进行模型训练。
9.利用SHAP值进行事后可解释性赋能。
10.选取每个被判别为欺诈用户的样本,将累计80%比例的欺诈特征作为该用户的主要欺诈归因。
11.最终输出三列数据,分别为用户标识、欺诈概率、主要欺诈归因。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于Shap值的电信欺诈场景的可解释方法,其特征在于,包括以下步骤:
S1、数据准备:
S1.1、客群筛选,根据已有的电信欺诈场景及线索,圈出潜在客群,并选出观测点,观察期和表现期;
S1.2、标签标注,好坏样本划分;根据用户在表现期的表现区分为欺诈用户样本(标记为1)和正常用户样本(标记为0);
S1.3、特征汇总;在观测点获取整合用户观察期内的行为特征以及用户自身属性特征,其中行为特征包括如近天的每日通话行为、短信行为、上网流量等数据特征;通话和短信行为数据包括:时间、次数、呼叫类型、漫游类型、对端号码、归属地等;上网流量数据包括:时间、时长、次数、流量字节等;其他特征包括用户属性等特征;最终将所有特征汇总到特征宽表里,并关联正负样本表进行打标签;
S2、数据处理:
S2.1、数据预处理,包括对异常值进行盖帽法处理、连续型缺失值按照是否有意义填充为-9999或0(如xx金额)、离散型缺失值填充missing,单一值比例超过90%进行删除处理、缺失值比例超过90%进行删除处理;
S2.2、特征衍生,有效的特征衍生可以增强模型的效果,可以根据实际情况酌情进行;
S2.3、对特征进行分箱并进行WOE编码,分别对连续型特征与离散型特征进行分箱,计算各个分箱的WOE值并替代原有特征值;
每个分箱中的WOE值为:
1)对连续型变量进行离散化,分别统计各个bin中欺诈用户数,正常用户数,分别记为:Badi,Goodi;
2)统计数据中总欺诈用户数,总正常用户数,分别记为:Badtotal,Goodtotal;
3)按照上述计算公式,为每个分箱计算出WOE值,某个分箱中的WOE值=ln(该分箱中的欺诈用户人数/总欺诈用户人数)-ln(该分箱中的正常用户人数/总正常用户人数);
S2.4、进行特征筛选,利用多种特征筛选方法进行冗余特征的去除;LGB虽然自带选出重要特征的属性,但适当的进行特征筛选有利于减轻计算压力和耗时;常用的特征筛选方法如利用IV值是否大于0.01进行特征初筛、Null Importance、Boruta等方法;
S2.5、相关性筛选,进行相关性分析,若发现两个特征之间相关性大于0.75,则认为此组特征相关,删除IV值较小的特征,因为后续用到的SHAP值在进行计算的时候如果两个特征相似,会影响SHAP值的准确性;
S3、建模训练并进行归因分析:
S3.1、模型训练,使用LGB算法利用经过预处理和特征筛选后的用户特征宽表进行建模输出概率值,其中概率值范围为0-1,概率值越大代表模型认为该用户为欺诈用户的概率越大;
S3.2、模型验证,利用划分的验证集进行验证,调整LGB模型的参数,最终选出使模型效果最优的一组参数作为模型参数;
S3.4、模型结果输出,利用最优模型参数重新训练LGB模型,将样本输入后得到输出概率值,概率值的范围在0-1之间,概率值的大小可以理解为欺诈概率的大小,概率值越大欺诈概率越大;
S3.4、融合SHAP值,利用SHAP值对模型的可解释性,可以得到样本级别的特征重要性大小以及重要程度,将特征重要性进行排序后,可以得到影响每个用户被判别为欺诈用户的特征重要性排序,也就能够梳理出最重要的几个核心因素,具体的方式就是将所有对欺诈影响正相关的特征选出来,每个特征值除以选出特征值的总和,得到具体的比例;然后通过设定阈值的方式,比如将累计影响80%以上的特征作为该用户的主要影响特征;最终得到用户级别的主要影响特征;
在机器学习模型来说,集成树模型在做分类任务时,模型输出的是一个概率值;仅仅能够表示该样本为1的概率值,而具体的原因或者说具体哪些特征导致该用户的概率为模型输出值并不得而知;而本方案利用SHAP值对树模型进行事后建模,在同样得到每个用户的欺诈概率的同时,明确了具体哪些特征对用户有正反馈或负反馈,也就是说可以看到每个特征值影响模型结果的具体的正负值,并得出可以衡量大小的具体的值,这样我们就可以得到影响每个用户最关键的几个特征,从而达到可以给用户解释为什么他被识别为电信欺诈的主要原因;
SHAP是ShapleyAdditive exPlanations的缩写,即沙普利加和解释,属于模型事后解释的方法,可以对复杂机器学习模型进行解释;虽然来源于博弈论,但只是以该思想作为载体;在进行局部解释时,SHAP的核心是计算其中每个特征变量的ShapleyValue;
Shapley:代表对每个样本中的每一个特征变量,都计算出它的SHAPley Value;
Additive:代表对每一个样本而言,特征变量对应的SHAPley value是可加的;
exPlanation:代表对单个样本的解释,即每个特征变量是如何影响模型的预测值;
因此SHAP实际是将输出值归因到每一个特征的Shapley值上,换句话说,就是计算每一个特征的Shapley值,依此来衡量特征对最终输出值的影响;用公式表示:
其中,其中g是解释模型,M是输入特征的数目,x表示相应特征是否存在(1或0),这里的存在是基于如图像和文本数据(如文本中,将词one-hot后,某个句子中并不会出现所有词);是每个特征的归因值(Shapley值),是一个常数;由于树模型的输入是结构化数据,对于样本x,所有的特征都是存在的,且根据事后解释模型g的局部保真性(localaccuracy),对于单个样本x,有g(x)=f(x),所以可以使用黑盒模型的预测结果f(x)替换上式中的g(x),因此公式可以写为:
根据上式可以看到,黑盒模型的预测结果f(x)可以分解为各个特征的[插图]i之和,φi反映了各项特征对f(x)的影响大小,因而上式可以实现对黑盒模型预测结果的解释;其中,φi的计算公式为:
上式是一个期望值,表示在不同特征组合下,xi入模与不入模时模型结果的变化情况;其中,M表示特征全集;S表示{M\xi}的特征子集,S的取值有多种情况,分别对应了不同的特征组合;f(xs∪{i}和f(xs)分别表示各种特征组合下xi入模与不入模时,模型的输出结果;表示各种特征组合对应的概率,“||”表示集合的元素个数,“!”表示阶乘;下面对该概率计算公式进行推导,在计算特征xi的边际贡献时,各种特征组合出现的概率计算过程如下:
训练完LGB模型之后,我们可以选择一个样本,来查看SHAP的解释过程,分析出主要影响因素,得到主要影响因素后,找到对应分箱的业务解析即完成样本的可解释性,在得到的主要欺诈原因的基础上,给出具体的分组,替代原有的特征值,可解释性更强。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211345894.9A CN115587828A (zh) | 2022-10-31 | 2022-10-31 | 一种基于Shap值的电信欺诈场景的可解释方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211345894.9A CN115587828A (zh) | 2022-10-31 | 2022-10-31 | 一种基于Shap值的电信欺诈场景的可解释方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115587828A true CN115587828A (zh) | 2023-01-10 |
Family
ID=84781524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211345894.9A Pending CN115587828A (zh) | 2022-10-31 | 2022-10-31 | 一种基于Shap值的电信欺诈场景的可解释方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115587828A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115953248A (zh) * | 2023-03-01 | 2023-04-11 | 支付宝(杭州)信息技术有限公司 | 基于沙普利可加性解释的风控方法、装置、设备及介质 |
-
2022
- 2022-10-31 CN CN202211345894.9A patent/CN115587828A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115953248A (zh) * | 2023-03-01 | 2023-04-11 | 支付宝(杭州)信息技术有限公司 | 基于沙普利可加性解释的风控方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111597348B (zh) | 用户画像方法、装置、计算机设备和存储介质 | |
Benchimol et al. | Text mining methodologies with R: An application to central bank texts | |
CN110399609B (zh) | 意图识别方法、装置、设备及计算机可读存储介质 | |
CN106611375A (zh) | 一种基于文本分析的信用风险评估方法及装置 | |
CN110795556A (zh) | 一种基于细粒度插入式解码的摘要生成方法 | |
CN107704512A (zh) | 基于社交数据的金融产品推荐方法、电子装置及介质 | |
CN109034194A (zh) | 基于特征分化的交易欺诈行为深度检测方法 | |
CN109271627A (zh) | 文本分析方法、装置、计算机设备和存储介质 | |
CN111507827A (zh) | 一种健康风险评估的方法、终端及计算机存储介质 | |
CN110598129B (zh) | 基于两级信息熵的跨社交网络用户身份识别方法 | |
CN107145514A (zh) | 基于决策树和svm混合模型的中文句型分类方法 | |
CN110119980A (zh) | 一种用于信贷的反欺诈方法、装置、系统和记录介质 | |
CN115186654B (zh) | 一种公文文本摘要生成方法 | |
CN110704510A (zh) | 一种结合用户画像的题目推荐方法及系统 | |
CN115587828A (zh) | 一种基于Shap值的电信欺诈场景的可解释方法 | |
CN113962160A (zh) | 基于用户画像的互联网卡用户流失预测方法及系统 | |
CN116629258B (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及系统 | |
CN112463922A (zh) | 一种风险用户识别方法及存储介质 | |
CN110942391A (zh) | 在区块链中多活动标签用户的主要活动标签确定方法 | |
CN116401343A (zh) | 一种数据合规分析方法 | |
US11880394B2 (en) | System and method for machine learning architecture for interdependence detection | |
CN110109994B (zh) | 包含结构化和非结构化数据的汽车金融风控系统 | |
CN112632229A (zh) | 文本聚类方法及装置 | |
CN112632219A (zh) | 一种垃圾短信的拦截方法和拦截装置 | |
CN110968696B (zh) | 一种财经博客文本分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |