CN115062734A - 可输出解释性信息的风控建模方法、装置、设备及介质 - Google Patents
可输出解释性信息的风控建模方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN115062734A CN115062734A CN202210999177.1A CN202210999177A CN115062734A CN 115062734 A CN115062734 A CN 115062734A CN 202210999177 A CN202210999177 A CN 202210999177A CN 115062734 A CN115062734 A CN 115062734A
- Authority
- CN
- China
- Prior art keywords
- sample
- decision tree
- model
- feature
- sample feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Development Economics (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Technology Law (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及人工智能技术,提供可输出解释性信息的风控建模方法、装置、设备及介质,是先基于业务类型从多个样本特征选定样本特征并筛选而得到对应的已训练决策树模型组成决策树集成模型,然后将待预测用户样本输入至决策树集成模型得到各已训练决策树模型分别输出的预测结果及预测过程遍历节点轨迹,并基于预测过程遍历节点轨迹确定并生成决策树集成模型中所有样本特征分别对应的可解释性结果。实现了基于业务类型对应的初始样本特征集自动确定决策树集成模型,而且在具体应用决策树集成模型进行预测时不仅可以输出预测结果,还可以输出模型对应的可解释性结果,便于用户直观的获取预测结果及其相关的可解释性结果而获取更多模型相关信息。
Description
技术领域
本申请涉及人工智能的机器学习技术领域,尤其涉及一种可输出解释性信息的风控建模方法、装置、设备及介质。
背景技术
目前,在很多领域(如科技金融领域)对合法合规取得的用户数据进行用户风险确定时,往往用得较多的方式是基于风控模型获取用户数据对应的风控等级。若基于风控模型对用户数据的风控等级进行分析时,一般只能得到风控模型输出的最终预测结果,并不输出该最终预测结果的可解释性结果,导致了当前的大数据风控模型预测结果的可解释性非常差。
发明内容
本申请实施例提供了一种可输出解释性信息的风控建模方法、装置、计算机设备及存储介质,旨在解决现有技术中基于风控模型对用户数据的风控等级进行分析时只输出最终预测结果,并不输出该最终预测结果的可解释性结果,导致了当前的大数据风控模型预测结果的可解释性非常差的问题。
第一方面,本申请实施例提供了一种可输出解释性信息的风控建模方法,其包括:
根据业务类型从多个样本特征中确定初始样本特征集;
重复预设次数从所述初始样本特征集中随机获取样本特征组以得到预设次数个样本特征组所组成的样本特征组集合,其中,所述各样本特征组具有预设第一个数的样本特征;
获取与所述样本特征组集合中各样本特征组分别匹配的目标已训练决策树模型,组成决策树集成模型;
获取待预测用户样本,将所述待预测用户样本输入至所述决策树集成模型进行样本预测,得到所述决策树集成模型中各已训练决策树模型分别输出的预测结果及预测过程遍历节点轨迹;
基于所述决策树集成模型中各已训练决策树模型分别输出的预测过程遍历节点轨迹,确定并生成所述决策树集成模型中所有样本特征分别对应的可解释性结果;
输出所述决策树集成模型,所述决策树集成模型中各已训练决策树模型分别输出的预测结果,及所述决策树集成模型中所有样本特征分别对应的可解释性结果。
第二方面,本申请实施例提供了一种可输出解释性信息的风控建模装置,其包括:
初始样本特征集确定单元,用于根据业务类型从多个样本特征中确定初始样本特征集;
样本特征组集合获取单元,用于重复预设次数从所述初始样本特征集中随机获取样本特征组以得到预设次数个样本特征组所组成的样本特征组集合,其中,所述各样本特征组具有预设第一个数的样本特征;
决策树集成模型获取单元,用于获取与所述样本特征组集合中各样本特征组分别匹配的目标已训练决策树模型,组成决策树集成模型;
预测结果输出单元,用于获取待预测用户样本,将所述待预测用户样本输入至所述决策树集成模型进行样本预测,得到所述决策树集成模型中各已训练决策树模型分别输出的预测结果及预测过程遍历节点轨迹;
可解释性结果获取单元,用于基于所述决策树集成模型中各已训练决策树模型分别输出的预测过程遍历节点轨迹,确定并生成所述决策树集成模型中所有样本特征分别对应的可解释性结果;
综合输出单元,用于输出所述决策树集成模型,所述决策树集成模型中各已训练决策树模型分别输出的预测结果,及所述决策树集成模型中所有样本特征分别对应的可解释性结果。
第三方面,本申请实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的可输出解释性信息的风控建模方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的可输出解释性信息的风控建模方法。
本申请实施例提供了一种可输出解释性信息的风控建模方法、装置、设备及介质,是先基于业务类型从多个样本特征选定样本特征并筛选而得到对应的已训练决策树模型组成决策树集成模型,然后将待预测用户样本输入至决策树集成模型得到各已训练决策树模型分别输出的预测结果及预测过程遍历节点轨迹,并基于预测过程遍历节点轨迹确定并生成决策树集成模型中所有样本特征分别对应的可解释性结果。实现了基于业务类型对应的初始样本特征集自动确定决策树集成模型,而且在具体应用决策树集成模型进行预测时不仅可以输出预测结果,还可以输出模型对应的可解释性结果,便于用户直观的获取预测结果及其相关的可解释性结果而获取更多模型相关信息。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的可输出解释性信息的风控建模方法的应用场景示意图;
图2为本申请实施例提供的可输出解释性信息的风控建模方法的流程示意图;
图3a为本申请实施例提供的可输出解释性信息的风控建模方法中第1个已训练决策树模型的模型示意图;
图3b为本申请实施例提供的可输出解释性信息的风控建模方法中第2个已训练决策树模型的模型示意图;
图3c为本申请实施例提供的可输出解释性信息的风控建模方法中第3个已训练决策树模型的模型示意图;
图3d为本申请实施例提供的可输出解释性信息的风控建模方法中第4个已训练决策树模型的模型示意图;
图4为本申请实施例提供的可输出解释性信息的风控建模装置的示意性框图;
图5为本申请实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本申请实施例提供的可输出解释性信息的风控建模方法的应用场景示意图;图2为本申请实施例提供的可输出解释性信息的风控建模方法的流程示意图,该可输出解释性信息的风控建模方法应用于服务器中,该方法通过安装于服务器中的应用软件进行执行。
如图2所示,该方法包括步骤S101~S106。
S101、根据业务类型从多个样本特征中确定初始样本特征集。
在本实施例中,是以服务器为执行主体来描述技术方案。在服务器中不是任意筛选样本特征,而是需要先确定业务类型具体针对何种业务场景,然后再从服务器的预设数据库中(如用户样本特征库)已预先存储的多个样本特征筛选出符合当前业务场景的样本特征,从而最终组成初始样本特征集。可见,通过筛选出符合当前业务类型的样本特征,可以更有针对性的筛选目标样本特征以满足后续使用需求。而且,如图1所示,服务器除了可以存储预设数据库以用于基于业务类型确定初始样本特征集,还可以接收用户端上传的用户数据,以基于服务器中的预测模型(如后续步骤中得到的决策树集成模型)对用户数据进行可解释性的预测。
在一实施例中,步骤S101包括:
若确定所述业务类型为用户金融风险等级确定场景,则从多个样本特征中筛选出与所述用户金融风险等级确定场景对应的样本特征,组成初始样本特征集。
在本实施例中,当需在服务器中构建适用于业务类型的风控模型时,如风控模型为决策树集成模型且对应业务类型为用户金融风险等级确定场景时,则需要先基于所述业务类型从服务器本地的预设数据库中获取对应的初始样本特征集。例如仍参照所述业务类型为用户金融风险等级确定场景,则可从所述预设数据中筛选出年龄、学历、社保购买情况等样本特征,从而由上述筛选得到样本特征组成初始样本特征集。具体实施时,所述业务类型并不局限于用户金融风险等级确定场景,还可以是其他场景的业务类型。
更具体的,例如基于用户金融风险等级确定场景从多个样本特征中选定了样本特征a(简记为特征a)、样本特征b(简记为特征b)、样本特征c(简记为特征c)、样本特征d(简记为特征d)、样本特征e(简记为特征e)和样本特征f(简记为特征f),则由特征a-特征f组成初始样本特征集。可见,基于业务类型可以快速筛选出适用于当前业务场景的样本特征。
S102、重复预设次数从所述初始样本特征集中随机获取样本特征组以得到预设次数个样本特征组所组成的样本特征组集合。
其中,所述各样本特征组具有预设第一个数的样本特征。
在本实施例中,若预设第一个数为3个,且预设次数为4次,仍参考上述示例中初始样本特征集包括特征a-特征f,则每一次从初始样本特征集中任意获取3个特征以组成一组样本特征组。例如第一次从初始样本特征集中获取了特征a、特征b和特征c组成第1组样本特征组,第二次从初始样本特征集中获取了特征d、特征a和特征b组成第2组样本特征组,第三次从初始样本特征集中获取了特征e、特征b和特征f组成第3组样本特征组,第四次从初始样本特征集中获取了特征a、特征e和特征f组成第4组样本特征组。可见,多次从初始样本特征集中任意获取具有预设第一个数的样本特征,可以随机组合出多种样本特征组,而非指定特征组合出样本特征组,使得样本特征组更具客观随机性。
在一实施例中,步骤S102包括:
获取所述预设次数并记为N1,且获取所述预设第一个数并记为N2;其中,N1和N2均为正整数;
从所述初始样本特征集中第i次任意获取N2个样本特征,组成第i组样本特征组;其中,i的初始值为1,且i的取值范围是[1,N1];
将i自增1以更新i的取值;
若确定i小于或等于N1,则返回执行从所述初始样本特征集中第i次任意获取N2个样本特征,组成第i组样本特征组的步骤;
若确定i大于N1,则获取第1组样本特征组至第N1组样本特征组并组成样本特征组集合。
在本实施例中,为了获取N1组样本特征组并组成样本特征组集合,可以采取轮询获取的方式来实现。即先第1次从初始样本特征集中获取N2个样本特征,组成第1组样本特征组,从而完成了第1轮轮询获取第1组样本特征组。第1次从初始样本特征集中获取N2个样本特征并不会从初始样本特征集中删除,而是继续保留在初始样本特征集中。完成了第1轮轮询获取第1组样本特征组之后,再第2从初始样本特征集中获取N2个样本特征,组成第2组样本特征组,从而完成了第2轮轮询获取第2组样本特征组。而且与第1次从初始样本特征集中获取N2个样本特征并不会从初始样本特征集中删除一样,第2次从初始样本特征集中获取N2个样本特征也不会从初始样本特征集中删除。依次类推,当经过N1轮轮询一共获取了N1组样本特征组,从而组成了样本特征组集合。可见,基于上述每一轮从初始样本特征集中取出N2个样本特征并且不删除的方式,可以快速确定样本特征组集合。
在一实施例中,步骤S102之后还包括:
将所述样本特征组集合中的相同样本特征组进行合并,以更新所述样本特征组集合。
在本实施例中,由于在获取所述样本特征组集合中各样本特征组时,均是从初始样本特征集中获取N2个样本特征,有可能会存在有两组或者多组样本特征组包括完全相同的样本特征(更具体是两组或者多组样本特征组是完全相同的样本特征组),这就说明存在了重复的样本特征组。对于所述样本特征组集合中重复的样本特征组,可以进行合并和去重处理,仅保留相同样本特征组中的其中一组样本特征组即可。可见,基于上述去重处理,可以确保所述样本特征组集合各组样本特征组之间的差异性。
S103、获取与所述样本特征组集合中各样本特征组分别匹配的目标已训练决策树模型,组成决策树集成模型。
在本实施例中,由于在服务器中还预先存储了多个已训练决策树模型,而每一个已训练决策树模型对应的决策树中所包括的样本特征是已知的,这样即可将所述样本特征组集合中各样本特征组包括的样本特征分别与各已训练决策树模型进行比对。若有样本特征组包括的样本特征与已训练决策树模型中包括的样本特征完全相同,则视为该样本特征组与该已训练决策树模型相对应。可见,基于上述比对方式,可以快速确定所述样本特征组集合中各样本特征组分别对应的已训练决策树模型。而且,将多个已训练决策树模型组合后形成决策树集成模型,相较于单个已训练决策树模型预测能力很弱且预测精度也比较低的特点,决策树集成模型能更准确的对用户数据进行结果预测。
在一实施例中,步骤S103包括:
获取已存储的多个已训练决策树模型,并获取各已训练决策树模型中包括的样本特征;
获取所述样本特征组集合中第j组样本特征组;其中,j的初始取值为1,且j的取值范围是[1,N1];
获取所述第j组样本特征组中包括的样本特征;
将所述第j组样本特征组中包括的样本特征与各已训练决策树模型中包括的样本特征进行比对;
若确定第j组样本特征组中包括的所有样本特征与其中一个已训练决策树模型中包括的所有样本特征相同,则将对应的已训练决策树模型作为所述第j组样本特征组对应的第j目标已训练决策树模型;
将j自增1以更新j的取值;
若确定j小于或等于N1,则返回执行所述获取所述样本特征组集合中第j组样本特征组的步骤;
若确定j大于N1,获取第1目标已训练决策树模型至第N1目标已训练决策树模型,组成决策树集成模型。
在本实施例中,例如在服务器中存储的均是深度为3的已训练决策树模型,更具体如第1个已训练决策树模型中包括特征a、特征b和特征c,其形成的第1已训练决策树模型如图3a所示;第2个已训练决策树模型中包括特征d、特征a和特征b,其形成的第2已训练决策树模型如图3b所示;第3个已训练决策树模型中包括特征e、特征b和特征f,其形成的第3已训练决策树模型如图3c所示;第4个已训练决策树模型中包括中特征a、特征e和特征f,其形成的第4已训练决策树模型如图3d所示。当然,服务器中存储的已训练决策树模型并不局限于上述列举的4个已训练决策树模型,还包括多个其他已训练决策树模型。
继续参考上述示例中第1组样本特征组包括特征a、特征b和特征c,第2组样本特征组包括特征d、特征a和特征b,第3组样本特征组包括特征e、特征b和特征f,第4组样本特征组包括特征a、特征e和特征f;则第1组样本特征组中所有样本特征与第1个已训练决策树模型中的所有样本特征相同,第1个已训练决策树模型作为所述第1组样本特征组对应的第1目标已训练决策树模型;第2组样本特征组中所有样本特征与第2个已训练决策树模型中的所有样本特征相同,第2个已训练决策树模型作为所述第2组样本特征组对应的第2目标已训练决策树模型;第3组样本特征组中所有样本特征与第3个已训练决策树模型中的所有样本特征相同,第3个已训练决策树模型作为所述第3组样本特征组对应的第3目标已训练决策树模型;第4组样本特征组中所有样本特征与第4个已训练决策树模型中的所有样本特征相同,第4个已训练决策树模型作为所述第4组样本特征组对应的第4目标已训练决策树模型。依次类推,当获取了所述样本特征组集合中各样本特征组分别对应的已训练决策树模型,即可组成决策树集成模型。所得到的决策树集成模型可以理解为其中包括了多个已训练决策树模型,基于每一个已训练决策树模型对用户数据的待预测结果后,多个已训练决策树模型输出的预测结果可以进行一个综合分析处理,得到预测精度更高的综合预测结果。
S104、获取待预测用户样本,将所述待预测用户样本输入至所述决策树集成模型进行样本预测,得到所述决策树集成模型中各已训练决策树模型分别输出的预测结果及预测过程遍历节点轨迹。
在本实施例中,当得到了决策树集成模型,其可具体应用于对待预测用户样本进行样本预测。例如图3a中的第1个已训练决策树模型中,特征a对应用户年龄、特征b对应用户学历且特征c对应用户社保缴纳情况,且在第1个已训练决策树模型中当用户年龄小于22岁时则对应流向特征b,当用户年龄大于或等于22岁时则对应流向特征c;若由特征a流向特征b时进一步判定特征b对应用户是大学生(也即用户具有专科及专科以上学历)则对应得到输出结果score0,若由特征a流向特征b时进一步判定特征b对应用户不是大学生则对应得到输出结果score1;若由特征a流向特征c时进一步判定特征c对应用户是有社保则对应得到输出结果score2,若由特征a流向特征c时进一步判定特征c对应用户是无社保则对应得到输出结果score3。若所获取的待预测用户样本为用户年龄为30、用户学历为本科学历、用户社保缴纳情况为有社保、用户为男性、用户手机号码为XXXX1,则将所述待预测用户样本输入至决策树集成模型中第1个已训练决策树模型中进行预测,得到的第1个预测结果为score2,且第1个预测过程遍历节点轨迹为特征a→特征c→score2。
同样的,将所述待预测用户样本输入至所述决策树集成模型中其他已训练决策树模型中进行预测,可以得到分别与其他各已训练决策树模型一一对应数据的预测结果及预测过程遍历节点轨迹。例如,将所述待预测用户样本输入至如图3b中第2个已训练决策树模型中进行预测,得到的第2个预测结果为score5,且第2个预测过程遍历节点轨迹为特征d→特征a→score5;将所述待预测用户样本输入至如图3c中第3个已训练决策树模型中进行预测,得到的第3个预测结果为score8,且第3个预测过程遍历节点轨迹为特征e→特征b→score8;将所述待预测用户样本输入至如图3d中第4个已训练决策树模型中进行预测,得到的第4个预测结果为score12,且第4个预测过程遍历节点轨迹为特征a→特征e→score12。
S105、基于所述决策树集成模型中各已训练决策树模型分别输出的预测过程遍历节点轨迹,确定并生成所述决策树集成模型中所有样本特征分别对应的可解释性结果。
在本实施例中,当已知了所述决策树集成模型中各已训练决策树模型分别输出的预测过程遍历节点轨迹后,可以统计各预测过程遍历节点轨迹中包括的样本特征以及每一样本特征对应的影响力分数,从而可以由每一样本特征对应的影响力分数组成与所述决策树集成模型对应的可解释性结果。可见,基于预测过程遍历节点轨迹,可以快速确定对预测结果产生影响的样本特征及各样本特征对应的影响力分数。
在一实施例中,步骤S105包括:
获取与所述决策树集成模型中第k目标已训练决策树模型对应的第k个预测过程遍历节点轨迹;其中,所述k的初始取值为1,其k的取值范围是[1,N1];
获取第k个预测过程遍历节点轨迹中包括的所有样本特征;
基于第k目标已训练决策树模型对应的预测结果对第k个预测过程遍历节点轨迹中包括的所有样本特征分别进行影响分数赋值,得到与第k目标已训练决策树模型对应的第k组可解释性子结果;
将k自增1以更新k的取值;
若确定k小于或等于N1,则返回所述获取与所述决策树集成模型中第k目标已训练决策树模型对应的第k个预测过程遍历节点轨迹的步骤;
若确定k大于N1,获取第1组可解释性子结果至第N1组可解释性子结果,将第1组可解释性子结果至第N1组可解释性子结果中各相同样本特征对应的取值求和,得到所述决策树集成模型中各样本特征分别对应的可解释性结果。
在本实施例中,例如以所述决策树集成模型中第1目标已训练决策树模型对应的第1个预测过程遍历节点轨迹为例,第1个预测过程遍历节点轨迹仍参考上述示例为特征a→特征c→score2且第1个预测结果为score2,则可知第1个预测过程遍历节点轨迹中包括的所有样本特征为特征a和特征c,可以将特征a对应以score2赋值且将特征c对应以score2赋值,这样即得到了第1组可解释性子结果。依此类推,参照第1组可解释性子结果的获取过程,分别获取第2组可解释性子结果至第N1组可解释性子结果。例如N1=4,则第2组可解释性子结果是特征a对应以score5赋值且将特征d对应以score5赋值;第3组可解释性子结果是特征e对应以score8赋值且将特征b对应以score8赋值;第4组可解释性子结果是特征a对应以score12赋值且将特征e对应以score12赋值。
在得到了第1组可解释性子结果至第N1组可解释性子结果后,将第1组可解释性子结果至第N1组可解释性子结果中各相同样本特征对应的取值求和,得到所述决策树集成模型中各样本特征分别对应的可解释性结果。例如,第1组可解释性子结果是特征a对应以score2赋值且将特征c对应以score2赋值,第2组可解释性子结果是特征a对应以score5赋值且将特征d对应以score5赋值;第3组可解释性子结果是特征e对应以score8赋值且将特征b对应以score8赋值;第4组可解释性子结果是特征a对应以score12赋值且将特征e对应以score12赋值。上述4组可解释性子结果中,特征a对应有score2、score5和score12这3个取值,将上述3个取值求和之后,得到特征a对应的可解释性结果为score2+score5+score12;特征b对应有score8,将上述1个取值求和之后,得到特征b对应的可解释性结果为score8;特征c对应有score2和score8这2个取值,将上述2个取值求和之后,得到特征c对应的可解释性结果为score2+score8;特征d对应有score5,将上述1个取值求和之后,得到特征d对应的可解释性结果为score5;特征e对应有score12,将上述1个取值求和之后,得到特征e对应的可解释性结果为score12;特征f并不存在于第1个预测过程遍历节点轨迹至第N1个预测过程遍历节点轨迹中,故特征f对应的可解释性结果为特征f是无关样本特征。可以,基于上述方式确定了各样本特征量化后的可解释性结果,然后基于各本特征量化后的可解释性结果可以直观解释各样本特征的影响分数。
在一实施例中,所述若确定k大于N1,获取第1组可解释性子结果至第N1组可解释性子结果,将第1组可解释性子结果至第N1组可解释性子结果中各相同样本特征对应的取值求和,得到所述决策树集成模型中各样本特征分别对应的可解释性结果之后,还包括:
将所述决策树集成模型中各样本特征分别对应的可解释性结果基于取值进行降序排序,得到样本特征重要性排序结果。
在本实施例中,当得到了所述决策树集成模型中各样本特征分别对应的可解释性结果后,即确定了各样本特征分别对应的影响分数,如特征a对应的影响分数为score2+score5+score12,特征b对应的影响分数为score8,特征c对应的影响分数为score2+score8,特征d对应的影响分数果为score5,特征e对应的影响分数为score12,将上述5个特征分别对应的影响分数果基于取值进行降序排序,得到样本特征重要性排序结果。其中,样本特征重要性排序结果中排序越靠前的样本特征则在所述决策树集成模型中越重要,样本特征重要性排序结果中排序越靠后的样本特征则在所述决策树集成模型中越不重要。
S106、输出所述决策树集成模型,所述决策树集成模型中各已训练决策树模型分别输出的预测结果,及所述决策树集成模型中所有样本特征分别对应的可解释性结果。
在本实施例中,当获取了所述决策树集成模型中所有样本特征分别对应的可解释性结果,可以与之前已获取的所述决策树集成模型及所述决策树集成模型中各已训练决策树模型分别输出的预测结果共同输出,从而组成一个具有可解释性结果的决策树集成模型。可见,基于上述输出方式,可以输出一个包括多维度信息的综合输出结果,以便于直观的获取更多关于决策树集成模型的模型信息。
该方法实现了基于业务类型对应的初始样本特征集自动确定决策树集成模型,而且在具体应用决策树集成模型进行预测时不仅可以输出预测结果,还可以输出模型对应的可解释性结果,便于用户直观的获取预测结果及其相关的可解释性结果而获取更多模型相关信息。
本申请实施例还提供一种可输出解释性信息的风控建模装置,该可输出解释性信息的风控建模装置用于执行前述可输出解释性信息的风控建模方法的任一实施例。具体地,请参阅图4,图4是本申请实施例提供的可输出解释性信息的风控建模装置100的示意性框图。
其中,如图4所示,可输出解释性信息的风控建模装置100包括初始样本特征集确定单元101、样本特征组集合获取单元102、决策树集成模型获取单元103、预测结果输出单元104、可解释性结果获取单元105及综合输出单元106。
初始样本特征集确定单元101,用于根据业务类型从多个样本特征中确定初始样本特征集。
在本实施例中,是以服务器为执行主体来描述技术方案。由于在服务器中不是任意筛选样本特征,而是需要先确定业务类型具体针对何种业务场景,然后再从服务器的预设数据库中(如用户样本特征库)已预先存储的多个样本特征筛选出符合当前业务场景的样本特征,从而最终组成初始样本特征集。可见,通过筛选出符合当前业务类型的样本特征,可以更有针对性的筛选目标样本特征以满足后续使用需求。而且,如图1所示,服务器除了可以存储预设数据库以用于基于业务类型确定初始样本特征集,还可以接收用户端上传的用户数据,以基于服务器中的预测模型(如后续步骤中得到的决策树集成模型)对用户数据进行可解释性的预测。
在一实施例中,初始样本特征集确定单元101具体用于:
若确定所述业务类型为用户金融风险等级确定场景,则从多个样本特征中筛选出与所述用户金融风险等级确定场景对应的样本特征,组成初始样本特征集。
在本实施例中,当需在服务器中构建适用于业务类型的风控模型时,如风控模型为决策树集成模型且对应业务类型为用户金融风险等级确定场景时,则需要先基于所述业务类型从服务器本地的预设数据库中获取对应的初始样本特征集。例如仍参照所述业务类型为用户金融风险等级确定场景,则可从所述预设数据中筛选出年龄、学历、社保购买情况等样本特征,从而由上述筛选得到样本特征组成初始样本特征集。具体实施时,所述业务类型并不局限于用户金融风险等级确定场景,还可以是其他场景的业务类型。
更具体的,例如基于用户金融风险等级确定场景从多个样本特征中选定了样本特征a(简记为特征a)、样本特征b(简记为特征b)、样本特征c(简记为特征c)、样本特征d(简记为特征d)、样本特征e(简记为特征e)和样本特征f(简记为特征f),则由特征a-特征f组成初始样本特征集。可见,基于业务类型可以快速筛选出适用于当前业务场景的样本特征。
样本特征组集合获取单元102,用于重复预设次数从所述初始样本特征集中随机获取样本特征组以得到预设次数个样本特征组所组成的样本特征组集合,其中,所述各样本特征组具有预设第一个数的样本特征。
在本实施例中,若预设第一个数为3个,且预设次数为4次,仍参考上述示例中初始样本特征集包括特征a-特征f,则每一次从初始样本特征集中任意获取3个特征以组成一组样本特征组。例如第一次从初始样本特征集中获取了特征a、特征b和特征c组成第1组样本特征组,第二次从初始样本特征集中获取了特征d、特征a和特征b组成第2组样本特征组,第三次从初始样本特征集中获取了特征e、特征b和特征f组成第3组样本特征组,第四次从初始样本特征集中获取了特征a、特征e和特征f组成第4组样本特征组。可见,多次从初始样本特征集中任意获取具有预设第一个数的样本特征,可以随机组合出多种样本特征组,而非指定特征组合出样本特征组,使得样本特征组更具客观随机性。
在一实施例中,样本特征组集合获取单元102具体用于:
获取所述预设次数并记为N1,且获取所述预设第一个数并记为N2;其中,N1和N2均为正整数;
从所述初始样本特征集中第i次任意获取N2个样本特征,组成第i组样本特征组;其中,i的初始值为1,且i的取值范围是[1,N1];
将i自增1以更新i的取值;
若确定i小于或等于N1,则返回执行从所述初始样本特征集中第i次任意获取N2个样本特征,组成第i组样本特征组的步骤;
若确定i大于N1,则获取第1组样本特征组至第N1组样本特征组并组成样本特征组集合。
在本实施例中,为了获取N1组样本特征组并组成样本特征组集合,可以采取轮询获取的方式来实现。即先第1次从初始样本特征集中获取N2个样本特征,组成第1组样本特征组,从而完成了第1轮轮询获取第1组样本特征组。第1次从初始样本特征集中获取N2个样本特征并不会从初始样本特征集中删除,而是继续保留在初始样本特征集中。完成了第1轮轮询获取第1组样本特征组之后,再第2从初始样本特征集中获取N2个样本特征,组成第2组样本特征组,从而完成了第2轮轮询获取第2组样本特征组。而且与第1次从初始样本特征集中获取N2个样本特征并不会从初始样本特征集中删除一样,第2次从初始样本特征集中获取N2个样本特征也不会从初始样本特征集中删除。依次类推,当经过N1轮轮询一共获取了N1组样本特征组,从而组成了样本特征组集合。可见,基于上述每一轮从初始样本特征集中取出N2个样本特征并且不删除的方式,可以快速确定样本特征组集合。
在一实施例中,可输出解释性信息的风控建模装置100还包括:
样本特征组去重单元,用于将所述样本特征组集合中的相同样本特征组进行合并,以更新所述样本特征组集合。
在本实施例中,由于在获取所述样本特征组集合中各样本特征组时,均是从初始样本特征集中获取N2个样本特征,有可能会存在有两组或者多组样本特征组包括完全相同的样本特征(更具体是两组或者多组样本特征组是完全相同的样本特征组),这就说明存在了重复的样本特征组。对于所述样本特征组集合中重复的样本特征组,可以进行合并和去重处理,仅保留相同样本特征组中的其中一组样本特征组即可。可见,基于上述去重处理,可以确保所述样本特征组集合各组样本特征组之间的差异性。
决策树集成模型获取单元103,用于获取与所述样本特征组集合中各样本特征组分别匹配的目标已训练决策树模型,组成决策树集成模型。
在本实施例中,由于在服务器中还预先存储了多个已训练决策树模型,而每一个已训练决策树模型对应的决策树中所包括的样本特征是已知的,这样即可将所述样本特征组集合中各样本特征组包括的样本特征分别与各已训练决策树模型进行比对。若有样本特征组包括的样本特征与已训练决策树模型中包括的样本特征完全相同,则视为该样本特征组与该已训练决策树模型相对应。可见,基于上述比对方式,可以快速确定所述样本特征组集合中各样本特征组分别对应的已训练决策树模型。而且,将多个已训练决策树模型组合后形成决策树集成模型,相较于单个已训练决策树模型预测能力很弱且预测精度也比较低的特点,决策树集成模型能更准确的对用户数据进行结果预测。
在一实施例中,决策树集成模型获取单元103具体用于:
获取已存储的多个已训练决策树模型,并获取各已训练决策树模型中包括的样本特征;
获取所述样本特征组集合中第j组样本特征组;其中,j的初始取值为1,且j的取值范围是[1,N1];
获取所述第j组样本特征组中包括的样本特征;
将所述第j组样本特征组中包括的样本特征与各已训练决策树模型中包括的样本特征进行比对;
若确定第j组样本特征组中包括的所有样本特征与其中一个已训练决策树模型中包括的所有样本特征相同,则将对应的已训练决策树模型作为所述第j组样本特征组对应的第j目标已训练决策树模型;
将j自增1以更新j的取值;
若确定j小于或等于N1,则返回执行所述获取所述样本特征组集合中第j组样本特征组的步骤;
若确定j大于N1,获取第1目标已训练决策树模型至第N1目标已训练决策树模型,组成决策树集成模型。
在本实施例中,例如在服务器中存储的均是深度为3的已训练决策树模型,更具体如第1个已训练决策树模型中包括特征a、特征b和特征c,其形成的第1已训练决策树模型如图3a所示;第2个已训练决策树模型中包括特征d、特征a和特征b,其形成的第2已训练决策树模型如图3b所示;第3个已训练决策树模型中包括特征e、特征b和特征f,其形成的第3已训练决策树模型如图3c所示;第4个已训练决策树模型中包括中特征a、特征e和特征f,其形成的第4已训练决策树模型如图3d所示。当然,服务器中存储的已训练决策树模型并不局限于上述列举的4个已训练决策树模型,还包括多个其他已训练决策树模型。
继续参考上述示例中第1组样本特征组包括特征a、特征b和特征c,第2组样本特征组包括特征d、特征a和特征b,第3组样本特征组包括特征e、特征b和特征f,第4组样本特征组包括特征a、特征e和特征f;则第1组样本特征组中所有样本特征与第1个已训练决策树模型中的所有样本特征相同,第1个已训练决策树模型作为所述第1组样本特征组对应的第1目标已训练决策树模型;第2组样本特征组中所有样本特征与第2个已训练决策树模型中的所有样本特征相同,第2个已训练决策树模型作为所述第2组样本特征组对应的第2目标已训练决策树模型;第3组样本特征组中所有样本特征与第3个已训练决策树模型中的所有样本特征相同,第3个已训练决策树模型作为所述第3组样本特征组对应的第3目标已训练决策树模型;第4组样本特征组中所有样本特征与第4个已训练决策树模型中的所有样本特征相同,第4个已训练决策树模型作为所述第4组样本特征组对应的第4目标已训练决策树模型。依次类推,当获取了所述样本特征组集合中各样本特征组分别对应的已训练决策树模型,即可组成决策树集成模型。所得到的决策树集成模型可以理解为其中包括了多个已训练决策树模型,基于每一个已训练决策树模型对用户数据的待预测结果后,多个已训练决策树模型输出的预测结果可以进行一个综合分析处理,得到预测精度更高的综合预测结果。
预测结果输出单元104,用于获取待预测用户样本,将所述待预测用户样本输入至所述决策树集成模型进行样本预测,得到所述决策树集成模型中各已训练决策树模型分别输出的预测结果及预测过程遍历节点轨迹。
在本实施例中,当得到了决策树集成模型,其可具体应用于对待预测用户样本进行样本预测。例如图3a中的第1个已训练决策树模型中,特征a对应用户年龄、特征b对应用户学历且特征c对应用户社保缴纳情况,且在第1个已训练决策树模型中当用户年龄小于22岁时则对应流向特征b,当用户年龄大于或等于22岁时则对应流向特征c;若由特征a流向特征b时进一步判定特征b对应用户是大学生(也即用户具有专科及专科以上学历)则对应得到输出结果score0,若由特征a流向特征b时进一步判定特征b对应用户不是大学生则对应得到输出结果score1;若由特征a流向特征c时进一步判定特征c对应用户是有社保则对应得到输出结果score2,若由特征a流向特征c时进一步判定特征c对应用户是无社保则对应得到输出结果score3。若所获取的待预测用户样本为用户年龄为30、用户学历为本科学历、用户社保缴纳情况为有社保、用户为男性、用户手机号码为XXXX1,则将所述待预测用户样本输入至决策树集成模型中第1个已训练决策树模型中进行预测,得到的第1个预测结果为score2,且第1个预测过程遍历节点轨迹为特征a→特征c→score2。
同样的,将所述待预测用户样本输入至所述决策树集成模型中其他已训练决策树模型中进行预测,可以得到分别与其他各已训练决策树模型一一对应数据的预测结果及预测过程遍历节点轨迹。例如,将所述待预测用户样本输入至如图3b中第2个已训练决策树模型中进行预测,得到的第2个预测结果为score5,且第2个预测过程遍历节点轨迹为特征d→特征a→score5;将所述待预测用户样本输入至如图3c中第3个已训练决策树模型中进行预测,得到的第3个预测结果为score8,且第3个预测过程遍历节点轨迹为特征e→特征b→score8;将所述待预测用户样本输入至如图3d中第4个已训练决策树模型中进行预测,得到的第4个预测结果为score12,且第4个预测过程遍历节点轨迹为特征a→特征e→score12。
可解释性结果获取单元105,用于基于所述决策树集成模型中各已训练决策树模型分别输出的预测过程遍历节点轨迹,确定并生成所述决策树集成模型中所有样本特征分别对应的可解释性结果。
在本实施例中,当已知了所述决策树集成模型中各已训练决策树模型分别输出的预测过程遍历节点轨迹后,可以统计各预测过程遍历节点轨迹中包括的样本特征以及每一样本特征对应的影响力分数,从而可以由每一样本特征对应的影响力分数组成与所述决策树集成模型对应的可解释性结果。可见,基于预测过程遍历节点轨迹,可以快速确定对预测结果产生影响的样本特征及各样本特征对应的影响力分数。
在一实施例中,可解释性结果获取单元105具体用于:
获取与所述决策树集成模型中第k目标已训练决策树模型对应的第k个预测过程遍历节点轨迹;其中,所述k的初始取值为1,其k的取值范围是[1,N1];
获取第k个预测过程遍历节点轨迹中包括的所有样本特征;
基于第k目标已训练决策树模型对应的预测结果对第k个预测过程遍历节点轨迹中包括的所有样本特征分别进行影响分数赋值,得到与第k目标已训练决策树模型对应的第k组可解释性子结果;
将k自增1以更新k的取值;
若确定k小于或等于N1,则返回所述获取与所述决策树集成模型中第k目标已训练决策树模型对应的第k个预测过程遍历节点轨迹的步骤;
若确定k大于N1,获取第1组可解释性子结果至第N1组可解释性子结果,将第1组可解释性子结果至第N1组可解释性子结果中各相同样本特征对应的取值求和,得到所述决策树集成模型中各样本特征分别对应的可解释性结果。
在本实施例中,例如以所述决策树集成模型中第1目标已训练决策树模型对应的第1个预测过程遍历节点轨迹为例,第1个预测过程遍历节点轨迹仍参考上述示例为特征a→特征c→score2且第1个预测结果为score2,则可知第1个预测过程遍历节点轨迹中包括的所有样本特征为特征a和特征c,可以将特征a对应以score2赋值且将特征c对应以score2赋值,这样即得到了第1组可解释性子结果。依此类推,参照第1组可解释性子结果的获取过程,分别获取第2组可解释性子结果至第N1组可解释性子结果。例如N1=4,则第2组可解释性子结果是特征a对应以score5赋值且将特征d对应以score5赋值;第3组可解释性子结果是特征e对应以score8赋值且将特征b对应以score8赋值;第4组可解释性子结果是特征a对应以score12赋值且将特征e对应以score12赋值。
在得到了第1组可解释性子结果至第N1组可解释性子结果后,将第1组可解释性子结果至第N1组可解释性子结果中各相同样本特征对应的取值求和,得到所述决策树集成模型中各样本特征分别对应的可解释性结果。例如,第1组可解释性子结果是特征a对应以score2赋值且将特征c对应以score2赋值,第2组可解释性子结果是特征a对应以score5赋值且将特征d对应以score5赋值;第3组可解释性子结果是特征e对应以score8赋值且将特征b对应以score8赋值;第4组可解释性子结果是特征a对应以score12赋值且将特征e对应以score12赋值。上述4组可解释性子结果中,特征a对应有score2、score5和score12这3个取值,将上述3个取值求和之后,得到特征a对应的可解释性结果为score2+score5+score12;特征b对应有score8,将上述1个取值求和之后,得到特征b对应的可解释性结果为score8;特征c对应有score2和score8这2个取值,将上述2个取值求和之后,得到特征c对应的可解释性结果为score2+score8;特征d对应有score5,将上述1个取值求和之后,得到特征d对应的可解释性结果为score5;特征e对应有score12,将上述1个取值求和之后,得到特征e对应的可解释性结果为score12;特征f并不存在于第1个预测过程遍历节点轨迹至第N1个预测过程遍历节点轨迹中,故特征f对应的可解释性结果为特征f是无关样本特征。可以,基于上述方式确定了各样本特征量化后的可解释性结果,然后基于各本特征量化后的可解释性结果可以直观解释各样本特征的影响分数。
在一实施例中,所述若确定k大于N1,获取第1组可解释性子结果至第N1组可解释性子结果,将第1组可解释性子结果至第N1组可解释性子结果中各相同样本特征对应的取值求和,得到所述决策树集成模型中各样本特征分别对应的可解释性结果之后,还包括:
将所述决策树集成模型中各样本特征分别对应的可解释性结果基于取值进行降序排序,得到样本特征重要性排序结果。
在本实施例中,当得到了所述决策树集成模型中各样本特征分别对应的可解释性结果后,即确定了各样本特征分别对应的影响分数,如特征a对应的影响分数为score2+score5+score12,特征b对应的影响分数为score8,特征c对应的影响分数为score2+score8,特征d对应的影响分数果为score5,特征e对应的影响分数为score12,将上述5个特征分别对应的影响分数果基于取值进行降序排序,得到样本特征重要性排序结果。其中,样本特征重要性排序结果中排序越靠前的样本特征则在所述决策树集成模型中越重要,样本特征重要性排序结果中排序越靠后的样本特征则在所述决策树集成模型中越不重要。
综合输出单元106,用于输出所述决策树集成模型,所述决策树集成模型中各已训练决策树模型分别输出的预测结果,及所述决策树集成模型中所有样本特征分别对应的可解释性结果。
在本实施例中,当获取了所述决策树集成模型中所有样本特征分别对应的可解释性结果,可以与之前已获取的所述决策树集成模型及所述决策树集成模型中各已训练决策树模型分别输出的预测结果共同输出,从而组成一个具有可解释性结果的决策树集成模型。可见,基于上述输出方式,可以输出一个包括多维度信息的综合输出结果,以便于直观的获取更多关于决策树集成模型的模型信息。
该装置实现了基于业务类型对应的初始样本特征集自动确定决策树集成模型,而且在具体应用决策树集成模型进行预测时不仅可以输出预测结果,还可以输出模型对应的可解释性结果,便于用户直观的获取预测结果及其相关的可解释性结果而获取更多模型相关信息。
上述可输出解释性信息的风控建模装置可以实现为计算机程序的形式,该计算机程序可以在如图5所示的计算机设备上运行。
请参阅图5,图5是本申请实施例提供的计算机设备的示意性框图。该计算机设备500是服务器,也可以是服务器集群。服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参阅图5,该计算机设备500包括通过装置总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括存储介质503和内存储器504。
该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行可输出解释性信息的风控建模方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行可输出解释性信息的风控建模方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现本申请实施例公开的可输出解释性信息的风控建模方法。
本领域技术人员可以理解,图5中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图5所示实施例一致,在此不再赘述。
应当理解,在本申请实施例中,处理器502可以是中央处理单元 (CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路 (Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本申请的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本申请实施例公开的可输出解释性信息的风控建模方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备 ( 可以是个人计算机,后台服务器,或者网络设备等 ) 执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U 盘、移动硬盘、只读存储器 (ROM,Read-OnlyMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种可输出解释性信息的风控建模方法,其特征在于,包括:
根据业务类型从多个样本特征中确定初始样本特征集;
重复预设次数从所述初始样本特征集中随机获取样本特征组以得到预设次数个样本特征组所组成的样本特征组集合,其中,所述各样本特征组具有预设第一个数的样本特征;
获取与所述样本特征组集合中各样本特征组分别匹配的目标已训练决策树模型,组成决策树集成模型;
获取待预测用户样本,将所述待预测用户样本输入至所述决策树集成模型进行样本预测,得到所述决策树集成模型中各已训练决策树模型分别输出的预测结果及预测过程遍历节点轨迹;
基于所述决策树集成模型中各已训练决策树模型分别输出的预测过程遍历节点轨迹,确定并生成所述决策树集成模型中所有样本特征分别对应的可解释性结果;
输出所述决策树集成模型,所述决策树集成模型中各已训练决策树模型分别输出的预测结果,及所述决策树集成模型中所有样本特征分别对应的可解释性结果。
2.根据权利要求1所述的可输出解释性信息的风控建模方法,其特征在于,所述根据业务类型从多个样本特征中确定初始样本特征集,包括:
若确定所述业务类型为用户金融风险等级确定场景,则从多个样本特征中筛选出与所述用户金融风险等级确定场景对应的样本特征,组成初始样本特征集。
3.根据权利要求1所述的可输出解释性信息的风控建模方法,其特征在于,所述重复预设次数从所述初始样本特征集中随机获取样本特征组以得到预设次数个样本特征组所组成的样本特征组集合,包括:
获取所述预设次数并记为N1,且获取所述预设第一个数并记为N2;其中,N1和N2均为正整数;
从所述初始样本特征集中第i次任意获取N2个样本特征,组成第i组样本特征组;其中,i的初始值为1,且i的取值范围是[1,N1];
将i自增1以更新i的取值;
若确定i小于或等于N1,则返回执行从所述初始样本特征集中第i次任意获取N2个样本特征,组成第i组样本特征组的步骤;
若确定i大于N1,则获取第1组样本特征组至第N1组样本特征组并组成样本特征组集合。
4.根据权利要求3所述的可输出解释性信息的风控建模方法,其特征在于,所述重复预设次数从所述初始样本特征集中随机获取样本特征组以得到预设次数个样本特征组所组成的样本特征组集合之后,还包括:
将所述样本特征组集合中的相同样本特征组进行合并,以更新所述样本特征组集合。
5.根据权利要求3所述的可输出解释性信息的风控建模方法,其特征在于,所述获取与所述样本特征组集合中各样本特征组分别匹配的目标已训练决策树模型,组成决策树集成模型,包括:
获取已存储的多个已训练决策树模型,并获取各已训练决策树模型中包括的样本特征;
获取所述样本特征组集合中第j组样本特征组;其中,j的初始取值为1,且j的取值范围是[1,N1];
获取所述第j组样本特征组中包括的样本特征;
将所述第j组样本特征组中包括的样本特征与各已训练决策树模型中包括的样本特征进行比对;
若确定第j组样本特征组中包括的所有样本特征与其中一个已训练决策树模型中包括的所有样本特征相同,则将对应的已训练决策树模型作为所述第j组样本特征组对应的第j目标已训练决策树模型;
将j自增1以更新j的取值;
若确定j小于或等于N1,则返回执行所述获取所述样本特征组集合中第j组样本特征组的步骤;
若确定j大于N1,获取第1目标已训练决策树模型至第N1目标已训练决策树模型,组成决策树集成模型。
6.根据权利要求5所述的可输出解释性信息的风控建模方法,其特征在于,所述基于所述决策树集成模型中各已训练决策树模型分别输出的预测过程遍历节点轨迹,确定并生成所述决策树集成模型中所有样本特征分别对应的可解释性结果,包括:
获取与所述决策树集成模型中第k目标已训练决策树模型对应的第k个预测过程遍历节点轨迹;其中,k的初始取值为1,其k的取值范围是[1,N1];
获取第k个预测过程遍历节点轨迹中包括的所有样本特征;
基于第k目标已训练决策树模型对应的预测结果对第k个预测过程遍历节点轨迹中包括的所有样本特征分别进行影响分数赋值,得到与第k目标已训练决策树模型对应的第k组可解释性子结果;
将k自增1以更新k的取值;
若确定k小于或等于N1,则返回所述获取与所述决策树集成模型中第k目标已训练决策树模型对应的第k个预测过程遍历节点轨迹的步骤;
若确定k大于N1,获取第1组可解释性子结果至第N1组可解释性子结果,将第1组可解释性子结果至第N1组可解释性子结果中各相同样本特征对应的取值求和,得到所述决策树集成模型中各样本特征分别对应的可解释性结果。
7.根据权利要求6所述的可输出解释性信息的风控建模方法,其特征在于,所述若确定k大于N1,获取第1组可解释性子结果至第N1组可解释性子结果,将第1组可解释性子结果至第N1组可解释性子结果中各相同样本特征对应的取值求和,得到所述决策树集成模型中各样本特征分别对应的可解释性结果之后,还包括:
将所述决策树集成模型中各样本特征分别对应的可解释性结果基于取值进行降序排序,得到样本特征重要性排序结果。
8.一种可输出解释性信息的风控建模装置,其特征在于,包括:
初始样本特征集确定单元,用于根据业务类型从多个样本特征中确定初始样本特征集;
样本特征组集合获取单元,用于重复预设次数从所述初始样本特征集中随机获取样本特征组以得到预设次数个样本特征组所组成的样本特征组集合,其中,所述各样本特征组具有预设第一个数的样本特征;
决策树集成模型获取单元,用于获取与所述样本特征组集合中各样本特征组分别匹配的目标已训练决策树模型,组成决策树集成模型;
预测结果输出单元,用于获取待预测用户样本,将所述待预测用户样本输入至所述决策树集成模型进行样本预测,得到所述决策树集成模型中各已训练决策树模型分别输出的预测结果及预测过程遍历节点轨迹;
可解释性结果获取单元,用于基于所述决策树集成模型中各已训练决策树模型分别输出的预测过程遍历节点轨迹,确定并生成所述决策树集成模型中所有样本特征分别对应的可解释性结果;
综合输出单元,用于输出所述决策树集成模型,所述决策树集成模型中各已训练决策树模型分别输出的预测结果,及所述决策树集成模型中所有样本特征分别对应的可解释性结果。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的可输出解释性信息的风控建模方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的可输出解释性信息的风控建模方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210999177.1A CN115062734A (zh) | 2022-08-19 | 2022-08-19 | 可输出解释性信息的风控建模方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210999177.1A CN115062734A (zh) | 2022-08-19 | 2022-08-19 | 可输出解释性信息的风控建模方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115062734A true CN115062734A (zh) | 2022-09-16 |
Family
ID=83208162
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210999177.1A Pending CN115062734A (zh) | 2022-08-19 | 2022-08-19 | 可输出解释性信息的风控建模方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115062734A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116739395A (zh) * | 2023-08-15 | 2023-09-12 | 浙江同信企业征信服务有限公司 | 一种企业外迁预测方法、装置、设备及存储介质 |
CN117132001A (zh) * | 2023-10-24 | 2023-11-28 | 杭银消费金融股份有限公司 | 一种多目标风控策略优化方法及系统 |
-
2022
- 2022-08-19 CN CN202210999177.1A patent/CN115062734A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116739395A (zh) * | 2023-08-15 | 2023-09-12 | 浙江同信企业征信服务有限公司 | 一种企业外迁预测方法、装置、设备及存储介质 |
CN117132001A (zh) * | 2023-10-24 | 2023-11-28 | 杭银消费金融股份有限公司 | 一种多目标风控策略优化方法及系统 |
CN117132001B (zh) * | 2023-10-24 | 2024-01-23 | 杭银消费金融股份有限公司 | 一种多目标风控策略优化方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10484413B2 (en) | System and a method for detecting anomalous activities in a blockchain network | |
CN115062734A (zh) | 可输出解释性信息的风控建模方法、装置、设备及介质 | |
WO2018125337A2 (en) | Automated generation of workflows | |
CN111914936B (zh) | 语料数据的数据特征增强方法、装置及计算机设备 | |
CN114418035A (zh) | 决策树模型生成方法、基于决策树模型的数据推荐方法 | |
JP2016536691A (ja) | ユーザとの自然会話能力を備えたエージェントシステム、エージェント制御方法、エージェント制御プログラム、及び記録媒体 | |
CN115659177A (zh) | 数据推荐模型的生成方法、装置和计算机设备 | |
CN109447658A (zh) | 反欺诈模型的生成及应用方法、装置、设备及存储介质 | |
CN111797320A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN112559900A (zh) | 产品推荐方法、装置、计算机设备和存储介质 | |
CN111428866A (zh) | 一种增量学习方法、装置、存储介质及电子设备 | |
CN111325255B (zh) | 特定人群圈定方法、装置、电子设备及存储介质 | |
CN115952426B (zh) | 基于随机采样的分布式噪音数据聚类方法及用户分类方法 | |
CN110457329B (zh) | 一种实现个性化推荐的方法及装置 | |
CN116501979A (zh) | 信息推荐方法、装置、计算机设备及计算机可读存储介质 | |
CN116151460A (zh) | 车辆智能化产品的优化方法、装置、服务器及存储介质 | |
CN110705889A (zh) | 一种企业筛选方法、装置、设备及存储介质 | |
CN114170000A (zh) | 信用卡用户风险类别识别方法、装置、计算机设备和介质 | |
CN113935788A (zh) | 模型评估方法、装置、设备及计算机可读存储介质 | |
CA3170599A1 (en) | Methods and systems for processing data having varied temporal characteristics to generate predictions related to management arrangements using random forest classifiers | |
CN112308466A (zh) | 企业资质审核方法、装置、计算机设备和存储介质 | |
CN113191877A (zh) | 数据特征获取方法、系统及电子设备 | |
Morani et al. | Developement of Prediction in Clients’ Consent to a Bank Term Deposit Using Feature Selection | |
Nguyen et al. | Data-driven models for individual and group decision making | |
CN112017790B (zh) | 基于对抗网络的电子病历筛查方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220916 |