CN115526315A - 评分卡模型的生成方法和装置 - Google Patents
评分卡模型的生成方法和装置 Download PDFInfo
- Publication number
- CN115526315A CN115526315A CN202211150809.3A CN202211150809A CN115526315A CN 115526315 A CN115526315 A CN 115526315A CN 202211150809 A CN202211150809 A CN 202211150809A CN 115526315 A CN115526315 A CN 115526315A
- Authority
- CN
- China
- Prior art keywords
- scoring
- condition
- score
- splitting
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
- G06Q20/4016—Transaction verification involving fraud or risk level assessment in transaction processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/403—Solvency checks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/405—Establishing or using transaction specific rules
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Economics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本说明书实施例提供一种评分卡模型的生成方法和装置,所述评分卡模型用于预测用户针对目标指标的指标评分,方法包括:获取样本集合,所述样本集合包括各个样本用户分别对应于多项维度特征的特征取值,以及用户的指标评分标签;利用所述样本集合训练梯度提升决策树GBDT模型,得到N棵深度为1的子决策树;任一所述子决策树的根节点根据分裂条件分裂为两个叶子节点;其中,所述分裂条件涉及所述多项维度特征中的一项特征和该项特征的分裂阈值,叶子节点对应于指标评分的预测值;将所述GBDT模型转化为评分规则集,所述评分规则集构成所述评分卡模型。能够使得模型的解释性和模型性能同时得到满足。
Description
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及评分卡模型的生成方法和装置。
背景技术
评分卡模型可以表现为一张刻有分数刻度和相应阈值的表。对于任何一个用户,总能根据其各类信息找到对应的分数。将不同类别信息对应的分数进行汇总,就可以得到该用户的总分数。评分卡模型,由于其简单可靠、易于解释等特点,在各个领域都得到了广泛应用。例如,在金融风控领域,该总分数具体可以为信用评分,可以用于指示用户在金融交易中存在的交易风险。目前,大家对自己的隐私数据越来越关注,用户的各类信息以及信用评分均可能属于隐私数据。
现有技术中,评分卡模型的生成方式,使得模型的解释性和模型性能不能同时得到满足。
发明内容
本说明书一个或多个实施例描述了一种评分卡模型的生成方法和装置,能够使得模型的解释性和模型性能同时得到满足。
第一方面,提供了一种评分卡模型的生成方法,所述评分卡模型用于预测用户针对目标指标的指标评分,方法包括:
获取样本集合,所述样本集合包括各个样本用户分别对应于多项维度特征的特征取值,以及用户的指标评分标签;
利用所述样本集合训练梯度提升决策树(gradient boosting decision tree,GBDT)模型,得到N棵深度为1的子决策树;任一所述子决策树的根节点根据分裂条件分裂为两个叶子节点;其中,所述分裂条件涉及所述多项维度特征中的一项特征和该项特征的分裂阈值,叶子节点对应于指标评分的预测值;
将所述GBDT模型转化为评分规则集,所述评分规则集构成所述评分卡模型。
在一种可能的实施方式中,所述多项维度特征为根据预设指标从初始特征集合中筛选出的。
在一种可能的实施方式中,所述利用所述样本集合训练梯度提升决策树GBDT模型,包括:
确定所述多项维度特征中的备选特征及对应的备选阈值;
针对每个备选特征的每个备选阈值,以最小化预测损失为目标,确定第一子决策树的根节点的分裂特征和分裂阈值,以得到该根节点的分裂条件;
通过残差迭代的方式,确定所述第一子决策树之后的任一第二子决策树的根节点的分裂特征和分裂阈值,以得到该根节点的分裂条件。
进一步地,所述预测损失基于均方差损失函数而确定。
进一步地,所述残差迭代的方式,包括:
以最小化残差为目标,确定所述第一子决策树之后的任一第二子决策树的根节点的分裂特征和分裂阈值。
在一种可能的实施方式中,所述将所述GBDT模型转化为评分规则集,所述评分规则集构成所述评分卡模型,包括:
根据每棵子决策树中根节点对应的分裂条件和两个叶子节点分别对应的预测值,构建一个初始规则;一个初始规则包括,评分条件以及条件满足或不满足时的得分;
将具有相同评分条件的多个初始规则进行合并,得到合并规则;
将评分条件涉及的特征相同且特征分割点不同的多个初始规则或合并规则进行合并,得到评分规则集;
将各个特征分别对应的评分规则集作为一个评分项,组合各评分项,得到评分卡模型。
进一步地,所述根据每棵子决策树中根节点对应的分裂条件和两个叶子节点分别对应的预测值,构建一个初始规则,包括:
根据每棵子决策树中根节点对应的分裂条件作为评分条件,一个叶子节点对应的预测值作为条件满足时的得分,另一个叶子节点对应的预测值作为条件不满足时的得分,构建一个初始规则。
进一步地,所述将具有相同评分条件的多个初始规则进行合并,得到合并规则,包括:
取多个初始规则中的相同评分条件作为合并后的评分条件,将各初始规则中条件满足时的得分求和作为合并后的条件满足时的得分,将各初始规则中条件不满足时的得分求和作为合并后的条件不满足时的得分,得到合并规则。
进一步地,所述将评分条件涉及的特征相同且特征分割点不同的多个初始规则或合并规则进行合并,得到评分规则集,包括:
根据多个初始规则或合并规则的特征分割点,划分若干特征区间;
将每个特征区间作为一项合并后的评分条件,通过遍历该特征区间对应于各个初始规则或合并规则中的评分条件是否成立,得到各单个得分;任一单个得分为根据是否成立的结果得到的条件满足时的得分或条件不满足时的得分;
对各单个得分进行累加计算,得到该特征区间对应的条件满足时的得分;一个特征区间及对应的得分构成一个评分规则;各个特征区间对应的评分规则构成评分规则集。
第二方面,提供了一种评分卡模型的生成装置,所述评分卡模型用于预测用户针对目标指标的指标评分,装置包括:
获取单元,用于获取样本集合,所述样本集合包括各个样本用户分别对应于多项维度特征的特征取值,以及用户的指标评分标签;
训练单元,用于利用所述获取单元获取的样本集合训练梯度提升决策树GBDT模型,得到N棵深度为1的子决策树;任一所述子决策树的根节点根据分裂条件分裂为两个叶子节点;其中,所述分裂条件涉及所述多项维度特征中的一项特征和该项特征的分裂阈值,叶子节点对应于指标评分的预测值;
转化单元,用于将所述训练单元得到的GBDT模型转化为评分规则集,所述评分规则集构成所述评分卡模型。
第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的方法和装置,首先获取样本集合,所述样本集合包括各个样本用户分别对应于多项维度特征的特征取值,以及用户的指标评分标签;然后利用所述样本集合训练GBDT模型,得到N棵深度为1的子决策树;任一所述子决策树的根节点根据分裂条件分裂为两个叶子节点;其中,所述分裂条件涉及所述多项维度特征中的一项特征和该项特征的分裂阈值,叶子节点对应于指标评分的预测值;最后将所述GBDT模型转化为评分规则集,所述评分规则集构成评分卡模型。由上可见,本说明书实施例,由于GBDT模型在训练过程中,不需要对特征做预处理,也不需要考虑特征分箱,且模型效果往往优于常用的逻辑回归模型,因此将GBDT模型等价转化为评分卡模型,在保证模型输出形式是评分卡模型的情况下,模型性能等价于GBDT模型。并且,由于GBDT模型包括的子决策树的深度为1,特征在整个方案中没有参与融合,因此输出的评分卡模型可以直接观察到特征对于预测值的影响,模型的解释性得到了保证。综上,能够使得模型的解释性和模型性能同时得到满足。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2示出根据一个实施例的评分卡模型的生成方法流程图;
图3示出根据一个实施例的GBDT模型的结构示意图;
图4示出根据一个实施例的初始规则的构建示意图;
图5示出根据一个实施例的合并规则的构建示意图;
图6示出根据一个实施例的一个特征对应的评分规则集的构建示意图;
图7示出根据一个实施例的评分卡模型的生成装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及评分卡模型的生成。参照图1,给出了评分卡模型的一个示例,评分卡模型用于预测用户针对目标指标的指标评分,以金融风控领域为例,上述目标指标可以为风险指标或信用指标,上述指标评分可以为风险评分或信用评分。评分卡模型可以根据用户的各个维度特征的特征取值,查找到各个维度特征的得分,再通过对各个维度特征的得分累加计算得到用户的指标评分。上述各个维度特征可以包括用户的属性特征或行为特征,例如,图1中的评分卡模型涉及4个维度的特征,特征名称分别为余额资产、履约次数、房产和学历。金融机构可以根据用户的指标评分,决定是否给予该用户授信以及授信的额度和利率,从而识别和减少在金融交易中存在的交易风险。
评分卡模型中,包括一个各个用户共同具有的基准分,以及各个维度特征分别对应的评分项,每个评分项中包括多个规则。评分卡模型可以视为一个规则集合,一个评分条件及其对应的得分可以视为一个规则,评分条件可以视为对特征取值的限定。对于任一评分项,一个用户通常只符合该评分项中的一个规则,从而根据匹配出用户符合评分项中的哪个规则,可以确定该用户对应于该评分项的得分,或者说,确定该用户对应于相应维度特征的得分。其中,上述基准分为可选,也就是说,评分卡模型中,可以不包括上述基准分,仅包括各个维度特征分别对应的评分项。
下面以图1所示的评分卡模型为例,来说明如何运用评分卡模型预测用户针对目标指标的指标评分。用户A的基准分为223;若用户A的余额资产的取值为5000,则符合评分条件:2000<余额资产<=30000,余额资产对应的得分为4;若用户A的履约次数的取值为20,则符合评分条件:履约次数>10,履约次数对应的得分为12;若用户A的房产的取值为有房,则符合评分条件:有房,房产对应的得分为12;若用户A的学历的取值为本科,则符合评分条件:本科,学历对应的得分为5;累加这些得分,即223+4+12+12+5=256,即用户A针对目标指标的指标评分为256。
本说明书实施例,针对评分卡模型的生成提出解决方案,以期使得模型的解释性和模型性能同时得到满足。其中,模型的解释性可以理解为,用户的指标评分可以通过用户的各个维度特征的取值进行解释;模型性能可以理解为,用户的指标评分的精度。
图2示出根据一个实施例的评分卡模型的生成方法流程图,所述评分卡模型用于预测用户针对目标指标的指标评分,该方法可以基于图1所示的实施场景。如图2所示,该实施例中评分卡模型的生成方法包括以下步骤:步骤21,获取样本集合,所述样本集合包括各个样本用户分别对应于多项维度特征的特征取值,以及用户的指标评分标签;步骤22,利用所述样本集合训练梯度提升决策树(gradient boosting decision tree,GBDT)模型,得到N棵深度为1的子决策树;任一所述子决策树的根节点根据分裂条件分裂为两个叶子节点;其中,所述分裂条件涉及所述多项维度特征中的一项特征和该项特征的分裂阈值,叶子节点对应于指标评分的预测值;步骤23,将所述GBDT模型转化为评分规则集,所述评分规则集构成所述评分卡模型。下面描述以上各个步骤的具体执行方式。
首先在步骤21,获取样本集合,所述样本集合包括各个样本用户分别对应于多项维度特征的特征取值,以及用户的指标评分标签。可以理解的是,在风控场景下,上述各个样本用户可以为具有一定风险表现的用户,上述指标评分标签可以根据样本用户的风险类别而设定。
在一个示例中,所述多项维度特征为根据预设指标从初始特征集合中筛选出的。
该示例中,根据预设指标筛选出有效特征参与模型训练。其中,上述预设指标可以采用常用的指标,例如,稳定度指标(population stability index,PSI)、信息量(information value,IV)指标。
本说明书实施例,还可以手动筛选出有效特征参与后续的模型训练。
然后在步骤22,利用所述样本集合训练GBDT模型,得到N棵深度为1的子决策树;任一所述子决策树的根节点根据分裂条件分裂为两个叶子节点;其中,所述分裂条件涉及所述多项维度特征中的一项特征和该项特征的分裂阈值,叶子节点对应于指标评分的预测值。可以理解的是,两个不同的子决策树其各自的分裂条件可能涉及同一特征,也可能涉及不同的特征。
GDBT模型基于迭代的决策树算法而训练生成,该模型由多棵子决策树组成,所有子决策树的预测值累加起来作为GDBT模型的预测值。
在一个示例中,所述利用所述样本集合训练梯度提升决策树GBDT模型,包括:
确定所述多项维度特征中的备选特征及对应的备选阈值;
针对每个备选特征的每个备选阈值,以最小化预测损失为目标,确定第一子决策树的根节点的分裂特征和分裂阈值,以得到该根节点的分裂条件;
通过残差迭代的方式,确定所述第一子决策树之后的任一第二子决策树的根节点的分裂特征和分裂阈值,以得到该根节点的分裂条件。
该示例中,可以通过穷举所述多项维度特征中的每项特征及对应的每项阈值的方式,确定所述多项维度特征中的备选特征及对应的备选阈值。可选地,可以对所述多项维度特征中的每项特征及对应的每项阈值,进一步筛选,从而确定所述多项维度特征中的备选特征及对应的备选阈值。
进一步地,所述预测损失基于均方差损失函数而确定。
可以理解的是,被预测出错的样本数越多,错的越离谱,均方差就越大,通过最小化均方差能够找到最可靠的分枝依据。
进一步地,所述残差迭代的方式,包括:
以最小化残差为目标,确定所述第一子决策树之后的任一第二子决策树的根节点的分裂特征和分裂阈值。
可以理解的是,GBDT的核心就在于,每一棵子决策树学的是之前所有树结论和的残差,这个残差就是一个加预测值后能得真实值的累加量。比如特征A的真实值是18,但第一棵树的预测值是12,差了6,即残差为6。那么在第二棵树里我们把特征A的值设为6去学习,如果第二棵树真的能把特征A分到预测值为6的叶子节点,那累加两棵树的结论就是特征A的真实值;如果第二棵树的结论是5,则特征A仍然存在1的残差,第三棵树里特征A的值就变成1,继续学习。
本说明书实施例,在利用所述样本集合训练GBDT模型时,可以先将所述样本集合拆分成训练集和测试集。设置GBDT模型的树深参数为1,迭代次数调大一些,尽量保证模型充分学习,将训练集放入GBDT模型中训练。GBDT模型训练完成后,会生成N棵树深为1的子决策树,每棵子决策树包括一个根节点和两个叶子节点,每一个叶子节点有一个预测值。在对用户进行预测时,所有子决策树的预测值相加为GBDT模型的预测结果。
图3示出根据一个实施例的GBDT模型的结构示意图。参照图3,GBDT模型包括N棵子决策树,根据其生成顺序依次记为第1棵子决策树、第2棵子决策树、……第N棵子决策树。其中,第1棵子决策树,分裂条件为:近一年消费金额>1000,分裂特征为近一年消费金额,分裂阈值为1000,当用户的特征取值针对该分裂条件的判断结果为是时,该用户被划分到右叶子节点,预测值为1,当用户的特征取值针对该分裂条件的判断结果为否时,该用户被划分到左叶子节点,预测值为-0.5;第2棵子决策树,分裂条件为:余额资产>2000,分裂特征为余额资产,分裂阈值为2000,当用户的特征取值针对该分裂条件的判断结果为是时,该用户被划分到右叶子节点,预测值为2,当用户的特征取值针对该分裂条件的判断结果为否时,该用户被划分到左叶子节点,预测值为-0.7;……第N棵子决策树,分裂条件为:手机类型为iphone,分裂特征为手机类型,分裂阈值为iphone,当用户的特征取值针对该分裂条件的判断结果为是时,该用户被划分到右叶子节点,预测值为1.3,当用户的特征取值针对该分裂条件的判断结果为否时,该用户被划分到左叶子节点,预测值为-0.7。可以理解的是,分裂特征可以为数值型特征,例如,余额资产,分裂特征也可以为类别型特征,例如,手机类型。
最后在步骤23,将所述GBDT模型转化为评分规则集,所述评分规则集构成所述评分卡模型。可以理解的是,评分规则集包括多个评分规则,各个评分规则具有各自对应的维度特征。
在一个示例中,所述将所述GBDT模型转化为评分规则集,所述评分规则集构成所述评分卡模型,包括:
根据每棵子决策树中根节点对应的分裂条件和两个叶子节点分别对应的预测值,构建一个初始规则;一个初始规则包括,评分条件以及条件满足或不满足时的得分;
将具有相同评分条件的多个初始规则进行合并,得到合并规则;
将评分条件涉及的特征相同且特征分割点不同的多个初始规则或合并规则进行合并,得到评分规则集;
将各个特征分别对应的评分规则集作为一个评分项,组合各评分项,得到评分卡模型。
可以理解的是,特征分割点与前述分裂阈值相同。在多个初始规则合并后,得到合并规则,则合并前的初始规则已不存在,只存在对应的合并规则。
进一步地,所述根据每棵子决策树中根节点对应的分裂条件和两个叶子节点分别对应的预测值,构建一个初始规则,包括:
根据每棵子决策树中根节点对应的分裂条件作为评分条件,一个叶子节点对应的预测值作为条件满足时的得分,另一个叶子节点对应的预测值作为条件不满足时的得分,构建一个初始规则。
该示例,初步将子决策树转化为规则,由于每一棵子决策树的树深为1,因此可以很方便地将子决策树转化为规则。可以理解的是,有N棵子决策树,就会得到N个初始规则。
图4示出根据一个实施例的初始规则的构建示意图。参照图4,将第1棵子决策树转化为初始规则,评分条件为:近一年消费金额>1000,条件满足时的得分为1,条件不满足时的得分为-0.5;将第2棵子决策树转化为初始规则,评分条件为:余额资产>2000,条件满足时的得分为2,条件不满足时的得分为-0.7;……将第N棵子决策树转化为初始规则,评分条件为:手机类型为iphone,条件满足时的得分为1.3,条件不满足时的得分为-0.7。可以理解的是,初始规则既包括条件满足时的得分,又包括条件不满足时的得分,而评分卡模型中的规则仅包括条件满足时的得分,初始规则的这种设计便于对其进一步优化。
本说明书实施例,针对在训练GBDT模型时存在某些特征会重复被选择作为分裂特征的情况,子决策树转化而来的初始规则会存在评分条件相似或者一致的情况,需要对这些规则进行合并。
进一步地,所述将具有相同评分条件的多个初始规则进行合并,得到合并规则,包括:
取多个初始规则中的相同评分条件作为合并后的评分条件,将各初始规则中条件满足时的得分求和作为合并后的条件满足时的得分,将各初始规则中条件不满足时的得分求和作为合并后的条件不满足时的得分,得到合并规则。
图5示出根据一个实施例的合并规则的构建示意图。参照图5,初始规则1、……初始规则x具有相同的评分条件,即这些评分条件中的特征相同且特征分割点相同,可以将这多个初始规则合并,得到一个合并规则。具体地,取多个初始规则中的相同评分条件作为合并后的评分条件,可以理解的是,各个初始规则中的评分条件均为:近一年消费金额>1000,合并规则中的评分条件也为:近一年消费金额>1000;将各初始规则中条件满足时的得分求和作为合并后的条件满足时的得分,可以理解的是,各个初始规则中条件满足时的得分分别为:1、…1.3,合并规则中条件满足时的得分为:1+…+1.3;将各初始规则中条件不满足时的得分求和作为合并后的条件不满足时的得分,可以理解的是,各个初始规则中条件不满足时的得分分别为:-0.5、…-0.4,合并规则中条件不满足时的得分为:(-0.5)+…+(-0.4)。
进一步地,所述将评分条件涉及的特征相同且特征分割点不同的多个初始规则或合并规则进行合并,得到评分规则集,包括:
根据多个初始规则或合并规则的特征分割点,划分若干特征区间;
将每个特征区间作为一项合并后的评分条件,通过遍历该特征区间对应于各个初始规则或合并规则中的评分条件是否成立,得到各单个得分;任一单个得分为根据是否成立的结果得到的条件满足时的得分或条件不满足时的得分;
对各单个得分进行累加计算,得到该特征区间对应的条件满足时的得分;一个特征区间及对应的得分构成一个评分规则;各个特征区间对应的评分规则构成评分规则集。
图6示出根据一个实施例的一个特征对应的评分规则集的构建示意图。参照图6,规则1的评分条件为:近一年消费金额>1000,条件成立时的得分为1,条件不成立时的得分为-0.5;规则2的评分条件为:近一年消费金额>2000,条件成立时的得分为1.3,条件不成立时的得分为-0.4。规则1或规则2可能为初始规则,也可能为合并规则,初始规则或合并规则不影响合并得到评分规则集的方式。首先根据规则1的特征分割点为1000,规则2的特征分割点为2000,划分特征区间为:近一年消费金额<=1000,近一年消费金额(1000,2000],近一年消费金额>2000;然后对于特征区间:近一年消费金额<=1000,规则1和规则2中的评分条件均不成立,得到的单个得分分别为-0.5和-0.4;对各单个得分进行累加计算,得到该特征区间对应的条件满足时的得分为-0.9;对于特征区间:近一年消费金额(1000,2000],规则1的评分条件成立,规则2中的评分条件不成立,规则1得到的单个得分为1,规则2得到的单个得分为-0.4;对各单个得分进行累加计算,得到该特征区间对应的条件满足时的得分为0.6;对于特征区间:近一年消费金额>2000,规则1和规则2的评分条件均成立,规则1得到的单个得分为1,规则2得到的单个得分为1.3;对各单个得分进行累加计算,得到该特征区间对应的条件满足时的得分为2.3,从而得到了一个特征对应的评分规则集。
通过本说明书实施例提供的方法,首先获取样本集合,所述样本集合包括各个样本用户分别对应于多项维度特征的特征取值,以及用户的指标评分标签;然后利用所述样本集合训练GBDT模型,得到N棵深度为1的子决策树;任一所述子决策树的根节点根据分裂条件分裂为两个叶子节点;其中,所述分裂条件涉及所述多项维度特征中的一项特征和该项特征的分裂阈值,叶子节点对应于指标评分的预测值;最后将所述GBDT模型转化为评分规则集,所述评分规则集构成评分卡模型。由上可见,本说明书实施例,由于GBDT模型在训练过程中,不需要对特征做预处理,也不需要考虑特征分箱,且模型效果往往优于常用的逻辑回归模型,因此将GBDT模型等价转化为评分卡模型,在保证模型输出形式是评分卡模型的情况下,模型性能等价于GBDT模型。并且,由于GBDT模型包括的子决策树的深度为1,特征在整个方案中没有参与融合,因此输出的评分卡模型可以直接观察到特征对于预测值的影响,模型的解释性得到了保证。综上,能够使得模型的解释性和模型性能同时得到满足。
此外,本说明书实施例,通过树模型,会自动对特征分箱,并训练,无需人工干预,性能稳定。并且,将树的深度设置为1,不仅不会影响GBDT模型的拟合能力,而且保证了每次都在全局样本上学习,避免了局部过拟合的情况。
根据另一方面的实施例,还提供一种评分卡模型的生成装置,所述评分卡模型用于预测用户针对目标指标的指标评分,该装置用于执行本说明书实施例提供的图2所示的方法。图7示出根据一个实施例的评分卡模型的生成装置的示意性框图。如图7所示,该装置700包括:
获取单元71,用于获取样本集合,所述样本集合包括各个样本用户分别对应于多项维度特征的特征取值,以及用户的指标评分标签;
训练单元72,用于利用所述获取单元71获取的样本集合训练梯度提升决策树GBDT模型,得到N棵深度为1的子决策树;任一所述子决策树的根节点根据分裂条件分裂为两个叶子节点;其中,所述分裂条件涉及所述多项维度特征中的一项特征和该项特征的分裂阈值,叶子节点对应于指标评分的预测值;
转化单元73,用于将所述训练单元72得到的GBDT模型转化为评分规则集,所述评分规则集构成所述评分卡模型。
可选地,作为一个实施例,所述多项维度特征为根据预设指标从初始特征集合中筛选出的。
可选地,作为一个实施例,所述训练单元72包括:
备选确定子单元,用于确定所述多项维度特征中的备选特征及对应的备选阈值;
初始确定子单元,用于针对所述备选确定子单元得到的每个备选特征的每个备选阈值,以最小化预测损失为目标,确定第一子决策树的根节点的分裂特征和分裂阈值,以得到该根节点的分裂条件;
迭代子单元,用于通过残差迭代的方式,确定所述初始确定子单元确定的第一子决策树之后的任一第二子决策树的根节点的分裂特征和分裂阈值,以得到该根节点的分裂条件。
进一步地,所述预测损失基于均方差损失函数而确定。
进一步地,所述迭代子单元,具体用于以最小化残差为目标,确定所述第一子决策树之后的任一第二子决策树的根节点的分裂特征和分裂阈值。
可选地,作为一个实施例,所述转化单元73包括:
构建子单元,用于根据每棵子决策树中根节点对应的分裂条件和两个叶子节点分别对应的预测值,构建一个初始规则;一个初始规则包括,评分条件以及条件满足或不满足时的得分;
第一合并子单元,用于将具有相同评分条件的多个所述构建子单元构建的初始规则进行合并,得到合并规则;
第二合并子单元,用于将评分条件涉及的特征相同且特征分割点不同的多个所述构建子单元构建的初始规则或所述第一合并子单元得到的合并规则进行合并,得到评分规则集;
组合子单元,用于将各个特征分别对应的所述第二合并子单元得到的评分规则集作为一个评分项,组合各评分项,得到评分卡模型。
进一步地,所述构建子单元,具体用于根据每棵子决策树中根节点对应的分裂条件作为评分条件,一个叶子节点对应的预测值作为条件满足时的得分,另一个叶子节点对应的预测值作为条件不满足时的得分,构建一个初始规则。
进一步地,所述第一合并子单元,具体用于取多个初始规则中的相同评分条件作为合并后的评分条件,将各初始规则中条件满足时的得分求和作为合并后的条件满足时的得分,将各初始规则中条件不满足时的得分求和作为合并后的条件不满足时的得分,得到合并规则。
进一步地,所述第二合并子单元包括:
划分模块,用于根据多个初始规则或合并规则的特征分割点,划分若干特征区间;
匹配模块,用于将所述划分模块得到的每个特征区间作为一项合并后的评分条件,通过遍历该特征区间对应于各个初始规则或合并规则中的评分条件是否成立,得到各单个得分;任一单个得分为根据是否成立的结果得到的条件满足时的得分或条件不满足时的得分;
计算模块,用于对所述匹配模块得到的各单个得分进行累加计算,得到该特征区间对应的条件满足时的得分;一个特征区间及对应的得分构成一个评分规则;各个特征区间对应的评分规则构成评分规则集。
通过本说明书实施例提供的装置,首先获取单元71获取样本集合,所述样本集合包括各个样本用户分别对应于多项维度特征的特征取值,以及用户的指标评分标签;然后训练单元72利用所述样本集合训练GBDT模型,得到N棵深度为1的子决策树;任一所述子决策树的根节点根据分裂条件分裂为两个叶子节点;其中,所述分裂条件涉及所述多项维度特征中的一项特征和该项特征的分裂阈值,叶子节点对应于指标评分的预测值;最后转化单元73将所述GBDT模型转化为评分规则集,所述评分规则集构成评分卡模型。由上可见,本说明书实施例,由于GBDT模型在训练过程中,不需要对特征做预处理,也不需要考虑特征分箱,且模型效果往往优于常用的逻辑回归模型,因此将GBDT模型等价转化为评分卡模型,在保证模型输出形式是评分卡模型的情况下,模型性能等价于GBDT模型。并且,由于GBDT模型包括的子决策树的深度为1,特征在整个方案中没有参与融合,因此输出的评分卡模型可以直接观察到特征对于预测值的影响,模型的解释性得到了保证。综上,能够使得模型的解释性和模型性能同时得到满足。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (20)
1.一种评分卡模型的生成方法,所述评分卡模型用于预测用户针对目标指标的指标评分,所述方法包括:
获取样本集合,所述样本集合包括各个样本用户分别对应于多项维度特征的特征取值,以及用户的指标评分标签;
利用所述样本集合训练梯度提升决策树GBDT模型,得到N棵深度为1的子决策树;任一所述子决策树的根节点根据分裂条件分裂为两个叶子节点;其中,所述分裂条件涉及所述多项维度特征中的一项特征和该项特征的分裂阈值,叶子节点对应于指标评分的预测值;
将所述GBDT模型转化为评分规则集,所述评分规则集构成所述评分卡模型。
2.根据权利要求1所述的方法,其中,所述多项维度特征为根据预设指标从初始特征集合中筛选出的。
3.根据权利要求1所述的方法,其中,所述利用所述样本集合训练梯度提升决策树GBDT模型,包括:
确定所述多项维度特征中的备选特征及对应的备选阈值;
针对每个备选特征的每个备选阈值,以最小化预测损失为目标,确定第一子决策树的根节点的分裂特征和分裂阈值,以得到该根节点的分裂条件;
通过残差迭代的方式,确定所述第一子决策树之后的任一第二子决策树的根节点的分裂特征和分裂阈值,以得到该根节点的分裂条件。
4.根据权利要求3所述的方法,其中,所述预测损失基于均方差损失函数而确定。
5.根据权利要求3所述的方法,其中,所述残差迭代的方式,包括:
以最小化残差为目标,确定所述第一子决策树之后的任一第二子决策树的根节点的分裂特征和分裂阈值。
6.根据权利要求1所述的方法,其中,所述将所述GBDT模型转化为评分规则集,所述评分规则集构成所述评分卡模型,包括:
根据每棵子决策树中根节点对应的分裂条件和两个叶子节点分别对应的预测值,构建一个初始规则;一个初始规则包括,评分条件以及条件满足或不满足时的得分;
将具有相同评分条件的多个初始规则进行合并,得到合并规则;
将评分条件涉及的特征相同且特征分割点不同的多个初始规则或合并规则进行合并,得到评分规则集;
将各个特征分别对应的评分规则集作为一个评分项,组合各评分项,得到评分卡模型。
7.根据权利要求6所述的方法,其中,所述根据每棵子决策树中根节点对应的分裂条件和两个叶子节点分别对应的预测值,构建一个初始规则,包括:
根据每棵子决策树中根节点对应的分裂条件作为评分条件,一个叶子节点对应的预测值作为条件满足时的得分,另一个叶子节点对应的预测值作为条件不满足时的得分,构建一个初始规则。
8.根据权利要求6所述的方法,其中,所述将具有相同评分条件的多个初始规则进行合并,得到合并规则,包括:
取多个初始规则中的相同评分条件作为合并后的评分条件,将各初始规则中条件满足时的得分求和作为合并后的条件满足时的得分,将各初始规则中条件不满足时的得分求和作为合并后的条件不满足时的得分,得到合并规则。
9.根据权利要求6所述的方法,其中,所述将评分条件涉及的特征相同且特征分割点不同的多个初始规则或合并规则进行合并,得到评分规则集,包括:
根据多个初始规则或合并规则的特征分割点,划分若干特征区间;
将每个特征区间作为一项合并后的评分条件,通过遍历该特征区间对应于各个初始规则或合并规则中的评分条件是否成立,得到各单个得分;任一单个得分为根据是否成立的结果得到的条件满足时的得分或条件不满足时的得分;
对各单个得分进行累加计算,得到该特征区间对应的条件满足时的得分;一个特征区间及对应的得分构成一个评分规则;各个特征区间对应的评分规则构成评分规则集。
10.一种评分卡模型的生成装置,所述评分卡模型用于预测用户针对目标指标的指标评分,所述装置包括:
获取单元,用于获取样本集合,所述样本集合包括各个样本用户分别对应于多项维度特征的特征取值,以及用户的指标评分标签;
训练单元,用于利用所述获取单元获取的样本集合训练梯度提升决策树GBDT模型,得到N棵深度为1的子决策树;任一所述子决策树的根节点根据分裂条件分裂为两个叶子节点;其中,所述分裂条件涉及所述多项维度特征中的一项特征和该项特征的分裂阈值,叶子节点对应于指标评分的预测值;
转化单元,用于将所述训练单元得到的GBDT模型转化为评分规则集,所述评分规则集构成所述评分卡模型。
11.根据权利要求10所述的装置,其中,所述多项维度特征为根据预设指标从初始特征集合中筛选出的。
12.根据权利要求10所述的装置,其中,所述训练单元包括:
备选确定子单元,用于确定所述多项维度特征中的备选特征及对应的备选阈值;
初始确定子单元,用于针对所述备选确定子单元得到的每个备选特征的每个备选阈值,以最小化预测损失为目标,确定第一子决策树的根节点的分裂特征和分裂阈值,以得到该根节点的分裂条件;
迭代子单元,用于通过残差迭代的方式,确定所述初始确定子单元确定的第一子决策树之后的任一第二子决策树的根节点的分裂特征和分裂阈值,以得到该根节点的分裂条件。
13.根据权利要求12所述的装置,其中,所述预测损失基于均方差损失函数而确定。
14.根据权利要求12所述的装置,其中,所述迭代子单元,具体用于以最小化残差为目标,确定所述第一子决策树之后的任一第二子决策树的根节点的分裂特征和分裂阈值。
15.根据权利要求10所述的装置,其中,所述转化单元包括:
构建子单元,用于根据每棵子决策树中根节点对应的分裂条件和两个叶子节点分别对应的预测值,构建一个初始规则;一个初始规则包括,评分条件以及条件满足或不满足时的得分;
第一合并子单元,用于将具有相同评分条件的多个所述构建子单元构建的初始规则进行合并,得到合并规则;
第二合并子单元,用于将评分条件涉及的特征相同且特征分割点不同的多个所述构建子单元构建的初始规则或所述第一合并子单元得到的合并规则进行合并,得到评分规则集;
组合子单元,用于将各个特征分别对应的所述第二合并子单元得到的评分规则集作为一个评分项,组合各评分项,得到评分卡模型。
16.根据权利要求15所述的装置,其中,所述构建子单元,具体用于根据每棵子决策树中根节点对应的分裂条件作为评分条件,一个叶子节点对应的预测值作为条件满足时的得分,另一个叶子节点对应的预测值作为条件不满足时的得分,构建一个初始规则。
17.根据权利要求15所述的装置,其中,所述第一合并子单元,具体用于取多个初始规则中的相同评分条件作为合并后的评分条件,将各初始规则中条件满足时的得分求和作为合并后的条件满足时的得分,将各初始规则中条件不满足时的得分求和作为合并后的条件不满足时的得分,得到合并规则。
18.根据权利要求15所述的装置,其中,所述第二合并子单元包括:
划分模块,用于根据多个初始规则或合并规则的特征分割点,划分若干特征区间;
匹配模块,用于将所述划分模块得到的每个特征区间作为一项合并后的评分条件,通过遍历该特征区间对应于各个初始规则或合并规则中的评分条件是否成立,得到各单个得分;任一单个得分为根据是否成立的结果得到的条件满足时的得分或条件不满足时的得分;
计算模块,用于对所述匹配模块得到的各单个得分进行累加计算,得到该特征区间对应的条件满足时的得分;一个特征区间及对应的得分构成一个评分规则;各个特征区间对应的评分规则构成评分规则集。
19.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-9中任一项的所述的方法。
20.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-9中任一项的所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211150809.3A CN115526315A (zh) | 2022-09-21 | 2022-09-21 | 评分卡模型的生成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211150809.3A CN115526315A (zh) | 2022-09-21 | 2022-09-21 | 评分卡模型的生成方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115526315A true CN115526315A (zh) | 2022-12-27 |
Family
ID=84699202
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211150809.3A Pending CN115526315A (zh) | 2022-09-21 | 2022-09-21 | 评分卡模型的生成方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115526315A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116228398A (zh) * | 2023-02-28 | 2023-06-06 | 王宇轩 | 基于可解释提升机ebm的还款违约率预测算法 |
-
2022
- 2022-09-21 CN CN202211150809.3A patent/CN115526315A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116228398A (zh) * | 2023-02-28 | 2023-06-06 | 王宇轩 | 基于可解释提升机ebm的还款违约率预测算法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qi et al. | Finding all you need: web APIs recommendation in web of things through keywords search | |
CN112084383A (zh) | 基于知识图谱的信息推荐方法、装置、设备及存储介质 | |
CN110750649A (zh) | 知识图谱构建及智能应答方法、装置、设备及存储介质 | |
US11636341B2 (en) | Processing sequential interaction data | |
US20150142423A1 (en) | Phrase-based data classification system | |
CN111738534B (zh) | 多任务预测模型的训练、事件类型的预测方法及装置 | |
JP2020091846A (ja) | 会話に基づくチケットロギングのためのシステム及び方法 | |
KR20210082103A (ko) | 기계 학습 모델을 이용한 부동산 실거래가 예측 기반 부동산 예상 실거래가 산출 장치 및 그 동작 방법 | |
CN111368147A (zh) | 图特征处理的方法及装置 | |
CN109034199B (zh) | 数据处理方法及装置、存储介质和电子设备 | |
CN111198970A (zh) | 一种匹配简历方法、装置、电子设备及存储介质 | |
CN113761219A (zh) | 基于知识图谱的检索方法、装置、电子设备及存储介质 | |
CN113538154A (zh) | 风险对象的识别方法、装置、存储介质和电子设备 | |
CN110019751A (zh) | 机器学习模型修改和自然语言处理 | |
CN115526315A (zh) | 评分卡模型的生成方法和装置 | |
CN112396092B (zh) | 一种众包开发者推荐方法和装置 | |
CN113785317A (zh) | 使用因领域而异的建模来进行反馈挖掘 | |
US20210073247A1 (en) | System and method for machine learning architecture for interdependence detection | |
CN111311420A (zh) | 一种业务数据的推送方法及装置 | |
US20210065047A1 (en) | Multi-tiered system for scalable entity representation learning | |
JP6839001B2 (ja) | モデル学習装置、情報判定装置およびそれらのプログラム | |
CN116414808A (zh) | 详细地址规范化的方法、装置、计算机设备和存储介质 | |
CN114115878A (zh) | 一种工作流节点推荐方法及装置 | |
CN114092057A (zh) | 一种项目模型的构建方法、装置、终端设备和存储介质 | |
JP2012113716A (ja) | カテゴリーマッチングを用いたキーワード抽出システムおよびキーワード抽出方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |