CN108681750A - Gbdt模型的特征解释方法和装置 - Google Patents

Gbdt模型的特征解释方法和装置 Download PDF

Info

Publication number
CN108681750A
CN108681750A CN201810488062.XA CN201810488062A CN108681750A CN 108681750 A CN108681750 A CN 108681750A CN 201810488062 A CN201810488062 A CN 201810488062A CN 108681750 A CN108681750 A CN 108681750A
Authority
CN
China
Prior art keywords
node
feature
value
score value
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810488062.XA
Other languages
English (en)
Inventor
方文静
周俊
高利翠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810488062.XA priority Critical patent/CN108681750A/zh
Publication of CN108681750A publication Critical patent/CN108681750A/zh
Priority to TW108105821A priority patent/TWI689871B/zh
Priority to PCT/CN2019/076264 priority patent/WO2019223384A1/zh
Priority to SG11202006205SA priority patent/SG11202006205SA/en
Priority to EP19806892.6A priority patent/EP3719704A4/en
Priority to US16/889,695 priority patent/US11205129B2/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Abstract

本说明书实施例公开了一种获取对用户的预测标签值的特征解释的方法和装置,所述方法在通过GBDT模型预测用户的标签值之后执行,包括:在排序靠前的预定数目的各个决策树中,分别获取包括所述用户的叶子节点和所述叶子节点的分值;确定与各个所述叶子节点分别对应的各个预测路径;获取每个预测路径上各个父节点的分裂特征和分值;对于每个预测路径上的每个子节点,确定所述每个子节点对应的特征、及每个子节点处的特征局部增量;获取全部所述子节点各自对应的特征的集合,作为与用户的预测标签值相关的多个特征;以及通过将对应于相同特征的至少一个子节点的特征局部增量相加,获取与至少一个子节点对应的特征与所述预测标签值的相关性。

Description

GBDT模型的特征解释方法和装置
技术领域
本说明书实施例涉及数据处理技术领域,更具体地,涉及一种对用户的预测标签值进行特征解释的方法和装置。
背景技术
在互联网技术快速发展的背景下,对互联网中的数据挖掘工作变得越来越重要。通常,在数据挖掘中,通过机器学习基于标定数据进行建模,从而可使用训练好的模型用于处理待预测的数据。在多种机器学习算法中,GBDT(Gradient boosting deision tree,梯度提升决策树)算法由于其优异的学习性能,得到越来越广泛的应用。GBDT算法是一种用于回归、分类、排序等任务的机器学习技术,其通过结合多个弱学习器(通常为决策树)而获得强预测模型。其中,所述GBDT模型通过多次迭代,并且在每次迭代中使得损失函数在梯度方向上减少,从而获得多个决策树。随着GBDT算法的广泛应用,产生了日益增多的对GBDT模型的解释的需求。除了目前通常使用的作为全局解释的特征重要性参数之外,针对单个用户的局部特征贡献的解释主要包括以下两种方法:通过重新建模提取GBDT模型中的优选方案以进行解释;以及,通过调节特征值大小以测试该特征对预测性能损失的影响。因此,需要一种更有效的GBDT模型解释方案,以满足现有技术中的需求。
发明内容
本说明书实施例旨在提供一种更有效的GBDT模型解释方案,以解决现有技术中的不足。
为实现上述目的,本说明书一个方面提供一种获取对用户的预测标签值的特征解释的方法,所述方法在通过GBDT模型预测用户的标签值之后执行,所述特征解释包括与所述用户的预测标签值相关的用户的多个特征、以及每个所述特征与所述预测标签值的相关性,所述GBDT模型中包括多个顺序排列的决策树,所述方法包括:
在排序靠前的预定数目的各个所述决策树中,分别获取包括所述用户的叶子节点和所述叶子节点的分值,其中,所述叶子节点的分值为通过所述GBDT模型预定的分值;
确定与各个所述叶子节点分别对应的各个预测路径,所述预测路径为从所述叶子节点至其所在决策树的根节点之间的节点连接路径;
获取每个所述预测路径上各个父节点的分裂特征和分值,所述各个父节点的分值基于其所在决策树的各个叶子节点的预定分值而确定;
对于每个所述预测路径上的每个子节点,通过所述每个子节点的自身的分值、其父节点的分值和其父节点的分裂特征,确定所述每个子节点对应的特征、及每个子节点处的特征局部增量,其中所述每个子节点对应的特征为与所述用户的预测标签值相关的特征;
获取全部所述子节点各自对应的特征的集合,作为与所述用户的预测标签值相关的多个特征;以及
通过将对应于相同特征的至少一个所述子节点的特征局部增量相加,获取与所述至少一个子节点对应的特征与所述预测标签值的相关性。
在一个实施例中,在所述获取对用户的预测标签值的特征解释的方法中,所述各个父节点的分值基于其所在决策树的各个叶子节点的预定分值而确定包括,所述父节点的分值为其两个子节点的分值的平均值。
在一个实施例中,在所述获取对用户的预测标签值的特征解释的方法中,所述各个父节点的分值基于其所在决策树的各个叶子节点的预定分值而确定包括,所述父节点的分值为其两个子节点的分值的加权平均值,所述子节点的分值的权重基于在所述GBDT模型的训练过程中分配至其的样本数而确定。
在一个实施例中,在所述获取对用户的预测标签值的特征解释的方法中,确定所述每个子节点对应的特征、及每个子节点处的特征局部增量包括,获取所述每个子节点的自身分值与其父节点的分值的差,作为所述特征局部增量。
在一个实施例中,在所述获取对用户的预测标签值的特征解释的方法中,所述GBDT模型为分类模型或回归模型。
在一个实施例中,在所述获取对用户的预测标签值的特征解释的方法中,所述排序靠前的预定数目的所述决策树为所述GBDT模型中包括的多个顺序排列的决策树。
本说明书另一方面提供一种获取对用户的预测标签值的特征解释的装置,所述装置在通过GBDT模型预测用户的标签值之后实施,所述特征解释包括与所述用户的预测标签值相关的用户的多个特征、以及每个所述特征与所述预测标签值的相关性,所述GBDT模型中包括多个顺序排列的决策树,所述装置包括:
第一获取单元,配置为,在排序靠前的预定数目的各个所述决策树中,分别获取包括所述用户的叶子节点和所述叶子节点的分值,其中,所述叶子节点的分值为通过所述GBDT模型预定的分值;
第一确定单元,配置为,确定与各个所述叶子节点分别对应的各个预测路径,所述预测路径为从所述叶子节点至其所在决策树的根节点之间的节点连接路径;
第二获取单元,配置为,获取每个所述预测路径上各个父节点的分裂特征和分值,所述各个父节点的分值基于其所在决策树的各个叶子节点的预定分值而确定;
第二确定单元,配置为,对于每个所述预测路径上的每个子节点,通过所述每个子节点的自身的分值、其父节点的分值和其父节点的分裂特征,确定所述每个子节点对应的特征、及每个子节点处的特征局部增量,其中所述每个子节点对应的特征为与所述用户的预测标签值相关的特征;
特征获取单元,配置为,获取全部所述子节点各自对应的特征的集合,作为与所述用户的预测标签值相关的多个特征;以及
相关性获取单元,配置为,通过将对应于相同特征的至少一个所述子节点的特征局部增量相加,获取与所述至少一个子节点对应的特征与所述预测标签值的相关性。
通过根据本说明书实施例的GBDT模型解释方案,只需获取GBDT模型中的已有参数和预测结果,即可获取对GBDT模型的用户级的准确的模型解释,并且,计算成本较低。另外,本说明书实施例的方案可适用于各种GBDT模型,适用性强,可操作性强。
附图说明
通过结合附图描述本说明书实施例,可以使得本说明书实施例更加清楚:
图1示出根据本说明书实施例的一种获取对用户的预测标签值的特征解释的方法;
图2示例示出了根据本说明书实施例的GBDT模型中包括的决策树;
图3示例示出了基于图2所示的决策树实施根据本说明书实施例的方法的示意图;以及
图4示出了根据本说明书实施例的一种获取对用户的预测标签值的特征解释的装置400。
具体实施方式
下面将结合附图描述本说明书实施例。
首先说明本说明书实施例的应用场景。根据本说明书实施例的模型解释方法是在通过GBDT模型预测用户的标签值之后执行。所述GBDT模型是通过下述训练过程训练获得的。首先获取训练集其中N为训练样本的个数,即,用户数。其中,x(i)为第i个用户的特征向量,其例如为S维向量,即x=(x1,x2,…,xS),y(i)为第i个用户的标定标签值。例如,所述GBDT模型是预测信用卡欺诈的模型,则x(i)可以为用户的刷卡记录数据、交易记录数据等,y(i)可以为用户的欺诈风险值。然后,通过第一个决策树对所述N个用户进行分割,在决策树的每个父节点设定分裂特征和特征阈值,通过在父节点处将用户的对应特征与特征阈值比较而将用户分割到相应的子节点中,通过这样的过程,最后将N个用户分割到各个叶子节点中,其中,各个叶子节点的分值为该叶子节点中各个用户的标定值(即y(i))的均值。
在获取第一个决策树之后,通过将每个用户的标定标签值与该用户在第一个决策树中的叶子节点的分值相减,获取每个用户的残差r(i),以 为新的训练集,其与D1对应于相同的用户集合。以与上述相同的方法,可获取第二个决策树,在第二个决策树中,将N个用户分割到各个叶子节点中,并且每个叶子节点的分值为各个用户的残差值的均值。类似地,可顺序获取多个决策树,每个决策树都基于前一个决策树的残差获得。从而可获得包括多个决策树的GBDT模型。
在预测用户的标签值时,对上述GBDT模型输入用户的特征向量,GBDT模型中的每个决策树依据其中父节点的分裂特征和分裂阈值将该用户分配到相应的叶子节点,从而,通过将用户所在的各个叶子节点的分值相加,从而获得该用户的预测标签值。
在上述预测过程之后,根据本说明书实施例的模型解释方法基于GBDT模型中的现有参数和预测结果,获取对用户的预测标签值的特征解释。即,在每个所述决策树中,获取用户所在的叶子节点,获取包含所述叶子节点的预测路径,计算预测路径上的子节点的与预测标签值相关的特征及该特征的局部增量,以及,将全部决策树中包括的相同特征的局部增量累加起来作为该特征与预测标签值的相关性,也即该特征对预测标签值的特征贡献。从而通过所述特征及其特征贡献,对用户的预测标签值进行特征解释。上述GBDT模型为回归模型,即,其预测的标签为连续型数据,例如欺诈风险值、年龄等。然而,所述GBDT模型不限于回归模型,其还可以为分类模型、推荐模型等,并且,这些模型都可以使用根据本说明书实施例的GBDT模型解释方法。
图1示出根据本说明书实施例的一种获取对用户的预测标签值的特征解释的方法,所述方法在通过GBDT模型预测用户的标签值之后执行,所述特征解释包括与所述用户的预测标签值相关的用户的多个特征、以及每个所述特征与所述预测标签值的相关性,所述GBDT模型中包括多个顺序排列的决策树。所述方法包括:在步骤S11,在排序靠前的预定数目的各个所述决策树中,分别获取包括所述用户的叶子节点和所述叶子节点的分值,其中,所述叶子节点的分值为通过所述GBDT模型预定的分值;在步骤S12,确定与各个所述叶子节点分别对应的各个预测路径,所述预测路径为从所述叶子节点至其所在决策树的根节点之间的节点连接路径;在步骤S13,获取每个所述预测路径上各个父节点的分裂特征和分值,所述各个父节点的分值基于其所在决策树的各个叶子节点的预定分值而确定;在步骤S14,对于每个所述预测路径上的每个子节点,通过其自身的分值、其父节点的分值和其父节点的分裂特征,确定所述每个子节点对应的特征、及每个子节点处的特征局部增量,其中所述每个子节点对应的特征为与所述用户的预测标签值相关的特征;在步骤S15,获取全部所述子节点各自对应的特征的集合,作为与所述用户的预测标签值相关的多个特征;以及,在步骤S16,通过将对应于相同特征的至少一个所述子节点的特征局部增量相加,获取与所述至少一个子节点对应的特征与所述预测标签值的相关性。
首先,在步骤S11,在排序靠前的预定数目的各个所述决策树中,分别获取包括所述用户的叶子节点和所述叶子节点的分值,其中,所述叶子节点的分值为通过所述GBDT模型预定的分值。
如前文所述,在所述GBDT模型中包括的多个顺序排列的决策树中,每个决策树基于其前一个决策树的标签值残差获得,即,所述顺序排列的各个决策树的叶子节点的分值会越来越小。相应地,通过所述顺序排列的各个决策树确定的与用户预测标签值相关的用户特征的局部增量也会在数量级上变得越来越小。可以预测,从排序比较靠后的决策树获取的特征的局部增量对于该特征的与预测标签值的相关性(即,该特征的全部局部增量之和)的影响会越来越小,甚至可近似为零。因此,可选取排序靠前的预定数目的决策树来实施根据本说明书实施例的方法。可通过预定条件确定所述预定数目,例如,根据叶子节点的数量级,确定所述预定数目,或者,根据预定的决策树百分比,确定所述预定数目等。在一个实施例中,可以对所述GBDT模型包括的全部决策树实施根据本说明书实施例的方法,从而获得精确的模型解释。
图2示例示出了根据本说明书实施例的GBDT模型中包括的决策树。如图2所示,图中的标为0的节点为该决策树的根节点,图中标为3、7、8、13、14、10、11、和12的节点为该决策树的叶子节点,其中,每个叶子节点下方标出的数值(例如,节点3下方的0.136)为该叶子节点的分值,该分值是GBDT模型在训练中基于分入该叶子节点中的多个样本的标定标签值而确定的。如图2中的矩形虚线框中所示,从节点6中分出两个节点11和12,因此,节点6是节点11和节点12的父节点,节点11和节点12都是节点6的子节点。如图2中所示,图中部分父节点通向子节点的箭头上都标明了特征及取值范围,例如,节点0通向节点1的箭头上标出“f5≤-0.5”,节点0通向节点2的箭头上标出“f5>-0.5”,这里的f5表示特征5,其为节点0的分裂特征,-0.5就是节点0的分裂阈值。
图3示例示出了基于图2所示的决策树实施根据本说明书实施例的方法的示意图。如图3所示,在通过包括图3所示的决策树的GBDT模型预测用户的标签值的情况中,假设在该决策树中将用户分到节点14中。从而,可从该决策树确定包括用户的节点14以及该节点14的分值。同时,在该GBDT模型包括的其它决策树中,可类似地确定用户所在的叶子节点及其分值。从而,可获取预定数目的叶子节点及其对应分值,即,从所述预定数目的决策树的每个决策树中都获取一个叶子节点。
在步骤S12,确定与各个所述叶子节点分别对应的各个预测路径,所述预测路径为从所述叶子节点至其所在决策树的根节点之间的节点连接路径。继续参考图3,在图3所示的决策树中,在确定用户所在的叶子节点14之后,可确定预测路径为图中从节点0至节点14的预测路径,图中以粗线箭头连接的节点连接路径示出。同时,在所述预定数目的决策树的其它决策树中,可类似地获取预测路径,从而获取预定数目的预测路径。
在步骤S13,获取每个所述预测路径上各个父节点的分裂特征和分值,所述各个父节点的分值基于其所在决策树的各个叶子节点的预定分值而确定。参考图3,在节点0到节点14的预测路径中,除了节点14之外的每个节点都有子节点,即在该路径中,包括的父节点有节点0、节点2、节点5和节点9。如前文参考图2所述,父节点的分裂特征可从决策树中直接获取,例如,参考图2,可得,节点0的分裂特征为特征5,节点2的分裂特征为特征2,节点5的分裂特征为特征4,以及节点9的分裂特征为特征4。在一个实施例中,基于如下公式(1)确定父节点的分值:
其中,Sp为父节点的分值,Sc1和Sc2分别为该父节点的两个子节点的分值。即,父节点的分值为其两个子节点的分值的平均值。例如,如图3中所示,可从节点13和节点14的分值确定节点9的分值为类似地,基于节点9和节点10的分值,可确定节点5的分值为0.0625。基于节点5和节点6的分值,可确定节点2的分值为0.0698。基于节点1和节点2的分值,可确定节点0的分值为0.0899。可以理解,图3所示的预测路径上的每个父节点的分值都可以基于图中的各个叶子节点的分值确定,例如,可从节点13、14和10确定节点5的分值,可从节点13、14、10、11和12确定节点2的分值。
在一个实施例中,基于以下公式(2)确定父节点的分值:
其中,Nc1和Nc2为在模型训练中分别落入子节点c1和c2的样本数。即,父节点的分值为其两个子节点的分值的加权平均值,所述两个子节点的权重为模型训练过程中落入其中的样本数。在对根据本说明书实施例的实际应用或实验测试中可确定,通过使用公式(2)确定父节点的分值,相比于公式(1),可获取更准确的模型解释。另外,在本说明书实施例中,对于父节点的计算不限于上述公式(1)和(2),例如,可调节公式(1)和(2)中的参数,以使得模型解释更加准确,另外,还可通过几何平均值、均方根平均值等,基于叶子节点的分值,获取各个父节点的分值。
在步骤S14,对于每个所述预测路径上的每个子节点,通过所述每个子节点的自身的分值、其父节点的分值和其父节点的分裂特征,确定所述每个子节点对应的特征、及每个子节点处的特征局部增量,其中所述每个子节点对应的特征为与所述用户的预测标签值相关的特征。
参考图3,在从节点0到节点14的预测路径中,除了根节点0之外,其它节点都是其上一个节点的子节点,即,该路径中的子节点包括:节点2、节点5、节点9和节点14。由于通过预测路径中的父节点的特征分裂,才获取预测路径中的子节点,从而父节点的分裂特征即为子节点的与预测标签值相关的特征,为方便描述,将其表示为与子节点对应的特征,或者子节点处的贡献特征。例如,如图3所示,与节点2对应的特征为特征5,与节点5对应的特征为特征2,与节点9对应的特征为特征4,以及,与节点14对应的特征为特征4。
在一个实施例中,通过以下公式(3)获取各个子节点处的特征局部增量:
其中,表示子节点c处的特征f的局部增量,Sc表示子节点的分值,Sp表示所述子节点的父节点的分值。该公式可从实际应用或实验测试中得到验证。
通过公式(3),基于在步骤S13中获得的各个父节点的分值,可容易地计算得出:节点2处的特征5(f5)的局部增量为-0.0201(即0.0698-0.0899),节点5处的特征2(f2)的局部增量为-0.0073,节点9处的特征4(f4)的局部增量为-0.0015,以及节点14处的特征4(f4)的局部增量为0.001。
在本说明书实施例中,对所述局部增量的计算不限于上述公式(3),还可以通过其它计算方法计算所述局部增量。例如,可对公式(3)中的父节点的分值或子节点的分值乘以修正参数,以使模型解释更加准确。
在步骤S15,获取全部所述子节点各自对应的特征的集合,作为与所述用户的预测标签值相关的多个特征。例如,参考图3,在图3所示的决策树中,可从所述预测路径上获取与用户的预测标签值相关的特征,即,特征5、特征2和特征4。同样地,可从所述预测数目的决策树中的其它决策树中,类似地获取与用户的预测标签值相关的特征。将这些特征集合到一起,从而可获取与用户的预测标签值相关的多个特征的集合。
在步骤S16,通过将对应于相同特征的至少一个所述子节点的特征局部增量相加,获取与所述至少一个子节点对应的特征与所述预测标签值的相关性。例如,参考图3所示,在如图所示的决策树中,预测路径上的节点9和14都对应于特征4,从而可将节点9与节点14处的局部增量相加,例如,在其它决策树中没有获取与特征4对应的预测路径子节点的情况中,可获得特征4与预测标签值的相关性(或者特征贡献值)为-0.0015+0.0010=0.0025。在其它决策树中也包括与特征4对应的预测路径子节点的情况中,可将全部与特征4对应的子节点的局部增量相加,从而获取特征4的相关性或贡献值。所述相关性的值越大,表示特征与预测标签值的相关性越大,当所述相关性的值为负值时,表示该特征与预测标签值的相关性非常小。例如,在通过GBDT模型预测用户的信用卡欺诈值的实例中,所述相关性的值越大,表示该特征与信用卡欺诈值的相关性越大,即,该特征的风险性越大。
通过获取与用户的预测标签值相关的多个特征及所述多个特征与所述预测标签值的相关性,从而可以对用户预测标签值的进行特征解释,从而明确预测的确定因素,并可以通过所述特征解释,获取与用户相关的更多信息。例如,在通过GBDT模型预测用户的信用卡欺诈度的实例中,通过获取用户的与预测标签值相关的多个特征及特征的相关性大小,可以将特征的影响面及该特征的相关性的大小,作为用户信用卡欺诈度预测值的参考信息,以使得对用户的判断更加准确。
图4示出了根据本说明书实施例的一种获取对用户的预测标签值的特征解释的装置400。所述装置400在通过GBDT模型预测用户的标签值之后实施,所述特征解释包括与所述用户的预测标签值相关的用户的多个特征、以及每个所述特征与所述预测标签值的相关性,所述GBDT模型中包括多个顺序排列的决策树。所述装置400包括:
第一获取单元41,配置为,在排序靠前的预定数目的各个所述决策树中,分别获取包括所述用户的叶子节点和所述叶子节点的分值,其中,所述叶子节点的分值为通过所述GBDT模型预定的分值;
第一确定单元42,配置为,确定与各个所述叶子节点分别对应的各个预测路径,所述预测路径为从所述叶子节点至其所在决策树的根节点之间的节点连接路径;
第二获取单元43,配置为,获取每个所述预测路径上各个父节点的分裂特征和分值,所述各个父节点的分值基于其所在决策树的各个叶子节点的预定分值而确定;
第二确定单元44,配置为,对于每个所述预测路径上的每个子节点,通过所述每个子节点的自身的分值、其父节点的分值和其父节点的分裂特征,确定所述每个子节点对应的特征、及每个子节点处的特征局部增量,其中所述每个子节点对应的特征为与所述用户的预测标签值相关的特征;
特征获取单元45,配置为,获取全部所述子节点各自对应的特征的集合,作为与所述用户的预测标签值相关的多个特征;以及
相关性获取单元46,配置为,通过将对应于相同特征的至少一个所述子节点的特征局部增量相加,获取与所述至少一个子节点对应的特征与所述预测标签值的相关性。
通过根据本说明书实施例的GBDT模型解释方案,只需获取GBDT模型中的已有参数和预测结果,即可获取对GBDT模型的用户级的准确的模型解释,并且,计算成本较低。另外,本说明书实施例的方案可适用于各种GBDT模型,适用性强,可操作性强。
本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种获取对用户的预测标签值的特征解释的方法,所述方法在通过GBDT模型预测用户的标签值之后执行,所述特征解释包括与所述用户的预测标签值相关的用户的多个特征、以及每个所述特征与所述预测标签值的相关性,所述GBDT模型中包括多个顺序排列的决策树,所述方法包括:
在排序靠前的预定数目的各个所述决策树中,分别获取包括所述用户的叶子节点和所述叶子节点的分值,其中,所述叶子节点的分值为通过所述GBDT模型预定的分值;
确定与各个所述叶子节点分别对应的各个预测路径,所述预测路径为从所述叶子节点至其所在决策树的根节点之间的节点连接路径;
获取每个所述预测路径上各个父节点的分裂特征和分值,所述各个父节点的分值基于其所在决策树的各个叶子节点的预定分值而确定;
对于每个所述预测路径上的每个子节点,通过所述每个子节点的自身的分值、其父节点的分值和其父节点的分裂特征,确定所述每个子节点对应的特征、及每个子节点处的特征局部增量,其中所述每个子节点对应的特征为与所述用户的预测标签值相关的特征;
获取全部所述子节点各自对应的特征的集合,作为与所述用户的预测标签值相关的多个特征;以及
通过将对应于相同特征的至少一个所述子节点的特征局部增量相加,获取与所述至少一个子节点对应的特征与所述预测标签值的相关性。
2.根据权利要求1所述的获取对用户的预测标签值的特征解释的方法,其中,所述各个父节点的分值基于其所在决策树的各个叶子节点的预定分值而确定包括,所述父节点的分值为其两个子节点的分值的平均值。
3.根据权利要求1所述的获取对用户的预测标签值的特征解释的方法,其中,所述各个父节点的分值基于其所在决策树的各个叶子节点的预定分值而确定包括,所述父节点的分值为其两个子节点的分值的加权平均值,所述子节点的分值的权重基于在所述GBDT模型的训练过程中分配至其的样本数而确定。
4.根据权利要求1所述的获取对用户的预测标签值的特征解释的方法,其中,确定所述每个子节点对应的特征、及每个子节点处的特征局部增量包括,获取所述每个子节点的自身分值与其父节点的分值的差,作为所述特征局部增量。
5.根据权利要求1所述的获取对用户的预测标签值的特征解释的方法,其中,所述GBDT模型为分类模型或回归模型。
6.根据权利要求1所述的获取对用户的预测标签值的特征解释的方法,其中,所述排序靠前的预定数目的所述决策树为所述GBDT模型中包括的多个顺序排列的决策树。
7.一种获取对用户的预测标签值的特征解释的装置,所述装置在通过GBDT模型预测用户的标签值之后实施,所述特征解释包括与所述用户的预测标签值相关的用户的多个特征、以及每个所述特征与所述预测标签值的相关性,所述GBDT模型中包括多个顺序排列的决策树,所述装置包括:
第一获取单元,配置为,在排序靠前的预定数目的各个所述决策树中,分别获取包括所述用户的叶子节点和所述叶子节点的分值,其中,所述叶子节点的分值为通过所述GBDT模型预定的分值;
第一确定单元,配置为,确定与各个所述叶子节点分别对应的各个预测路径,所述预测路径为从所述叶子节点至其所在决策树的根节点之间的节点连接路径;
第二获取单元,配置为,获取每个所述预测路径上各个父节点的分裂特征和分值,所述各个父节点的分值基于其所在决策树的各个叶子节点的预定分值而确定;
第二确定单元,配置为,对于每个所述预测路径上的每个子节点,通过所述每个子节点的自身的分值、其父节点的分值和其父节点的分裂特征,确定所述每个子节点对应的特征、及每个子节点处的特征局部增量,其中所述每个子节点对应的特征为与所述用户的预测标签值相关的特征;
特征获取单元,配置为,获取全部所述子节点各自对应的特征的集合,作为与所述用户的预测标签值相关的多个特征;以及
相关性获取单元,配置为,通过将对应于相同特征的至少一个所述子节点的特征局部增量相加,获取与所述至少一个子节点对应的特征与所述预测标签值的相关性。
8.根据权利要求7所述的获取对用户的预测标签值的特征解释的装置,其中,所述各个父节点的分值基于其所在决策树的各个叶子节点的预定分值而确定包括,所述父节点的分值为其两个子节点的分值的平均值。
9.根据权利要求7所述的获取对用户的预测标签值的特征解释的装置,其中,所述各个父节点的分值基于其所在决策树的各个叶子节点的预定分值而确定包括,所述父节点的分值为其两个子节点的分值的加权平均值,所述子节点的分值的权重基于在所述GBDT模型的训练过程中分配至其的样本数而确定。
10.根据权利要求7所述的获取对用户的预测标签值的特征解释的装置,其中,确定所述每个子节点对应的特征、及每个子节点处的特征局部增量包括,获取所述每个子节点的自身分值与其父节点的分值的差,作为所述特征局部增量。
11.根据权利要求7所述的获取对用户的预测标签值的特征解释的装置,其中,所述GBDT模型为分类模型或回归模型。
12.根据权利要求7所述的获取对用户的预测标签值的特征解释的装置,其中,所述排序靠前的预定数目的所述决策树为所述GBDT模型中包括的多个顺序排列的决策树。
CN201810488062.XA 2018-05-21 2018-05-21 Gbdt模型的特征解释方法和装置 Pending CN108681750A (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201810488062.XA CN108681750A (zh) 2018-05-21 2018-05-21 Gbdt模型的特征解释方法和装置
TW108105821A TWI689871B (zh) 2018-05-21 2019-02-21 梯度提升決策樹(gbdt)模型的特徵解釋方法和裝置
PCT/CN2019/076264 WO2019223384A1 (zh) 2018-05-21 2019-02-27 Gbdt模型的特征解释方法和装置
SG11202006205SA SG11202006205SA (en) 2018-05-21 2019-02-27 Gbdt model feature interpretation method and apparatus
EP19806892.6A EP3719704A4 (en) 2018-05-21 2019-02-27 CHARACTERISTICS INTERPRETATION METHOD AND DEVICE FOR GRADIENT AMPLIFICATION DECISION TREE (GBDT) MODEL
US16/889,695 US11205129B2 (en) 2018-05-21 2020-06-01 GBDT model feature interpretation method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810488062.XA CN108681750A (zh) 2018-05-21 2018-05-21 Gbdt模型的特征解释方法和装置

Publications (1)

Publication Number Publication Date
CN108681750A true CN108681750A (zh) 2018-10-19

Family

ID=63806940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810488062.XA Pending CN108681750A (zh) 2018-05-21 2018-05-21 Gbdt模型的特征解释方法和装置

Country Status (6)

Country Link
US (1) US11205129B2 (zh)
EP (1) EP3719704A4 (zh)
CN (1) CN108681750A (zh)
SG (1) SG11202006205SA (zh)
TW (1) TWI689871B (zh)
WO (1) WO2019223384A1 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492783A (zh) * 2018-11-14 2019-03-19 中国电力科学研究院有限公司 一种基于gbdt的电力计量设备故障风险预测方法
CN109489212A (zh) * 2018-11-21 2019-03-19 珠海格力电器股份有限公司 一种空调智能睡眠控制方法、调整系统及设备
CN110008349A (zh) * 2019-02-01 2019-07-12 阿里巴巴集团控股有限公司 计算机执行的事件风险评估的方法及装置
CN110084318A (zh) * 2019-05-07 2019-08-02 哈尔滨理工大学 一种结合卷积神经网络和梯度提升树的图像识别方法
CN110457912A (zh) * 2019-07-01 2019-11-15 阿里巴巴集团控股有限公司 数据处理方法、装置和电子设备
WO2019223384A1 (zh) * 2018-05-21 2019-11-28 阿里巴巴集团控股有限公司 Gbdt模型的特征解释方法和装置
CN110990829A (zh) * 2019-11-21 2020-04-10 支付宝(杭州)信息技术有限公司 在可信执行环境中训练gbdt模型的方法、装置及设备
CN111340121A (zh) * 2020-02-28 2020-06-26 支付宝(杭州)信息技术有限公司 目标特征的确定方法及装置
CN111383028A (zh) * 2020-03-16 2020-07-07 支付宝(杭州)信息技术有限公司 预测模型训练方法及装置、预测方法及装置
CN111401570A (zh) * 2020-04-10 2020-07-10 支付宝(杭州)信息技术有限公司 针对隐私树模型的解释方法和装置
CN112818228A (zh) * 2021-01-29 2021-05-18 北京百度网讯科技有限公司 向用户推荐对象的方法、装置、设备和介质
CN114417822A (zh) * 2022-03-29 2022-04-29 北京百度网讯科技有限公司 用于生成模型解释信息的方法、装置、设备、介质和产品

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112330054B (zh) * 2020-11-23 2024-03-19 大连海事大学 基于决策树的动态旅行商问题求解方法、系统及存储介质
CN115048386A (zh) * 2022-06-28 2022-09-13 支付宝(杭州)信息技术有限公司 一种业务执行方法、装置、存储介质及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120005204A1 (en) * 2010-07-01 2012-01-05 Yahoo! Inc. System for determining and optimizing for relevance in match-making systems
CN106204063A (zh) * 2016-06-30 2016-12-07 北京奇艺世纪科技有限公司 一种付费用户挖掘方法及装置
CN106250403A (zh) * 2016-07-19 2016-12-21 北京奇艺世纪科技有限公司 用户流失预测方法及装置
CN107301577A (zh) * 2016-04-15 2017-10-27 阿里巴巴集团控股有限公司 信用评估模型的训练方法、信用评估方法以及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140257924A1 (en) * 2013-03-08 2014-09-11 Corelogic Solutions, Llc Automated rental amount modeling and prediction
US9501716B2 (en) * 2014-12-11 2016-11-22 Intel Corporation Labeling component parts of objects and detecting component properties in imaging data
US10366451B2 (en) * 2016-01-27 2019-07-30 Huawei Technologies Co., Ltd. System and method for prediction using synthetic features and gradient boosted decision tree
CN107025154B (zh) * 2016-01-29 2020-12-01 阿里巴巴集团控股有限公司 磁盘的故障预测方法和装置
CN107153977A (zh) * 2016-03-02 2017-09-12 阿里巴巴集团控股有限公司 网上交易平台中交易实体信用评估方法、装置及系统
CN106611191A (zh) * 2016-07-11 2017-05-03 四川用联信息技术有限公司 基于不确定连续属性的决策树分类器构建方法
CN108038539A (zh) * 2017-10-26 2018-05-15 中山大学 一种集成长短记忆循环神经网络与梯度提升决策树的方法
CN108681750A (zh) * 2018-05-21 2018-10-19 阿里巴巴集团控股有限公司 Gbdt模型的特征解释方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120005204A1 (en) * 2010-07-01 2012-01-05 Yahoo! Inc. System for determining and optimizing for relevance in match-making systems
CN107301577A (zh) * 2016-04-15 2017-10-27 阿里巴巴集团控股有限公司 信用评估模型的训练方法、信用评估方法以及装置
CN106204063A (zh) * 2016-06-30 2016-12-07 北京奇艺世纪科技有限公司 一种付费用户挖掘方法及装置
CN106250403A (zh) * 2016-07-19 2016-12-21 北京奇艺世纪科技有限公司 用户流失预测方法及装置

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019223384A1 (zh) * 2018-05-21 2019-11-28 阿里巴巴集团控股有限公司 Gbdt模型的特征解释方法和装置
US11205129B2 (en) 2018-05-21 2021-12-21 Advanced New Technologies Co., Ltd. GBDT model feature interpretation method and apparatus
CN109492783A (zh) * 2018-11-14 2019-03-19 中国电力科学研究院有限公司 一种基于gbdt的电力计量设备故障风险预测方法
CN109492783B (zh) * 2018-11-14 2023-09-15 中国电力科学研究院有限公司 一种基于gbdt的电力计量设备故障风险预测方法
CN109489212A (zh) * 2018-11-21 2019-03-19 珠海格力电器股份有限公司 一种空调智能睡眠控制方法、调整系统及设备
CN109489212B (zh) * 2018-11-21 2020-05-05 珠海格力电器股份有限公司 一种空调智能睡眠控制方法、调整系统及设备
CN110008349A (zh) * 2019-02-01 2019-07-12 阿里巴巴集团控股有限公司 计算机执行的事件风险评估的方法及装置
CN110084318B (zh) * 2019-05-07 2020-10-02 哈尔滨理工大学 一种结合卷积神经网络和梯度提升树的图像识别方法
CN110084318A (zh) * 2019-05-07 2019-08-02 哈尔滨理工大学 一种结合卷积神经网络和梯度提升树的图像识别方法
CN110457912A (zh) * 2019-07-01 2019-11-15 阿里巴巴集团控股有限公司 数据处理方法、装置和电子设备
CN110990829A (zh) * 2019-11-21 2020-04-10 支付宝(杭州)信息技术有限公司 在可信执行环境中训练gbdt模型的方法、装置及设备
CN111340121A (zh) * 2020-02-28 2020-06-26 支付宝(杭州)信息技术有限公司 目标特征的确定方法及装置
CN111340121B (zh) * 2020-02-28 2022-04-12 支付宝(杭州)信息技术有限公司 目标特征的确定方法及装置
CN111383028B (zh) * 2020-03-16 2022-11-22 支付宝(杭州)信息技术有限公司 预测模型训练方法及装置、预测方法及装置
CN111383028A (zh) * 2020-03-16 2020-07-07 支付宝(杭州)信息技术有限公司 预测模型训练方法及装置、预测方法及装置
CN111401570A (zh) * 2020-04-10 2020-07-10 支付宝(杭州)信息技术有限公司 针对隐私树模型的解释方法和装置
CN112818228A (zh) * 2021-01-29 2021-05-18 北京百度网讯科技有限公司 向用户推荐对象的方法、装置、设备和介质
CN112818228B (zh) * 2021-01-29 2023-08-04 北京百度网讯科技有限公司 向用户推荐对象的方法、装置、设备和介质
CN114417822A (zh) * 2022-03-29 2022-04-29 北京百度网讯科技有限公司 用于生成模型解释信息的方法、装置、设备、介质和产品

Also Published As

Publication number Publication date
EP3719704A1 (en) 2020-10-07
US20200293924A1 (en) 2020-09-17
TWI689871B (zh) 2020-04-01
WO2019223384A1 (zh) 2019-11-28
SG11202006205SA (en) 2020-07-29
TW202004559A (zh) 2020-01-16
US11205129B2 (en) 2021-12-21
EP3719704A4 (en) 2021-03-17

Similar Documents

Publication Publication Date Title
CN108681750A (zh) Gbdt模型的特征解释方法和装置
Fraiman et al. Selection of variables for cluster analysis and classification rules
CN107766418A (zh) 一种基于融合模型的信用评估方法、电子设备和存储介质
CN109272002A (zh) 一种骨龄片的分类方法及装置
CN108959265A (zh) 跨领域文本情感分类方法、装置、计算机设备及存储介质
CN110288007A (zh) 数据标注的方法、装置及电子设备
CN110046196A (zh) 标识关联方法及装置、电子设备
US10546106B2 (en) Biometric verification
CN107622326A (zh) 用户分类、可用资源预测方法、装置及设备
US20220004920A1 (en) Classification device, classification method, and classification program
CN112712383A (zh) 应用程序的潜在用户预测方法、装置、设备及存储介质
CN109933648A (zh) 一种真实用户评论的区分方法和区分装置
CN107729520A (zh) 文件分类方法、装置、计算机设备及计算机可读介质
CN110458600A (zh) 画像模型训练方法、装置、计算机设备及存储介质
CN102955950A (zh) 用于在线训练分类器的装置和在线训练分类器的方法
CN114746859A (zh) 评价方法、评价程序以及信息处理装置
Divakar et al. Performance evaluation of credit card fraud transactions using boosting algorithms
US20140241618A1 (en) Combining Region Based Image Classifiers
Arbel et al. Classifier evaluation under limited resources
CN108647629A (zh) 一种图像识别定位方法、视频中图像轨迹识别方法和装置
CN105224957B (zh) 一种基于单样本的图像识别的方法及系统
CN108470065A (zh) 一种异常评论文本的确定方法及装置
Bolia et al. Function-approximation-based importance sampling for pricing American options
CN110598090B (zh) 兴趣标签的生成方法、装置、计算机设备和存储介质
CN109460474A (zh) 用户偏好趋势挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1262427

Country of ref document: HK

TA01 Transfer of patent application right

Effective date of registration: 20201022

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20201022

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20181019

RJ01 Rejection of invention patent application after publication