CN111612156A

CN111612156A - 用于XGBoost模型的解释方法

Info

Publication number: CN111612156A
Application number: CN202010439751.9A
Authority: CN
Inventors: 袁秋龙; 周珊; 江文斌; 李健
Original assignee: Shanghai Ctrip International Travel Agency Co Ltd
Current assignee: Shanghai Ctrip International Travel Agency Co Ltd
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2020-09-01

Abstract

本发明公开了一种用于XGBoost模型的解释方法，包括以下步骤：对XGBoost模型进行树模型元结构解析，以解析出每个单棵树的树结构；对所述XGBoost模型输入测试样本，根据树结构获取所述测试样本对应的有效叶子节点以及有效叶子节点的树的有效路径；根据有效路径计算出特征的贡献值；以及，根据获取到的贡献值对所述XGBoost模型进行解释。本发明根据XGBoost模型的结构信息，同时利用树型结构的路径来有效地对XGBoost模型的判别结果进行解释。

Description

用于XGBoost模型的解释方法

技术领域

本发明涉及机器学习技术领域，特别涉及一种基于树型结构路径的用于XGBoost模型(梯度提升模型)的解释方法、电子设备和计算机可读介质。

背景技术

目前，现有的模型解释方法一般有以下三种：1、通过求解出一个特征的重要性，即Feature Importance；2、希望能够用一个线性模型来拟合复杂模型的局部样本点，如LIME方法(复杂模型可解释性方法)；3、通过求解出每一个特征的贡献值，如SHAP(SHapleyAdditive exPlanations，一种解释模型输出的方法)值。

以上几种方法在一定程度上能够解决关于复杂模型解释问题，但是本身存在一定缺陷。

特征重要性(Feature Importance)能够很好的表达出一个特征对模型整体预测的重要性，但是主要存在两方面的缺陷，一、特征重要性指标不能够表达特征对模型预测结果的正负相关性；二、特征重要性是一个整体指标，不同样本的特征会应为数值的变化而产生不一样的影响。

根据局部线性方法来拟合复杂模型进而解释复杂模型能够解决特征重要性的两个缺陷，但是本身由于是局部解释，不能够有效地进行多样本之间的对比，同时线性的模型不能够表达出复杂模型中所发掘出的特征相互作用的影响，因子法也是跟LIME类似。

SHAP指标能够解决如LINME方法中的第一个缺陷，但是不能够较好地突显出特征相互作用的影响，尤其是在树状结构中的特征之间继承关系对最终决策的影响。

发明内容

本发明要解决的技术问题是为了克服现有技术中无法有效地对XGBoost模型的判别结果进行解释的缺陷，提供一种基于树型结构路径的用于XGBoost模型的解释方法、电子设备和计算机可读介质。

本发明是通过下述技术方案来解决上述技术问题：

一种用于XGBoost模型的解释方法，包括以下步骤：

对XGBoost模型进行树模型元结构解析，以解析出每个单棵树的树结构；

对所述XGBoost模型输入测试样本，根据树结构获取所述测试样本对应的有效叶子节点以及有效叶子节点的树的有效路径；

根据有效路径计算出特征的贡献值；以及，

根据获取到的贡献值对所述XGBoost模型进行解释。

可选地，还包括以下步骤：

根据解析出的每个单棵树的树结构获取每个单棵树的叶子节点。

可选地，还包括以下步骤：

根据获取到的每个单棵树的叶子节点反向递推求解出整棵树的每个节点的贡献值。

可选地，所述根据树结构获取所述测试样本对应的有效叶子节点以及有效叶子节点的树的有效路径的步骤包括：

通过模型预测结果获取一组有效叶子节点，并且根据有效叶子节点的位置信息及树结构计算出有效叶子节点的树的有效路径。

可选地，还包括以下步骤：

根据有效路径还计算出特征组合的贡献值。

可选地，根据有效路径计算出特征的贡献值及特征组合的贡献值的步骤包括：

通过获取到的有效路径匹配出对应的特征，通过拆分有效路径获取特征组合，并且计算出特征的贡献值及特征组合的贡献值。

可选地，所述根据获取到的贡献值对所述XGBoost模型进行解释的步骤包括：

根据获取到的贡献值对所述XGBoost模型进行合理性解释，以输出用于表征所述XGBoost模型的合理性的信息。

可选地，所述对XGBoost模型进行树模型元结构解析的步骤包括：

对训练后的XGBoost模型进行树模型元结构解析。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行计算机程序时实现如上述的用于XGBoost模型的解释方法的步骤。

一种计算机可读介质，其上存储有计算机指令，所述计算机指令在由处理器执行时实现如上述的用于XGBoost模型的解释方法的步骤。

在符合本领域常识的基础上，所述各优选条件，可任意组合，即得本发明各较佳实施例。

本发明的积极进步效果在于：

本发明提供的用于XGBoost模型的解释方法，根据XGBoost模型的结构信息，同时利用树型结构的路径来有效地对XGBoost模型的判别结果进行解释，所获得的解释是对XGBoost模型的一种全局解释，能够友好地进行不同样本之间的对比，解释结果能够挖掘复杂模型中所学习到的特征之间交互和继承的关系，进而实现高维特征的解释，而不仅仅停留在单维特征因子上。

附图说明

在结合以下附图阅读本公开的实施例的详细描述之后，能够更好地理解本发明的所述特征和优点。在附图中，各组件不一定是按比例绘制，并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。

图1为根据本发明的一实施例的用于XGBoost模型的解释方法的流程示意图。

图2为根据本发明的一实施例的基于二叉树的覆盖值的示意图。

图3为根据本发明另一实施例的实现用于XGBoost模型的解释方法的电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

为了克服目前存在的上述缺陷，本实施例提供一种用于XGBoost模型的解释方法，所述解释方法包括以下步骤：对XGBoost模型进行树模型元结构解析，以解析出每个单棵树的树结构；对所述XGBoost模型输入测试样本，根据树结构获取所述测试样本对应的有效叶子节点以及有效叶子节点的树的有效路径；根据有效路径计算出特征的贡献值；以及，根据获取到的贡献值对所述XGBoost模型进行解释。

在本实施例中，模型解释不是指模型的泛化性等理论保证，也不是指复杂模型的理论解释，而是指模型判别过程是否能够转化成具备逻辑关系的规则。通常，解释一个XGBoost模型的表现是一件很复杂事情。XGBoost模型相对于线性模型在进行预测时往往有更好的精度，但是同时也失去了线性模型的可解释性。所以XGBoost模型通常被认为是黑箱模型。

在本实施例中，所述解释方法可以有效地对XGBoost模型的判别结果进行解释。

模型解释有两个重要因素：1、探查驱动模型预测因素；2、相信模型预测。以上两个因素从实际生产角度来看，可以做出如下解释：了解什么因素驱动模型进行预测，也就能够更好的服务于供应商对本身产品在对应因素上做出相关的努力来改善产品榜单排名；相信模型做出的预测是从模型开发者和模型使用者、关键利益相关者两方面考虑的。首先，模型开发者需要通过模型解释相信模型做出的预测结果，加深对模型的理解，排除模型训练失败，其次，需要通过模型解释让模型使用者，关键利益相关者信服模型结果。

具体地，作为一实施例，如图1所示，本实施例的用于XGBoost模型的解释方法主要包括以下步骤：

步骤101、解析模型。

在本步骤中，由于XGBoost模型是集成模型，而且其基础模型是树模型，将训练好的XGBoost模型进行树模型元结构解析，以解析出每个单棵树的树结构。

在本实施例中，优选地，所述XGBoost模型为训练后的XGBoost模型。

具体地，在本步骤中，对训练好的XGBoost模型进行树模型元结构解析，以解析出一组基于树结构的模型组T＝(t₁,t₂,…,t_n)^T，其中n表示的是XGBoost模型中的树的数量，t表示的是单棵树。

在本步骤中，根据解析出的每个单棵树的树结构获取每个单棵树的叶子节点，根据获取到的每个单棵树的叶子节点反向递推求解出整棵树的每个节点的贡献值。

具体地，根据树结构模型组T，能够获取各个单棵树的叶子节点集合Node＝[[n₁₁,n₁₂,…,n_1m],[n₂₁,n₂₂,…,n_2m],…,[n_n1,n_n2,…,n_nm]]，其中m表示的是每棵树具有m个叶子节点。

在本实施例中，贡献值是一个全局的能够体现对模型预测结果相关性，能够体现出特征相互作用的重要性指标。本实施例中的特征贡献值是基于树的路径结构来获取的，而树的路径本身就是树结构模型在训练过程中根据训练数据样本自主学习到的，在树结构的节点中，每一个节点表示一个特征类别，一条树路径中包含多个节点(特征)，对路径中的特征进行组合就能够获得组合特征。

在本实施例中，该节点的贡献值是通过该节点的节点值与其所对应的最近父节点值进行做差来获取的。

步骤102、输入测试样本。

在本步骤中，对所述XGBoost模型输入测试样本S＝(s₁,s₂,…,s_i)^T。

步骤103、获取有效节点。

在本步骤中，通过模型预测结果获取一组有效叶子节点N′＝[[n′_1l],[n′_2k]....,[n′_nj]]。在本实施例中，有效即为该样本的预测叶子节点。

步骤104、获取有效路径。

在本步骤中，根据有效叶子节点的位置信息及树结构T＝(t₁,t₂,…,t_n)^T，递归的计算出有效叶子节点的树的有效路径p＝[[p_1l],[p_2k],…,[p_nj]]，有效路径主要由特征节点组成。

具体地，在树型结构中(一般指的是二叉树，结构如图2所示，可推广至多叉)，假设输入一个测试样本到训练好的单棵树结构中，模型通过和节点对应的特征的特征值进行比较做出判断，通过：

的方式对当前节点的两个分支进行判断下一步进入哪一个分支，如此循环到当前节点没有分支(叶子节点)为止，当前节点即为有效节点，同时按照该逻辑反向递推即可获得该有效节点的逻辑。

步骤105、求取路径上节点值。

在本步骤中，通过获取到的有效路径p＝[[p_1l],[p_2k],…,[p_nj]]，通过有效节点的反向递推，根据父节点由子节点共同作用，利用节点的覆盖值(Cover Values)计算出叶子节点的梯度值G＝-1.0*D(C+θ)/σ，其中D为叶子节点的值，C为覆盖值，θ为超参数，σ为学习率。

具体地，以一般的二叉树为例，图2所示：图中包含三个特征分别为f0，f1和f2，以及五个叶子(leaf)节点。

首先，本实施例根据特征在树结构中被分裂的次数，统计它们的频次weight：{‘f0’:2,‘f1’:1,‘f2’:1}；

现假设第一个节点f0被用来对所用10样本进行分裂，在第二个节点f0又被用来分裂5个样本，其中3个样本落入左子树，之后的节点中没有再被用到，所以f0特征的总体Total Cover值为10+5＝15，此时有5个样本落入左子树，5个样本落入右子树；

对于第三个节点f2被用来对上面f0分裂后落入的5个样本进行分裂，之后再无被用到所以f2的total cover为：5；

对于第四个节点f1，对f0落下的3个样本进行分裂，之后再无使用，对于totalweight值为：3，归总total cover：{‘f0’:15,‘f1’:3,‘f2’:5}；

因此图2中的cover值为{‘f0’:7.5,‘f1’:3,‘f2’:5}；

覆盖值的获取过程如上举例所述，上述是单棵树的cover过去过程，可将其推广到多棵树的XGBoost模型中；超参数θ和σ均是经验值，根据不同的任务进行具体分析选择。模型的覆盖值、超参数、学习率均是在模型训练的过程中确定的，一旦模型训练完成，模型的覆盖值、超参数、学习率也就随着固定。

根据叶子节点的梯度值，参照父节点由子节点共同作用的特性，可以计算到对应父节点的节点值V＝-1.0*(G_right+G_left)/(D_parent+θ)*σ。其中，G_right表示的是右子树的子节点的梯度值，G_left表示的是左子树的孩子节点的梯度值，D_parent表示的是左右子节点对应的父节点的Cover值，

步骤106、输出特征贡献。

在本步骤中，通过获取到的有效路径匹配出对应的特征，计算出特征的贡献值，通过拆分有效路径获取XGBoost学习到的特征组合，并且计算出特征组合的贡献值。

具体地，计算出每个节点的节点值后，利用添加节点所带来的节点值的变化来判断节点所代表的特征的贡献量，最终计算出特征的贡献值指标以及有效路径中可能存在的特征组合的贡献值指标。

执行步骤105之后，可以在每一个节点中得到其对应的节点值，以图2为例，第一节点和第三节点(节点按从上往下，从左往右排序)的节点值，决策路径(有效路径)为f0—f2—leaf。设第一节点的节点值为m，第三节点的值为n，那么第一节点的贡献值为m-0，第三节点的贡献值为n-m；

在图2的决策路径中可以得到贡献值{{‘f0’}:m,{‘f2’}:n-m,{‘f0’,‘f2’}:n}，其中组合特征{‘f0’,‘f2’}的贡献值为n-0＝n；计算组合特征的贡献值只需要保证组合节点在同一条路径的上下文相关处即可。

步骤107、解释模型。

在本步骤中，根据获取到的贡献值对所述XGBoost模型进行合理性解释，以输出用于表征所述XGBoost模型的合理性的信息。

本实施例提供的解释方法可适用于度假出发地跟团游的搜索排序XGBoost模型中使用，其作用是用来判别训练处理的模型的合理性以及可靠性。

以度假出发地跟团游的搜索排序为例，在训练的模型数据中，包含产品维度以及用户维度。

产品维度数据有着产品销量，产品点击量等数据，根据本实施例对该数据训练获得到的XGBoost模型进行分析，能够得到产品的点击量和产品的销量所对应的贡献值均较大，但产品点击量的贡献值往往要大于产品销量的贡献值，当产品供应商知道这一特性之后，会通过有效的方式来提升产品的点击率，以此来提升自身产品在收索列表中的排名。

但是，又会出现产品的点击量上升，对应产品的收索列表排名反而下降的现象；根据本实施例的逻辑通过获取模型所学习到的组合特征，发现{产品点击量，产品销量}该组合特征的贡献值最大，通过结合业务分析，当产品的点击量上升，但是在产品的销量不变的情况下，产品的转化率总体是下降的，因此对该产品的排序进行降低是合理的。上述仅为解释方法的使用中的一个样例，在实际使用中，可以根据树结构中的树深度，获取有效的组合特征，对在实际业务中遇到的问题进行合理的解释。

本实施例提供的用于XGBoost模型的解释方法，根据XGBoost模型的结构信息，同时利用树型结构的路径来有效地对XGBoost模型的判别结果进行解释，所获得的解释是对XGBoost模型的一种全局解释，能够友好地进行不同样本之间的对比，解释结果能够挖掘复杂模型中所学习到的特征之间交互和继承的关系，进而实现高维特征的解释，而不仅仅停留在单维特征因子上。

图3为根据本发明另一实施例提供的一种电子设备的结构示意图。电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现如上实施例中的用于XGBoost模型的解释方法。图3显示的电子设备30仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示，电子设备30可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备30的组件可以包括但不限于：上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。

总线33包括数据总线、地址总线和控制总线。

存储器32可以包括易失性存储器，例如随机存取存储器(RAM)321和/或高速缓存存储器322，还可以进一步包括只读存储器(ROM)323。

存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325，这样的程序模块324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器31通过运行存储在存储器32中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明如上实施例中的用于XGBoost模型的解释方法。

电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且，模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图3所示，网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备30使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

本实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，程序被处理器执行时实现如上实施例中的用于XGBoost模型的解释方法中的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行实现如上实施例中的用于XGBoost模型的解释方法中的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种用于XGBoost模型的解释方法，其特征在于，包括以下步骤：

根据有效路径计算出特征的贡献值；以及，

根据获取到的贡献值对所述XGBoost模型进行解释。

2.如权利要求1所述的解释方法，其特征在于，还包括以下步骤：

3.如权利要求2所述的解释方法，其特征在于，还包括以下步骤：

4.如权利要求1所述的解释方法，其特征在于，所述根据树结构获取所述测试样本对应的有效叶子节点以及有效叶子节点的树的有效路径的步骤包括：

5.如权利要求1所述的解释方法，其特征在于，还包括以下步骤：

根据有效路径还计算出特征组合的贡献值。

6.如权利要求5所述的解释方法，其特征在于，根据有效路径计算出特征的贡献值及特征组合的贡献值的步骤包括：

7.如权利要求1～6中任意一项所述的解释方法，其特征在于，所述根据获取到的贡献值对所述XGBoost模型进行解释的步骤包括：

8.如权利要求1～6中任意一项所述的解释方法，其特征在于，所述对XGBoost模型进行树模型元结构解析的步骤包括：

对训练后的XGBoost模型进行树模型元结构解析。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行计算机程序时实现如权利要求1～8中任意一项所述的用于XGBoost模型的解释方法的步骤。

10.一种计算机可读介质，其上存储有计算机指令，其特征在于，所述计算机指令在由处理器执行时实现如权利要求1～8中任意一项所述的用于XGBoost模型的解释方法的步骤。