CN111882441A

CN111882441A - 一种基于理财产品推荐场景的用户预测解释Treeshap方法

Info

Publication number: CN111882441A
Application number: CN202010491919.0A
Authority: CN
Inventors: 何悦; 张磊; 曹新建; 邵平; 支磊
Original assignee: Shenzhen Suoxinda Data Technology Co ltd
Current assignee: Shenzhen Suoxinda Data Technology Co ltd
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2020-11-03

Abstract

一种基于理财产品推荐场景的用户预测解释Treeshap方法，涉及到银行理财产品推荐系统的技术领域，解决现有的银行理财产品推荐场景中模型高精度低解释性的技术不足，采用Treeshap模型计算出该用户的每个特征的shapley value；对该用户是否被推荐理财产品进行解释；若特征变量的为正，则判断对用户预测值有正向影响；若为负，则判断是负向影响；若为0，则判断是没有影响；同时，shapley value的绝对值越大，则表示该特征变量对用户预测值影响程度越高。对银行理财产品推荐预测实现高精度高解释性，不仅给出是否推荐的结果，同时还根据不同情况给出推荐与不推荐的影响特征变量以及特征变量的影响程度。

Description

一种基于理财产品推荐场景的用户预测解释Treeshap方法

技术领域

本发明涉及到银行理财产品推荐系统的技术领域，具体涉及到用户预测数据的处理解释方法改进方面。

背景技术

近年来，以树模型为代表的机器学习模型，在结构化数据和图像处理领域表现极好，拥有高的精度和稳定的性能。但是内部结构复杂，难以解释。但是由于银行业中的风控要求，透明度和可解释性也是对机器学习模型的重要考核标准。

在理财产品推荐场景中，若采用结构相对简单的模型，如：线性模型、逻辑回归模型等，其模型结构简单，解释性较好。但在处理高维大样本数据时预测精度相对较低，推荐效果较差。因此更倾向于使用结构复杂的树模型，如：梯度提升迭代决策树、梯度推进机、随机森林等，其预测精度相对较高。但解释性较差，造成银行客户经理在选择推荐理财产品的目标客户时缺乏充分依据。因此对于高精度的树模型亟待需要解决低解释性的问题。

发明内容

综上所述，本发明的目的在于解决现有的银行理财产品推荐场景中模型高精度低解释性的技术不足，而提出一种基于理财产品推荐场景的用户预测解释Treeshap方法。

为解决本发明所提出的技术问题，采用的技术方案为：

一种基于理财产品推荐场景的用户预测解释Treeshap方法，其特征在于所述方法包括有以下步骤：

第一步，数据清洗与预处理，对过去N时期内有被推荐过目标理财产品的用户数据集进行清洗及预处理，包括一致性检查，清除重复数据、异常数据和无效数据，使用0填补缺失值，并做标准化、归一化处理，此外将类别变量转化为数值型变量；

第二步，对用户数据集拟合树模型，得到树模型的参数；

第三步，输入第二步训练好的树模型和一个用户的特征数据，用Treeshap模型计算出该用户的每个特征的shapley value；

第四步，根据第三步计算出的shapley value对该用户是否被推荐理财产品进行解释；若特征变量的shapley value为正，则判断该特征变量对用户预测值有正向影响；若为负，则判断是负向影响；若为0，则判断是没有影响；同时，shapley value的绝对值越大，则表示该特征变量对用户预测值影响程度越高。

作为对本发明作进一步限定的技术方案包括有：

第一步中的N时期内有被推荐过目标理财产品的用户数据，指一年或两年内有被推荐过目标理财产品的用户数据。

在所述步骤一和步骤二之间还包含确定正负样本步骤，将目标理财产品推荐成功的客户判断为正样本，目标变量y＝1；将目标理财产品推荐失败的客户判断为负样本，目标变量y＝0。

当特征变量有k个，分别表示为x₁，...，x_k；用户数据集中共有n个用户时；所述的步骤二用步骤一得到的用户数据集来训练梯度提升迭代决策树模型，用户数据集表示为(x_i，y_i)，i＝1，2..n

其中x_i＝(x_1i，x_2i..x_ki)

梯度提升迭代决策树模型的表现形式是：

其中T(x；Θ_m)表示第m棵决策树，Θ_m为决策树的参数，M是树的个数；

R_j是用户数据集(x_i，y_i)被分成的第j个区域，J是最终被分成的区域的个数；

采用前向分布算法，设定初始提升树f₀(x)＝0，

第m步的模型为：f_m(x)＝f_m-1(x)+T(x；Θ_m)

通过损失函数最小化确定下一棵树的参数：

理财产品推荐场景属于二分类数据集，这里的L是损失函数，表示为：

最后得到模型的参数：

所述步骤三，输入步骤二训练好的梯度提升迭代决策树模型和一个用户的特征数据，用Treeshap模型计算出该用户的每个特征的shapley value：

一个用户的特征数据为x＝(x₁，..，x_k)，对每一个特征计算它的shapley value；设定φ_i为第i个特征的shapley value，其计算公式如下：

其中F为特征的下标集合F＝{1，2，..k)，则F\i是去除了第i个特征后的下标集合，为{1，2..i-1，i，..k)，S是F\i的所有子集，|S|是集合S中的元素的个数，|S|！是|S|的阶乘f_x(S)＝E(f(X)|X_S＝x_s)

X是数据集中的特征变量向量，是k维，X＝(X₁，..X_k)；X_S是根据集合S中的元素，抽出来的特征变量集合，|S|维，x_S代表该用户中对应X_S的特征数据；f是步骤二拟合的梯度提升迭代决策模型；f_x(S)代表当输入S对应的特征变量数据时，梯度提升迭代决策模型得到的预测值的期望值；

Treeshap模型中计算f_x(S)的算法的方法如下：

输入：一个用户的特征数据x，除去第i个特征的特征变量集合的某一个子集S，树模型中的参数{v，a，b，t，r，d}；v是一个q维向量，q是树模型中所有的节点数，包含所有节点的值，如果节点是叶子节点，则赋予叶子节点的输出值，如果节点不是叶子节点，这个值赋为“internal”；a是一个向量，包含每一个非叶子节点的左节点下标；b是一个向量，包含每一个非叶子节点的右节点下标；t是一个向量，包含每一个非叶子节点中的阈值；d是一个向量，包含所有非叶子节点分裂时使用的特征变量的下标；r是一个向量，包含在每个节点中，筛选出掉入下面子树中的样本；j属于{1，2..q}；定义函数G(j)：

检测v_j是否为叶子节点，如果是叶子节点，直接输出v_j

如果不是，在检查d_j是否在集合S中，如果在集合S中且

输出G(a_j)；

如果属于集合S但

输出G(b_j)；

如果d_j不在集合S中，输出

返回G(1)，即为f_x(S)。

本发明的有益效果为：本发明方法对银行理财产品推荐预测实现高精度高解释性，不仅可以给出对每个客户是否推荐的结果，同时还根据不同客户的情况给出推荐与不推荐的影响特征变量以及特征变量的影响程度。

附图说明

图1为本发明的运行流程图。

具体实施方式

以下结合附图和本发明优选的具体实施例对本发明的方法作进一步地说明。

参照图1中所示，本发明公开了一种基于理财产品推荐场景的用户预测解释Treeshap方法，包括有以下步骤：

第一步，数据清洗与预处理，对过去N时期内有被推荐过目标理财产品的用户数据集进行清洗及预处理，所述的N时期具体可以两年内，或一年内；清洗及预处理包括一致性检查，清除重复数据、异常数据和无效数据，使用0填补缺失值，并做标准化、归一化处理，此外将类别变量转化为数值型变量；还包括有确定正负样本步骤，其中，正样本为目标理财产品推荐成功的客户，目标变量y＝1，负样本为目标理财产品推荐失败的客户，目标变量y＝0。

例如：数据清洗与预处理后的数据结构为：目标变量y为二分类变量，取值1或0分别表示目标理财产品推荐成功和推荐失败；特征变量有k个，为x₁,...,x_k，为数值型变量或类别型变量；数据集中共有n个用户。

第二步，对用户数据集拟合树模型，得到树模型的参数。具体可以采用树模型中的梯度提升迭代决策树模型，梯度提升迭代决策树模型虽然结构较复杂，难以解释，但是该模型的精度较高；用步骤一得到的用户数据集来训练该模型，

用户数据集表示为(x_i，y_i)，i＝1，2..n

其中x_i＝(x_1i，x_2i..x_ki)

模型的表现形式是：

其中T(x；Θ_m)表示第m棵决策树，Θ_m为决策树的参数，M是树的个数。

R_j是用户数据集(x_i，y_i)被分成的第j个区域，J是最终被分成的区域的个数。

采用前向分布算法，设定初始提升树f₀(x)＝0，

第m步的模型为：

f_m(x)＝f_m-1(x)+T(x；Θ_m)

通过损失函数最小化确定下一棵树的参数：

最后得到每一棵树中的参数

Θ_m，m＝1，2..M。

第三步，输入第二步训练好的树模型和一个用户的特征数据，用Treeshap模型计算出该用户的每个特征的shapley value。

Treeshap模型为现有模型，其优势在于保留当下精度较高的树模型的同时，提供对单个用户的模型预测值进行解释。

以第i个特征为例，设定φ_i为第i个特征的shapley value，其计算公式如下：

其中F为特征的下标集合F＝{1，2，..k)，则F\i是去除了第i个特征后的下标集合，为{1，2..i-1，i，..k)，S是F\i的所有子集，|S|是集合S中的元素的个数，|S|！是|S|的阶乘。f_x(S)＝E(f(X)|X_S＝x_s)

X是数据集中的特征变量向量，是k维的。X_S是根据集合S中的元素，抽出来的特征变量集合，|S|维。x_S代表该用户中对应X_S的特征数据。f是步骤二拟合梯度提升迭代决策模型。f_x(S)代表当输入S对应的特征变量数据时，梯度提升迭代决策模型得到的预测值的期望值。

在Treeshap模型中计算f_x(S)的算法：

输入：一个用户的特征数据x，除去第i个特征的特征变量集合的某一个子集S，树模型中的参数{v，a，b，t，r，d}；v是一个q维向量，q是树模型中所有的节点数，包含所有节点的值，如果节点是叶子节点，则赋予叶子节点的输出值，如果节点不是叶子节点，这个值赋为“internal”；a是一个向量，包含每一个非叶子节点的左节点下标；b是一个向量，包含每一个非叶子节点的右节点下标；t是一个向量，包含每一个非叶子节点中的阈值；d是一个向量，包含所有非叶子节点分裂时使用的特征变量的下标；r是一个向量，包含在每个节点中，筛选出掉入下面子树中的样本。

j属于{1，2..q}

定义函数G(j)：

1.检测v_j是否为叶子节点，如果是叶子节点，直接输出v_j

2.如果不是，在检查d_j是否在S中，如果在集合S中且

输出G(a_j)。如果属于S但

输出G(b_j).

3.如果d_j不在集合S中，输出

计算G(1)，即为f_x(S)。

第四步，根据第三步计算出的shapley value对该用户是否被推荐理财产品进行解释；若特征变量的shapley value为正，则判断该特征变量对用户预测值有正向影响；若为负，则判断是负向影响；若为0，则判断是没有影响；同时，shapley value的绝对值越大，则表示该特征变量对用户预测值影响程度越高。从而实现对银行理财产品推荐预测实现高精度高解释性，不仅可以给出对每个客户是否推荐的结果，同时还根据不同客户的情况给出推荐与不推荐的影响特征变量以及特征变量的影响程度。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于理财产品推荐场景的用户预测解释Treeshap方法，其特征在于所述方法包括有以下步骤：

第二步，对用户数据集拟合树模型，得到树模型的参数；

第三步，输入第二歩训练好的树模型和一个用户的特征数据，用Treeshap模型计算出该用户的每个特征的shapley value；

2.根据权利要求1所述的一种基于理财产品推荐场景的用户预测解释Treeshap方法，其特征在于:第一步中的N时期内有被推荐过目标理财产品的用户数据，指一年或两年内有被推荐过目标理财产品的用户数据。

3.根据权利要求1所述的一种基于理财产品推荐场景的用户预测解释Treeshap方法，其特征在于:在所述步骤一和步骤二之间还包含确定正负样本步骤，将目标理财产品推荐成功的客户判断为正样本，目标变量y＝1；将目标理财产品推荐失败的客户判断为负样本，目标变量y＝0。

4.根据权利要求3所述的一种基于理财产品推荐场景的用户预测解释Treeshap方法，其特征在于:有k个特征变量，分别表示为x₁,…,x_k；用户数据集中共有n个用户时；所述的步骤二用步骤一得到的用户数据集来训练梯度提升迭代决策树模型，用户数据集表示为

(x_i，y_i)，i＝1，2..n

其中x_i＝(x_1i，x_2i，...x_ki)

梯度提升迭代决策树模型的表现形式是：

采用前向分布算法，设定初始提升树f₀(x)＝0，

第m歩的模型为：f_m(x)＝f_m-1(x)+T(x；Θ_m)

通过损失函数最小化确定下一棵树的参数：

最后得到模型的参数：

Treeshap模型中计算f_x(S)的算法的方法如下：

输入：一个用户的特征数据x，除去第i个特征的特征变量集合的某一个子集S，树模型中的参数{v，a，b，t，r，d}；v是一个q维向量，q是树模型中所有的节点数，包含所有节点的值，如果节点是叶子节点，则赋予叶子节点的输出值，如果节点不是叶子节点，这个值赋为“internal”；a是一个向量，包含每一个非叶子节点的左节点下标；b是一个向量，包含每一个非叶子节点的右节点下标；t是-个向量，包含每一个非叶子节点中的阈值；d是-个向量，包含所有非叶子节点分裂时使用的特征变量的下标；r是一个向量，包含在每个节点中，筛选出掉入下面子树中的样本；

j属于{1,2..q}；定义函数G(j):

检测v_j是否为叶子节点，如果是叶子节点，直接输出v_j

如果不是，在检查d_j是否在集合S中，如果在集合S中且

输出G(a_j)；

如果属于集合S但

输出G(b_j)；

如果d_j不在集合S中，输出

返回G(1)，即为f_x(S)。