CN111882441A - 一种基于理财产品推荐场景的用户预测解释Treeshap方法 - Google Patents
一种基于理财产品推荐场景的用户预测解释Treeshap方法 Download PDFInfo
- Publication number
- CN111882441A CN111882441A CN202010491919.0A CN202010491919A CN111882441A CN 111882441 A CN111882441 A CN 111882441A CN 202010491919 A CN202010491919 A CN 202010491919A CN 111882441 A CN111882441 A CN 111882441A
- Authority
- CN
- China
- Prior art keywords
- user
- financial product
- value
- model
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Development Economics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Finance (AREA)
- Marketing (AREA)
- Accounting & Taxation (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Technology Law (AREA)
- Educational Administration (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于理财产品推荐场景的用户预测解释Treeshap方法,涉及到银行理财产品推荐系统的技术领域,解决现有的银行理财产品推荐场景中模型高精度低解释性的技术不足,采用Treeshap模型计算出该用户的每个特征的shapley value;对该用户是否被推荐理财产品进行解释;若特征变量的为正,则判断对用户预测值有正向影响;若为负,则判断是负向影响;若为0,则判断是没有影响;同时,shapley value的绝对值越大,则表示该特征变量对用户预测值影响程度越高。对银行理财产品推荐预测实现高精度高解释性,不仅给出是否推荐的结果,同时还根据不同情况给出推荐与不推荐的影响特征变量以及特征变量的影响程度。
Description
技术领域
本发明涉及到银行理财产品推荐系统的技术领域,具体涉及到用户预测数据的处理解释方法改进方面。
背景技术
近年来,以树模型为代表的机器学习模型,在结构化数据和图像处理领域表现极好,拥有高的精度和稳定的性能。但是内部结构复杂,难以解释。但是由于银行业中的风控要求,透明度和可解释性也是对机器学习模型的重要考核标准。
在理财产品推荐场景中,若采用结构相对简单的模型,如:线性模型、逻辑回归模型等,其模型结构简单,解释性较好。但在处理高维大样本数据时预测精度相对较低,推荐效果较差。因此更倾向于使用结构复杂的树模型,如:梯度提升迭代决策树、梯度推进机、随机森林等,其预测精度相对较高。但解释性较差,造成银行客户经理在选择推荐理财产品的目标客户时缺乏充分依据。因此对于高精度的树模型亟待需要解决低解释性的问题。
发明内容
综上所述,本发明的目的在于解决现有的银行理财产品推荐场景中模型高精度低解释性的技术不足,而提出一种基于理财产品推荐场景的用户预测解释Treeshap方法。
为解决本发明所提出的技术问题,采用的技术方案为:
一种基于理财产品推荐场景的用户预测解释Treeshap方法,其特征在于所述方法包括有以下步骤:
第一步,数据清洗与预处理,对过去N时期内有被推荐过目标理财产品的用户数据集进行清洗及预处理,包括一致性检查,清除重复数据、异常数据和无效数据,使用0填补缺失值,并做标准化、归一化处理,此外将类别变量转化为数值型变量;
第二步,对用户数据集拟合树模型,得到树模型的参数;
第三步,输入第二步训练好的树模型和一个用户的特征数据,用Treeshap模型计算出该用户的每个特征的shapley value;
第四步,根据第三步计算出的shapley value对该用户是否被推荐理财产品进行解释;若特征变量的shapley value为正,则判断该特征变量对用户预测值有正向影响;若为负,则判断是负向影响;若为0,则判断是没有影响;同时,shapley value的绝对值越大,则表示该特征变量对用户预测值影响程度越高。
作为对本发明作进一步限定的技术方案包括有:
第一步中的N时期内有被推荐过目标理财产品的用户数据,指一年或两年内有被推荐过目标理财产品的用户数据。
在所述步骤一和步骤二之间还包含确定正负样本步骤,将目标理财产品推荐成功的客户判断为正样本,目标变量y=1;将目标理财产品推荐失败的客户判断为负样本,目标变量y=0。
当特征变量有k个,分别表示为x1,...,xk;用户数据集中共有n个用户时;所述的步骤二用步骤一得到的用户数据集来训练梯度提升迭代决策树模型,用户数据集表示为(xi,yi),i=1,2..n
其中xi=(x1i,x2i..xki)
梯度提升迭代决策树模型的表现形式是:
其中T(x;Θm)表示第m棵决策树,Θm为决策树的参数,M是树的个数;
Rj是用户数据集(xi,yi)被分成的第j个区域,J是最终被分成的区域的个数;
采用前向分布算法,设定初始提升树f0(x)=0,
第m步的模型为:fm(x)=fm-1(x)+T(x;Θm)
通过损失函数最小化确定下一棵树的参数:
理财产品推荐场景属于二分类数据集,这里的L是损失函数,表示为:
最后得到模型的参数:
所述步骤三,输入步骤二训练好的梯度提升迭代决策树模型和一个用户的特征数据,用Treeshap模型计算出该用户的每个特征的shapley value:
一个用户的特征数据为x=(x1,..,xk),对每一个特征计算它的shapley value;设定φi为第i个特征的shapley value,其计算公式如下:
其中F为特征的下标集合F={1,2,..k),则F\i是去除了第i个特征后的下标集合,为{1,2..i-1,i,..k),S是F\i的所有子集,|S|是集合S中的元素的个数,|S|!是|S|的阶乘fx(S)=E(f(X)|XS=xs)
X是数据集中的特征变量向量,是k维,X=(X1,..Xk);XS是根据集合S中的元素,抽出来的特征变量集合,|S|维,xS代表该用户中对应XS的特征数据;f是步骤二拟合的梯度提升迭代决策模型;fx(S)代表当输入S对应的特征变量数据时,梯度提升迭代决策模型得到的预测值的期望值;
Treeshap模型中计算fx(S)的算法的方法如下:
输入:一个用户的特征数据x,除去第i个特征的特征变量集合的某一个子集S,树模型中的参数{v,a,b,t,r,d};v是一个q维向量,q是树模型中所有的节点数,包含所有节点的值,如果节点是叶子节点,则赋予叶子节点的输出值,如果节点不是叶子节点,这个值赋为“internal”;a是一个向量,包含每一个非叶子节点的左节点下标;b是一个向量,包含每一个非叶子节点的右节点下标;t是一个向量,包含每一个非叶子节点中的阈值;d是一个向量,包含所有非叶子节点分裂时使用的特征变量的下标;r是一个向量,包含在每个节点中,筛选出掉入下面子树中的样本;j属于{1,2..q};定义函数G(j):
检测vj是否为叶子节点,如果是叶子节点,直接输出vj
返回G(1),即为fx(S)。
本发明的有益效果为:本发明方法对银行理财产品推荐预测实现高精度高解释性,不仅可以给出对每个客户是否推荐的结果,同时还根据不同客户的情况给出推荐与不推荐的影响特征变量以及特征变量的影响程度。
附图说明
图1为本发明的运行流程图。
具体实施方式
以下结合附图和本发明优选的具体实施例对本发明的方法作进一步地说明。
参照图1中所示,本发明公开了一种基于理财产品推荐场景的用户预测解释Treeshap方法,包括有以下步骤:
第一步,数据清洗与预处理,对过去N时期内有被推荐过目标理财产品的用户数据集进行清洗及预处理,所述的N时期具体可以两年内,或一年内;清洗及预处理包括一致性检查,清除重复数据、异常数据和无效数据,使用0填补缺失值,并做标准化、归一化处理,此外将类别变量转化为数值型变量;还包括有确定正负样本步骤,其中,正样本为目标理财产品推荐成功的客户,目标变量y=1,负样本为目标理财产品推荐失败的客户,目标变量y=0。
例如:数据清洗与预处理后的数据结构为:目标变量y为二分类变量,取值1或0分别表示目标理财产品推荐成功和推荐失败;特征变量有k个,为x1,...,xk,为数值型变量或类别型变量;数据集中共有n个用户。
第二步,对用户数据集拟合树模型,得到树模型的参数。具体可以采用树模型中的梯度提升迭代决策树模型,梯度提升迭代决策树模型虽然结构较复杂,难以解释,但是该模型的精度较高;用步骤一得到的用户数据集来训练该模型,
用户数据集表示为(xi,yi),i=1,2..n
其中xi=(x1i,x2i..xki)
模型的表现形式是:
其中T(x;Θm)表示第m棵决策树,Θm为决策树的参数,M是树的个数。
Rj是用户数据集(xi,yi)被分成的第j个区域,J是最终被分成的区域的个数。
采用前向分布算法,设定初始提升树f0(x)=0,
第m步的模型为:
fm(x)=fm-1(x)+T(x;Θm)
通过损失函数最小化确定下一棵树的参数:
理财产品推荐场景属于二分类数据集,这里的L是损失函数,表示为:
最后得到每一棵树中的参数
Θm,m=1,2..M。
第三步,输入第二步训练好的树模型和一个用户的特征数据,用Treeshap模型计算出该用户的每个特征的shapley value。
Treeshap模型为现有模型,其优势在于保留当下精度较高的树模型的同时,提供对单个用户的模型预测值进行解释。
以第i个特征为例,设定φi为第i个特征的shapley value,其计算公式如下:
其中F为特征的下标集合F={1,2,..k),则F\i是去除了第i个特征后的下标集合,为{1,2..i-1,i,..k),S是F\i的所有子集,|S|是集合S中的元素的个数,|S|!是|S|的阶乘。fx(S)=E(f(X)|XS=xs)
X是数据集中的特征变量向量,是k维的。XS是根据集合S中的元素,抽出来的特征变量集合,|S|维。xS代表该用户中对应XS的特征数据。f是步骤二拟合梯度提升迭代决策模型。fx(S)代表当输入S对应的特征变量数据时,梯度提升迭代决策模型得到的预测值的期望值。
在Treeshap模型中计算fx(S)的算法:
输入:一个用户的特征数据x,除去第i个特征的特征变量集合的某一个子集S,树模型中的参数{v,a,b,t,r,d};v是一个q维向量,q是树模型中所有的节点数,包含所有节点的值,如果节点是叶子节点,则赋予叶子节点的输出值,如果节点不是叶子节点,这个值赋为“internal”;a是一个向量,包含每一个非叶子节点的左节点下标;b是一个向量,包含每一个非叶子节点的右节点下标;t是一个向量,包含每一个非叶子节点中的阈值;d是一个向量,包含所有非叶子节点分裂时使用的特征变量的下标;r是一个向量,包含在每个节点中,筛选出掉入下面子树中的样本。
j属于{1,2..q}
定义函数G(j):
1.检测vj是否为叶子节点,如果是叶子节点,直接输出vj
计算G(1),即为fx(S)。
第四步,根据第三步计算出的shapley value对该用户是否被推荐理财产品进行解释;若特征变量的shapley value为正,则判断该特征变量对用户预测值有正向影响;若为负,则判断是负向影响;若为0,则判断是没有影响;同时,shapley value的绝对值越大,则表示该特征变量对用户预测值影响程度越高。从而实现对银行理财产品推荐预测实现高精度高解释性,不仅可以给出对每个客户是否推荐的结果,同时还根据不同客户的情况给出推荐与不推荐的影响特征变量以及特征变量的影响程度。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (4)
1.一种基于理财产品推荐场景的用户预测解释Treeshap方法,其特征在于所述方法包括有以下步骤:
第一步,数据清洗与预处理,对过去N时期内有被推荐过目标理财产品的用户数据集进行清洗及预处理,包括一致性检查,清除重复数据、异常数据和无效数据,使用0填补缺失值,并做标准化、归一化处理,此外将类别变量转化为数值型变量;
第二步,对用户数据集拟合树模型,得到树模型的参数;
第三步,输入第二歩训练好的树模型和一个用户的特征数据,用Treeshap模型计算出该用户的每个特征的shapley value;
第四步,根据第三步计算出的shapley value对该用户是否被推荐理财产品进行解释;若特征变量的shapley value为正,则判断该特征变量对用户预测值有正向影响;若为负,则判断是负向影响;若为0,则判断是没有影响;同时,shapley value的绝对值越大,则表示该特征变量对用户预测值影响程度越高。
2.根据权利要求1所述的一种基于理财产品推荐场景的用户预测解释Treeshap方法,其特征在于:第一步中的N时期内有被推荐过目标理财产品的用户数据,指一年或两年内有被推荐过目标理财产品的用户数据。
3.根据权利要求1所述的一种基于理财产品推荐场景的用户预测解释Treeshap方法,其特征在于:在所述步骤一和步骤二之间还包含确定正负样本步骤,将目标理财产品推荐成功的客户判断为正样本,目标变量y=1;将目标理财产品推荐失败的客户判断为负样本,目标变量y=0。
4.根据权利要求3所述的一种基于理财产品推荐场景的用户预测解释Treeshap方法,其特征在于:有k个特征变量,分别表示为x1,…,xk;用户数据集中共有n个用户时;所述的步骤二用步骤一得到的用户数据集来训练梯度提升迭代决策树模型,用户数据集表示为
(xi,yi),i=1,2..n
其中xi=(x1i,x2i,...xki)
梯度提升迭代决策树模型的表现形式是:
其中T(x;Θm)表示第m棵决策树,Θm为决策树的参数,M是树的个数;
Rj是用户数据集(xi,yi)被分成的第j个区域,J是最终被分成的区域的个数;
采用前向分布算法,设定初始提升树f0(x)=0,
第m歩的模型为:fm(x)=fm-1(x)+T(x;Θm)
通过损失函数最小化确定下一棵树的参数:
理财产品推荐场景属于二分类数据集,这里的L是损失函数,表示为:
最后得到模型的参数:
所述步骤三,输入步骤二训练好的梯度提升迭代决策树模型和一个用户的特征数据,用Treeshap模型计算出该用户的每个特征的shapley value:
一个用户的特征数据为x=(x1,..,xk),对每一个特征计算它的shapley value;设定φi为第i个特征的shapley value,其计算公式如下:
其中F为特征的下标集合F={1,2,..k),则F\i是去除了第i个特征后的下标集合,为{1,2..i-1,i,..k),S是F\i的所有子集,|S|是集合s中的元素的个数,|S|!是|S|的阶乘fx(S)=E(f(X)|XS=xs)
X是数据集中的特征变量向量,是k维,X=(X1,..Xk);XS是根据集合S中的元素,抽出来的特征变量集合,|S|维,xS代表该用户中对应Xs的特征数据;f是步骤二拟合的梯度提升迭代决策模型;fx(S)代表当输入S对应的特征变量数据时,梯度提升迭代决策模型得到的预测值的期望值;
Treeshap模型中计算fx(S)的算法的方法如下:
输入:一个用户的特征数据x,除去第i个特征的特征变量集合的某一个子集S,树模型中的参数{v,a,b,t,r,d};v是一个q维向量,q是树模型中所有的节点数,包含所有节点的值,如果节点是叶子节点,则赋予叶子节点的输出值,如果节点不是叶子节点,这个值赋为“internal”;a是一个向量,包含每一个非叶子节点的左节点下标;b是一个向量,包含每一个非叶子节点的右节点下标;t是-个向量,包含每一个非叶子节点中的阈值;d是-个向量,包含所有非叶子节点分裂时使用的特征变量的下标;r是一个向量,包含在每个节点中,筛选出掉入下面子树中的样本;
j属于{1,2..q};定义函数G(j):
检测vj是否为叶子节点,如果是叶子节点,直接输出vj
返回G(1),即为fx(S)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010491919.0A CN111882441A (zh) | 2020-06-03 | 2020-06-03 | 一种基于理财产品推荐场景的用户预测解释Treeshap方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010491919.0A CN111882441A (zh) | 2020-06-03 | 2020-06-03 | 一种基于理财产品推荐场景的用户预测解释Treeshap方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111882441A true CN111882441A (zh) | 2020-11-03 |
Family
ID=73154218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010491919.0A Pending CN111882441A (zh) | 2020-06-03 | 2020-06-03 | 一种基于理财产品推荐场景的用户预测解释Treeshap方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111882441A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116432181A (zh) * | 2023-04-12 | 2023-07-14 | 上海计算机软件技术开发中心 | 一种安卓恶意软件检测方法、系统及电子设备 |
-
2020
- 2020-06-03 CN CN202010491919.0A patent/CN111882441A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116432181A (zh) * | 2023-04-12 | 2023-07-14 | 上海计算机软件技术开发中心 | 一种安卓恶意软件检测方法、系统及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111126386B (zh) | 场景文本识别中基于对抗学习的序列领域适应方法 | |
CN110929029A (zh) | 一种基于图卷积神经网络的文本分类方法及系统 | |
CN109615014B (zh) | 一种基于kl散度优化的3d物体数据分类系统与方法 | |
Fan et al. | Robust deep auto-encoding Gaussian process regression for unsupervised anomaly detection | |
CN108647226B (zh) | 一种基于变分自动编码器的混合推荐方法 | |
CN111461157A (zh) | 一种基于自学习的跨模态哈希检索方法 | |
CN112529638B (zh) | 基于用户分类和深度学习的服务需求动态预测方法及系统 | |
CN113822776B (zh) | 课程推荐方法、装置、设备及存储介质 | |
CN111583031A (zh) | 一种基于集成学习的申请评分卡模型建立方法 | |
CN110909125A (zh) | 推文级社会媒体谣言检测方法 | |
CN113449802A (zh) | 基于多粒度互信息最大化的图分类方法及装置 | |
Rasyid et al. | Review on clustering algorithms based on data type: towards the method for data combined of numeric-fuzzy linguistics | |
CN111882441A (zh) | 一种基于理财产品推荐场景的用户预测解释Treeshap方法 | |
CN117093849A (zh) | 一种基于自动生成模型的数字矩阵特征分析方法 | |
CN112286996A (zh) | 一种基于网络链接和节点属性信息的节点嵌入方法 | |
EP4285281A1 (en) | Annotation-efficient image anomaly detection | |
CN117036760A (zh) | 一种基于图对比学习的多视图聚类模型实现方法 | |
CN116050119A (zh) | 一种基于二元表示的正负图分割多视图聚类方法 | |
CN113420733B (zh) | 一种高效分布式大数据数据采集实现方法及系统 | |
CN116012903A (zh) | 一种人脸表情自动标注的方法及系统 | |
CN115841269A (zh) | 一种基于多维指标分析的期刊动态评价方法 | |
CN115240782A (zh) | 药物属性预测方法、装置、电子设备及存储介质 | |
CN115115920A (zh) | 一种数据训练方法及装置 | |
CN114943016A (zh) | 一种基于跨粒度联合训练的图对比表征学习方法及系统 | |
CN112765148A (zh) | 一种基于改进svm多分类的网络入侵检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |