CN115293827A

CN115293827A - 一种助力企业精细化运营的模型可解释性分析新方法

Info

Publication number: CN115293827A
Application number: CN202211225312.3A
Authority: CN
Inventors: 鲍钟峻; 吴小炎; 朱学帅; 赵涛
Original assignee: Whale Cloud Technology Co Ltd
Current assignee: Whale Cloud Technology Co Ltd
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2022-11-04

Abstract

本发明公开了一种助力企业精细化运营的模型可解释性分析新方法，包括以下步骤：S1、构建初始的原始场景机器学习模型；S2、对初始的原始场景机器学习模型进行效果验证；S3、输出该模型在测试集上的预测概率值；S4、设置模型解释样本的圈选阈值，筛选模型解释样本；S5、构建模型解释回归树模型；S6、输出模型解释回归树模型的拟合概率值；S7、对模型解释回归树模型进行效果测评；S8、输出最优版本的解释回归树模型的学习规则，利用学习规则反向解释原始场景机器学习模型的机器学习逻辑。本发明采用树回归模型对原始机器学习模型进行解释，实现以机器学习解释机器学习的模式输出机器学习逻辑，为企业精细化运营提供业务策略支撑。

Description

一种助力企业精细化运营的模型可解释性分析新方法

技术领域

本发明涉及企业运营领域，具体来说，涉及一种助力企业精细化运营的模型可解释性分析新方法。

背景技术

大数据时代背景下，精细化数字运营是企业运营的共同目标。公司通过各种业务规则及机器学习模型的搭建实现各类型场景的人、物及事件发生的可能性识别或预测，为企业风险预警、存量客户保有、竞品挖新等策略的制定提供数据支撑。

比如，公司通过自有的用户数据构建存量用户流失预警模型，以支撑其市场部制定相应的存量保有策略进行精细化的用户挽留；电力公司结合某区域的配农网线路负载状况、元器件使用年限、过往设备故障记录以及外部环境因素构建某区配电网故障预警模型，实时预警出可能发生故障的线路、台区以及设备，为其合理规划运维资源提供有力数据支撑。

在实际的生产运营中，各企业发现，相较于传统的分析方法，机器学习虽然可以显著提升人、物、事件识别或预警的准确率，但是机器学习算法就相当于一个黑盒子，企业无法从业务层面去解读模型的内部识别及预警机制，无法为企业具体精细化的运营策略做业务指导，这是各企业数字化运营转型路上的一大难点。

为了解决该问题，现有的技术方案主要有以下两个方面：

1、从业务角度出发，选择可解释性更强的业务规则模型而非机器学习模型进行模型构建，业务规则模型的高度易解读性可以支撑企业的精细化策略制定；

2、以模型拟合输出的入模变量权重或者重要性评估值作为业务理解的指标基础，然后基于被圈选或预警的人、物、事在已选评估指标上的数值进行业务分析，实现对机器学习模型的反向解读。

现有技术方案无论是从业务规则角度建模还是以“机器学习+业务规则”机制建模均可助力企业实现模型构建至模型结果分析的全流程贯通，助力企业更精细、更灵活、更便捷的应用模型结果。但是相对于当前数据挖掘技术的日益成熟且高效、建模技巧日益繁多，简单的业务规则模型已经无法有效的解释高集成化、融合化的模型建模结果，降低了模型结果的最终转化率；且当前现有的方案中模型解释部分主要还是依靠业务经验为主，通过人力的汇总分析进而得出带有浓厚主观倾向的模型解释，其无法真正全面客观的从数据层面理解模型的学习机理。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出一种助力企业精细化运营的模型可解释性分析新方法，以克服现有相关技术所存在的上述技术问题。

为此，本发明采用的具体技术方案如下：

一种助力企业精细化运营的模型可解释性分析新方法，该助力企业精细化运营的模型可解释性分析新方法包括以下步骤：

S1、企业按照具体的场景目标选择相应的入模指标及相匹配的模型算法构建初始的原始场景机器学习模型；

S2、利用预设的模型测试集对初始的原始场景机器学习模型进行效果验证，得到原始场景机器学习模型；

S3、利用原始场景机器学习模型对模型测试集进行模型推理预测，并输出该模型在测试集上的预测概率值；

S4、设置模型解释样本的圈选阈值，筛选模型解释样本；

S5、以回归树模型作为模型解释算法，并基于入模指标及预测概率值构建模型解释回归树模型；

S6、基于模型解释回归树模型对圈选测试集样本进行模型预测，输出该部分圈选测试集样本的模型解释回归树模型的拟合概率值；

S7、引入平均绝对误差MAE作为模型效果评估策略，并对模型解释回归树模型进行效果测评；

S8、输出最优版本的解释回归树模型的学习规则，并利用学习规则反向解释原始场景机器学习模型的机器学习逻辑。

进一步的，所述原始场景机器学习模型采用原始的建模数据集构建得到，且原始的建模数据集包括模型建模集及模型测试集；

其中，所述模型建模集用于构建初始的原始场景机器学习模型；

所述模型测试集用于初始的原始场景机器学习模型的效果评估及模型解释树回归算法的损失函数的构建。

进一步的，所述利用预设的模型测试集对初始的原始场景机器学习模型进行效果验证时的模型效果评估方法包括以下步骤：

构建模型预测混淆矩阵，并通过计算混淆矩阵的精准率、查全率以及F1_Score对模型性能进行定量评估。

进一步的，所述混淆矩阵的精准率的计算公式为：

式中，TP表示实际为正样本且预测也为正样本的用户数，FP表示实际为负样本而预测为正样本的用户数。

进一步的，所述查全率的计算公式为：

式中，FN表示实际为负样本而预测也为负样本的用户数。

进一步的，所述F1_Score的计算公式为：

式中，Precision表示混淆矩阵的精准率，Recall表示混淆矩阵的查全率。

进一步的，所述以回归树模型作为模型解释算法，并基于入模指标及预测概率值构建模型解释回归树模型包括以下步骤：

S51、选取原始场景机器学习模型的入模指标作为模型解释回归树模型的入模指标；

S52、选取原始场景机器学习模型在测试集上的预测概率值作为模型解释回归树模型的目标变量；

S53、以回归树模型作为模型解释算法，并结合入模指标及预测概率值构建模型解释回归树模型；

其中，所述回归树模型的结构由根节点、内部节点、各分支结构及叶节点组成，且每个所述叶节点中包含若干具有相同特征的样本用户。

进一步的，所述回归树模型的构建包括以下步骤：

根据数据集上的所有特征，遍历每个特征下所有可能的取值或者切分点，并将数据集划分成两个部分；

分别计算两个部分的平方误差和，选择最小的平方误差对应的特征及分割点生成两个子节点；

对于所述两个子节点递归调用上述两个步骤，直到满足停止条件。

进一步的，所述引入平均绝对误差MAE作为模型效果评估策略，并对模型解释回归树模型进行效果测评包括以下步骤；

S71、计算原始场景机器学习模型在测试集上的预测概率值与模型解释回归树模型的拟合概率值之间的误差量化值；

S72、判断平均绝对误差MAE是否为最小值，若是，则该模型解释回归树模型为最佳解释模型；若否，则调整回归树入模超参并重新执行步骤S5-步骤S7。

进一步的，所述平均绝对误差MAE的计算公式为：

式中，

表示圈选的待解释样本总数，

表示原始场景机器学习模型在测试集样本上的推理概率值，

表示模型解释回归树模型在测试集样本上的推理概率值。

本发明的有益效果为：

1、本发明采用树回归模型对原始机器学习模型进行解释，实现以机器学习解释机器学习的模式输出机器学习逻辑，为企业精细化运营提供业务策略支撑，且本发明中的模型解释模式可以为企业释放大量的人力资源，实现有人力转机器学习的全链条跨越。

2、本发明从企业运营角度出发，充分考量企业运营的痛点及需求，在全链条机器学习执行的情况下设置了人工干预的窗口，即人工选择待解释样本，样本越精细模型解释输出的判断逻辑越准确。

3、本发明适用于各种机器学习模型构建及应用场景，可对各种业务场景机器学习模型进行反向解释，进而将原先的机器学习黑盒转化为易于理解的模型学习规则，实现支撑企业的精细化运营策略制定的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种助力企业精细化运营的模型可解释性分析新方法的流程图；

图2是根据本发明实施例的一种助力企业精细化运营的模型可解释性分析新方法的原理示意图；

图3是根据本发明实施例的一种助力企业精细化运营的模型可解释性分析新方法中模型评估混淆矩阵图；

图4是根据本发明实施例的一种助力企业精细化运营的模型可解释性分析新方法回归树模型结构示意图之一；

图5是根据本发明实施例的一种助力企业精细化运营的模型可解释性分析新方法回归树模型结构示意图之二；

图6是根据本发明实施例的一种助力企业精细化运营的模型可解释性分析新方法中模型解释回归树模型输出的可视化规则示例图。

具体实施方式

为进一步说明各实施例，本发明提供有附图，这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理，配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点，图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

根据本发明的实施例，提供了一种助力企业精细化运营的模型可解释性分析新方法。本方法摒弃了现有技术中基于业务经验通过人工汇总进行模型解释的环节，创新性的提出了树回归模型进行模型解释的思想，用“模型拟合”输出来解释“模型输出”。此处的“模型拟合”是指树回归模型的拟合，其为一个反向拟合学习的过程，树回归模型可支撑树状模型学习规则的输出，其拟合过程直观且易于理解。待解释的“模型输出”是指原始机器学习模型学习后的输出结果；本方法提出的树回归模型解释环节支撑待解释圈选清单预筛选能力，通过设定概率阈值的方式选择待解释的目标群体进行模型学习规则解释；树回归模型进行模型解释的过程中可进行反向剪枝操作。按照输入的需剪枝节点阈值进行反向剪枝，保留模型学习的主要规则流程，增强树回归模型输出规则的可理解性以及准确性。

现结合附图和具体实施方式对本发明进一步说明，如图1-图6所示，根据本发明实施例的助力企业精细化运营的模型可解释性分析新方法，该助力企业精细化运营的模型可解释性分析新方法包括以下步骤：

其中，所述原始场景机器学习模型采用原始的建模数据集构建得到，且原始的建模数据集包括模型建模集及模型测试集；

其中，原始场景机器学习模型的效果测试方法通常与该建模算法类别相关，其中分类算法是企业在进行客户精细化运营过程中经常使用的建模算法，比如客户构建用户流失预警模型、潜在用户识别模型、高价值用户识别模型以及用户健康度评估模型等。图2原理图的算法库中提及的LightGBM、Xgboost、GBDT以及随机森林等均为常用的分类算法。

所述利用预设的模型测试集对初始的原始场景机器学习模型进行效果验证时的模型效果评估方法包括以下步骤：

构建模型预测混淆矩阵，并通过计算混淆矩阵的精准率、查全率以及F1_Score对模型性能进行定量评估（模型有标签测试集的混淆矩阵构建样式如图3所示，图中，首字母T、F，表示模型是否预测正确，T表示正确；字母N、P，表示预测成了阴性或是阳性，一般认为1是阳性；FN表示实际为负样本而预测也为负样本的用户数），当模型测试集的模型评估查准、查全以及F1_Score结果均较为理想则模型测试通过。

具体的，所述混淆矩阵的精准率的计算公式为：

所述查全率的计算公式为：

式中，FN表示实际为负样本而预测也为负样本的用户数。

所述F1_Score的计算公式为：

S4、设置模型解释样本的圈选阈值，筛选模型解释样本；

在实际的生产运营过程中，企业更关注的是原始模型评估出的可能具有高概率/高风险的样本群其是如何被模型学习识别出来的，因此该提案中提及的模型解释算法环节可进行预设模型解释样本的圈选阈值，比如概率值大于0.8；

本实施例中，模型解释回归树模型输入有两部分，分别为S1步骤中的原始入模指标以及S3步骤输出的推理概率；模型建模样本为S4步骤中筛选后形成的“圈选测试集样本”；回归树模型本质上即为回归决策时模型，其可支撑输出模型推理的业务逻辑；综合上面几条说明，其实“模型解释回归树模型”就是用原始场景模型的入模指标作为回归树的入模指标，用原始模型的推理概率作为回归树模型的目标变量，利用回归树模型可输出判断业务逻辑的属性对原始模型的推理过程进行业务解释并输出。

其中，所述以回归树模型作为模型解释算法，并基于入模指标及预测概率值构建模型解释回归树模型包括以下步骤：

具体的，如图4-图5所示，所述回归树模型结构由根节点、内部节点、各分支结构以及叶节点组成，每个页节点中包含若干具有相同特征的样本用户，回归树在输出每个叶节点样本的同时也支撑输出每个叶节点用户群的识别规则链条，具体参考图5示意图，图中的x及y分别表示用户的特征变量，比如年龄、性别等。回归树模型构建的核心内容即节点划分最优属性的选择。不同的回归树其选择最优属性的标准不一样，其中CART树以基尼系数来选择最优分裂属性。

具体回归树建模流程见面流程说明（假设现有数据集D）：

Step1：考虑数据集D上的所有特征j,遍历每一个特征下所有可能的取值或者切分点s，将数据集D划分成两部分D₁和D₂；

Step2：分别计算D₁和D₂的平方误差和，选择最小的平方误差对应的特征及分割点生成两个子节点（将数据集划分为两部分）；

Step3：对上述两个子节点递归调用步骤Step1和Step2，直到满足停止条件。停止条件为构建回归树算法前的预设条件（模型超参），比如回归树深度、叶子节点中至少包含的样本数等。

其中，“圈选测试集样本”即为S2中的“模型测试集”的子集。基于S3中输出的模型测试集在原始场景模型上的推理概率以及S4设置的圈选阈值，筛选出模型测试集原始场景推理概率大于圈选阈值的子客户群作为此S6中的“圈选测试集样本”。

其中，所述引入平均绝对误差MAE作为模型效果评估策略，并对模型解释回归树模型进行效果测评包括以下步骤；

具体的，所述平均绝对误差MAE的计算公式为：

式中，

表示圈选的待解释样本总数，

表示原始场景机器学习模型在测试集样本上的推理概率值，

表示模型解释回归树模型在测试集样本上的推理概率值。

S72、判断平均绝对误差MAE是否为最小值，若是，则该模型解释回归树模型为最佳解释模型（当且仅当该MAE值取得最小值时则该模型解释回归树模型为最佳解释模型）；若否，则调整回归树入模超参并重新执行步骤S5-步骤S7。

具体输出形式见图6示例。由于模型解释回归树模型的入模指标与原始场景模型构建的入模指标相一致，因此最优版本的模型解释树回归模型输出的模型学习规则便可以很好的反向解释原始场景模型的机器学习逻辑。

综上所述，借助于本发明的上述技术方案，本发明采用树回归模型对原始机器学习模型进行解释，实现以机器学习解释机器学习的模式输出机器学习逻辑，为企业精细化运营提供业务策略支撑，且本发明中的模型解释模式可以为企业释放大量的人力资源，实现有人力转机器学习的全链条跨越。

此外，本发明从企业运营角度出发，充分考量企业运营的痛点及需求，在全链条机器学习执行的情况下设置了人工干预的窗口，即人工选择待解释样本，样本越精细模型解释输出的判断逻辑越准确。

此外，本发明适用于各种机器学习模型构建及应用场景，可对各种业务场景机器学习模型进行反向解释，进而将原先的机器学习黑盒转化为易于理解的模型学习规则，实现支撑企业的精细化运营策略制定的目的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种助力企业精细化运营的模型可解释性分析新方法，其特征在于，该助力企业精细化运营的模型可解释性分析新方法包括以下步骤：

S4、设置模型解释样本的圈选阈值，筛选模型解释样本；

2.根据权利要求1所述的一种助力企业精细化运营的模型可解释性分析新方法，其特征在于，所述原始场景机器学习模型采用原始的建模数据集构建得到，且原始的建模数据集包括模型建模集及模型测试集；

3.根据权利要求1所述的一种助力企业精细化运营的模型可解释性分析新方法，其特征在于，所述利用预设的模型测试集对初始的原始场景机器学习模型进行效果验证时的模型效果评估方法包括以下步骤：

4.根据权利要求3所述的一种助力企业精细化运营的模型可解释性分析新方法，其特征在于，所述混淆矩阵的精准率的计算公式为：

5.根据权利要求4所述的一种助力企业精细化运营的模型可解释性分析新方法，其特征在于，所述查全率的计算公式为：

式中，FN表示实际为负样本而预测也为负样本的用户数。

6.根据权利要求5所述的一种助力企业精细化运营的模型可解释性分析新方法，其特征在于，所述F1_Score的计算公式为：

7.根据权利要求1所述的一种助力企业精细化运营的模型可解释性分析新方法，其特征在于，所述以回归树模型作为模型解释算法，并基于入模指标及预测概率值构建模型解释回归树模型包括以下步骤：

8.根据权利要求7所述的一种助力企业精细化运营的模型可解释性分析新方法，其特征在于，所述回归树模型的构建包括以下步骤：

9.根据权利要求1所述的一种助力企业精细化运营的模型可解释性分析新方法，其特征在于，所述引入平均绝对误差MAE作为模型效果评估策略，并对模型解释回归树模型进行效果测评包括以下步骤；

10.根据权利要求9所述的一种助力企业精细化运营的模型可解释性分析新方法，其特征在于，所述平均绝对误差MAE的计算公式为：

式中，

表示圈选的待解释样本总数，

表示原始场景机器学习模型在测试集样本上的推理概率值，

表示模型解释回归树模型在测试集样本上的推理概率值。