CN115293827A - 一种助力企业精细化运营的模型可解释性分析新方法 - Google Patents
一种助力企业精细化运营的模型可解释性分析新方法 Download PDFInfo
- Publication number
- CN115293827A CN115293827A CN202211225312.3A CN202211225312A CN115293827A CN 115293827 A CN115293827 A CN 115293827A CN 202211225312 A CN202211225312 A CN 202211225312A CN 115293827 A CN115293827 A CN 115293827A
- Authority
- CN
- China
- Prior art keywords
- model
- machine learning
- interpretation
- regression tree
- enterprise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 29
- 238000010801 machine learning Methods 0.000 claims abstract description 77
- 238000012360 testing method Methods 0.000 claims abstract description 47
- 230000000694 effects Effects 0.000 claims abstract description 27
- 238000012216 screening Methods 0.000 claims abstract description 7
- 238000012795 verification Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 22
- 238000004422 calculation algorithm Methods 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000013209 evaluation strategy Methods 0.000 claims description 6
- 150000001875 compounds Chemical class 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 3
- 238000013486 operation strategy Methods 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Game Theory and Decision Science (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种助力企业精细化运营的模型可解释性分析新方法,包括以下步骤:S1、构建初始的原始场景机器学习模型;S2、对初始的原始场景机器学习模型进行效果验证;S3、输出该模型在测试集上的预测概率值;S4、设置模型解释样本的圈选阈值,筛选模型解释样本;S5、构建模型解释回归树模型;S6、输出模型解释回归树模型的拟合概率值;S7、对模型解释回归树模型进行效果测评;S8、输出最优版本的解释回归树模型的学习规则,利用学习规则反向解释原始场景机器学习模型的机器学习逻辑。本发明采用树回归模型对原始机器学习模型进行解释,实现以机器学习解释机器学习的模式输出机器学习逻辑,为企业精细化运营提供业务策略支撑。
Description
技术领域
本发明涉及企业运营领域,具体来说,涉及一种助力企业精细化运营的模型可解释性分析新方法。
背景技术
大数据时代背景下,精细化数字运营是企业运营的共同目标。公司通过各种业务规则及机器学习模型的搭建实现各类型场景的人、物及事件发生的可能性识别或预测,为企业风险预警、存量客户保有、竞品挖新等策略的制定提供数据支撑。
比如,公司通过自有的用户数据构建存量用户流失预警模型,以支撑其市场部制定相应的存量保有策略进行精细化的用户挽留;电力公司结合某区域的配农网线路负载状况、元器件使用年限、过往设备故障记录以及外部环境因素构建某区配电网故障预警模型,实时预警出可能发生故障的线路、台区以及设备,为其合理规划运维资源提供有力数据支撑。
在实际的生产运营中,各企业发现,相较于传统的分析方法,机器学习虽然可以显著提升人、物、事件识别或预警的准确率,但是机器学习算法就相当于一个黑盒子,企业无法从业务层面去解读模型的内部识别及预警机制,无法为企业具体精细化的运营策略做业务指导,这是各企业数字化运营转型路上的一大难点。
为了解决该问题,现有的技术方案主要有以下两个方面:
1、从业务角度出发,选择可解释性更强的业务规则模型而非机器学习模型进行模型构建,业务规则模型的高度易解读性可以支撑企业的精细化策略制定;
2、以模型拟合输出的入模变量权重或者重要性评估值作为业务理解的指标基础,然后基于被圈选或预警的人、物、事在已选评估指标上的数值进行业务分析,实现对机器学习模型的反向解读。
现有技术方案无论是从业务规则角度建模还是以“机器学习+业务规则”机制建模均可助力企业实现模型构建至模型结果分析的全流程贯通,助力企业更精细、更灵活、更便捷的应用模型结果。但是相对于当前数据挖掘技术的日益成熟且高效、建模技巧日益繁多,简单的业务规则模型已经无法有效的解释高集成化、融合化的模型建模结果,降低了模型结果的最终转化率;且当前现有的方案中模型解释部分主要还是依靠业务经验为主,通过人力的汇总分析进而得出带有浓厚主观倾向的模型解释,其无法真正全面客观的从数据层面理解模型的学习机理。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种助力企业精细化运营的模型可解释性分析新方法,以克服现有相关技术所存在的上述技术问题。
为此,本发明采用的具体技术方案如下:
一种助力企业精细化运营的模型可解释性分析新方法,该助力企业精细化运营的模型可解释性分析新方法包括以下步骤:
S1、企业按照具体的场景目标选择相应的入模指标及相匹配的模型算法构建初始的原始场景机器学习模型;
S2、利用预设的模型测试集对初始的原始场景机器学习模型进行效果验证,得到原始场景机器学习模型;
S3、利用原始场景机器学习模型对模型测试集进行模型推理预测,并输出该模型在测试集上的预测概率值;
S4、设置模型解释样本的圈选阈值,筛选模型解释样本;
S5、以回归树模型作为模型解释算法,并基于入模指标及预测概率值构建模型解释回归树模型;
S6、基于模型解释回归树模型对圈选测试集样本进行模型预测,输出该部分圈选测试集样本的模型解释回归树模型的拟合概率值;
S7、引入平均绝对误差MAE作为模型效果评估策略,并对模型解释回归树模型进行效果测评;
S8、输出最优版本的解释回归树模型的学习规则,并利用学习规则反向解释原始场景机器学习模型的机器学习逻辑。
进一步的,所述原始场景机器学习模型采用原始的建模数据集构建得到,且原始的建模数据集包括模型建模集及模型测试集;
其中,所述模型建模集用于构建初始的原始场景机器学习模型;
所述模型测试集用于初始的原始场景机器学习模型的效果评估及模型解释树回归算法的损失函数的构建。
进一步的,所述利用预设的模型测试集对初始的原始场景机器学习模型进行效果验证时的模型效果评估方法包括以下步骤:
构建模型预测混淆矩阵,并通过计算混淆矩阵的精准率、查全率以及F1_Score对模型性能进行定量评估。
进一步的,所述混淆矩阵的精准率的计算公式为:
式中,TP表示实际为正样本且预测也为正样本的用户数,FP表示实际为负样本而预测为正样本的用户数。
进一步的,所述查全率的计算公式为:
式中,FN表示实际为负样本而预测也为负样本的用户数。
进一步的,所述F1_Score的计算公式为:
式中,Precision表示混淆矩阵的精准率,Recall表示混淆矩阵的查全率。
进一步的,所述以回归树模型作为模型解释算法,并基于入模指标及预测概率值构建模型解释回归树模型包括以下步骤:
S51、选取原始场景机器学习模型的入模指标作为模型解释回归树模型的入模指标;
S52、选取原始场景机器学习模型在测试集上的预测概率值作为模型解释回归树模型的目标变量;
S53、以回归树模型作为模型解释算法,并结合入模指标及预测概率值构建模型解释回归树模型;
其中,所述回归树模型的结构由根节点、内部节点、各分支结构及叶节点组成,且每个所述叶节点中包含若干具有相同特征的样本用户。
进一步的,所述回归树模型的构建包括以下步骤:
根据数据集上的所有特征,遍历每个特征下所有可能的取值或者切分点,并将数据集划分成两个部分;
分别计算两个部分的平方误差和,选择最小的平方误差对应的特征及分割点生成两个子节点;
对于所述两个子节点递归调用上述两个步骤,直到满足停止条件。
进一步的,所述引入平均绝对误差MAE作为模型效果评估策略,并对模型解释回归树模型进行效果测评包括以下步骤;
S71、计算原始场景机器学习模型在测试集上的预测概率值与模型解释回归树模型的拟合概率值之间的误差量化值;
S72、判断平均绝对误差MAE是否为最小值,若是,则该模型解释回归树模型为最佳解释模型;若否,则调整回归树入模超参并重新执行步骤S5-步骤S7。
进一步的,所述平均绝对误差MAE的计算公式为:
本发明的有益效果为:
1、本发明采用树回归模型对原始机器学习模型进行解释,实现以机器学习解释机器学习的模式输出机器学习逻辑,为企业精细化运营提供业务策略支撑,且本发明中的模型解释模式可以为企业释放大量的人力资源,实现有人力转机器学习的全链条跨越。
2、本发明从企业运营角度出发,充分考量企业运营的痛点及需求,在全链条机器学习执行的情况下设置了人工干预的窗口,即人工选择待解释样本,样本越精细模型解释输出的判断逻辑越准确。
3、本发明适用于各种机器学习模型构建及应用场景,可对各种业务场景机器学习模型进行反向解释,进而将原先的机器学习黑盒转化为易于理解的模型学习规则,实现支撑企业的精细化运营策略制定的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种助力企业精细化运营的模型可解释性分析新方法的流程图;
图2是根据本发明实施例的一种助力企业精细化运营的模型可解释性分析新方法的原理示意图;
图3是根据本发明实施例的一种助力企业精细化运营的模型可解释性分析新方法中模型评估混淆矩阵图;
图4是根据本发明实施例的一种助力企业精细化运营的模型可解释性分析新方法回归树模型结构示意图之一;
图5是根据本发明实施例的一种助力企业精细化运营的模型可解释性分析新方法回归树模型结构示意图之二;
图6是根据本发明实施例的一种助力企业精细化运营的模型可解释性分析新方法中模型解释回归树模型输出的可视化规则示例图。
具体实施方式
为进一步说明各实施例,本发明提供有附图,这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点,图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
根据本发明的实施例,提供了一种助力企业精细化运营的模型可解释性分析新方法。本方法摒弃了现有技术中基于业务经验通过人工汇总进行模型解释的环节,创新性的提出了树回归模型进行模型解释的思想,用“模型拟合”输出来解释“模型输出”。此处的“模型拟合”是指树回归模型的拟合,其为一个反向拟合学习的过程,树回归模型可支撑树状模型学习规则的输出,其拟合过程直观且易于理解。待解释的“模型输出”是指原始机器学习模型学习后的输出结果;本方法提出的树回归模型解释环节支撑待解释圈选清单预筛选能力,通过设定概率阈值的方式选择待解释的目标群体进行模型学习规则解释;树回归模型进行模型解释的过程中可进行反向剪枝操作。按照输入的需剪枝节点阈值进行反向剪枝,保留模型学习的主要规则流程,增强树回归模型输出规则的可理解性以及准确性。
现结合附图和具体实施方式对本发明进一步说明,如图1-图6所示,根据本发明实施例的助力企业精细化运营的模型可解释性分析新方法,该助力企业精细化运营的模型可解释性分析新方法包括以下步骤:
S1、企业按照具体的场景目标选择相应的入模指标及相匹配的模型算法构建初始的原始场景机器学习模型;
其中,所述原始场景机器学习模型采用原始的建模数据集构建得到,且原始的建模数据集包括模型建模集及模型测试集;
其中,所述模型建模集用于构建初始的原始场景机器学习模型;
所述模型测试集用于初始的原始场景机器学习模型的效果评估及模型解释树回归算法的损失函数的构建。
S2、利用预设的模型测试集对初始的原始场景机器学习模型进行效果验证,得到原始场景机器学习模型;
其中,原始场景机器学习模型的效果测试方法通常与该建模算法类别相关,其中分类算法是企业在进行客户精细化运营过程中经常使用的建模算法,比如客户构建用户流失预警模型、潜在用户识别模型、高价值用户识别模型以及用户健康度评估模型等。图2原理图的算法库中提及的LightGBM、Xgboost、GBDT以及随机森林等均为常用的分类算法。
所述利用预设的模型测试集对初始的原始场景机器学习模型进行效果验证时的模型效果评估方法包括以下步骤:
构建模型预测混淆矩阵,并通过计算混淆矩阵的精准率、查全率以及F1_Score对模型性能进行定量评估(模型有标签测试集的混淆矩阵构建样式如图3所示,图中,首字母T、F,表示模型是否预测正确,T表示正确;字母N、P,表示预测成了阴性或是阳性,一般认为1是阳性;FN表示实际为负样本而预测也为负样本的用户数),当模型测试集的模型评估查准、查全以及F1_Score结果均较为理想则模型测试通过。
具体的,所述混淆矩阵的精准率的计算公式为:
式中,TP表示实际为正样本且预测也为正样本的用户数,FP表示实际为负样本而预测为正样本的用户数。
所述查全率的计算公式为:
式中,FN表示实际为负样本而预测也为负样本的用户数。
所述F1_Score的计算公式为:
式中,Precision表示混淆矩阵的精准率,Recall表示混淆矩阵的查全率。
S3、利用原始场景机器学习模型对模型测试集进行模型推理预测,并输出该模型在测试集上的预测概率值;
S4、设置模型解释样本的圈选阈值,筛选模型解释样本;
在实际的生产运营过程中,企业更关注的是原始模型评估出的可能具有高概率/高风险的样本群其是如何被模型学习识别出来的,因此该提案中提及的模型解释算法环节可进行预设模型解释样本的圈选阈值,比如概率值大于0.8;
S5、以回归树模型作为模型解释算法,并基于入模指标及预测概率值构建模型解释回归树模型;
本实施例中,模型解释回归树模型输入有两部分,分别为S1步骤中的原始入模指标以及S3步骤输出的推理概率;模型建模样本为S4步骤中筛选后形成的“圈选测试集样本”;回归树模型本质上即为回归决策时模型,其可支撑输出模型推理的业务逻辑;综合上面几条说明,其实“模型解释回归树模型”就是用原始场景模型的入模指标作为回归树的入模指标,用原始模型的推理概率作为回归树模型的目标变量,利用回归树模型可输出判断业务逻辑的属性对原始模型的推理过程进行业务解释并输出。
其中,所述以回归树模型作为模型解释算法,并基于入模指标及预测概率值构建模型解释回归树模型包括以下步骤:
S51、选取原始场景机器学习模型的入模指标作为模型解释回归树模型的入模指标;
S52、选取原始场景机器学习模型在测试集上的预测概率值作为模型解释回归树模型的目标变量;
S53、以回归树模型作为模型解释算法,并结合入模指标及预测概率值构建模型解释回归树模型;
具体的,如图4-图5所示,所述回归树模型结构由根节点、内部节点、各分支结构以及叶节点组成,每个页节点中包含若干具有相同特征的样本用户,回归树在输出每个叶节点样本的同时也支撑输出每个叶节点用户群的识别规则链条,具体参考图5示意图,图中的x及y分别表示用户的特征变量,比如年龄、性别等。回归树模型构建的核心内容即节点划分最优属性的选择。不同的回归树其选择最优属性的标准不一样,其中CART树以基尼系数来选择最优分裂属性。
具体回归树建模流程见面流程说明(假设现有数据集D):
Step1:考虑数据集D上的所有特征j,遍历每一个特征下所有可能的取值或者切分点s,将数据集D划分成两部分D1和D2;
Step2:分别计算D1和D2的平方误差和,选择最小的平方误差对应的特征及分割点生成两个子节点(将数据集划分为两部分);
Step3:对上述两个子节点递归调用步骤Step1和Step2,直到满足停止条件。停止条件为构建回归树算法前的预设条件(模型超参),比如回归树深度、叶子节点中至少包含的样本数等。
S6、基于模型解释回归树模型对圈选测试集样本进行模型预测,输出该部分圈选测试集样本的模型解释回归树模型的拟合概率值;
其中,“圈选测试集样本”即为S2中的“模型测试集”的子集。基于S3中输出的模型测试集在原始场景模型上的推理概率以及S4设置的圈选阈值,筛选出模型测试集原始场景推理概率大于圈选阈值的子客户群作为此S6中的“圈选测试集样本”。
S7、引入平均绝对误差MAE作为模型效果评估策略,并对模型解释回归树模型进行效果测评;
其中,所述引入平均绝对误差MAE作为模型效果评估策略,并对模型解释回归树模型进行效果测评包括以下步骤;
S71、计算原始场景机器学习模型在测试集上的预测概率值与模型解释回归树模型的拟合概率值之间的误差量化值;
具体的,所述平均绝对误差MAE的计算公式为:
S72、判断平均绝对误差MAE是否为最小值,若是,则该模型解释回归树模型为最佳解释模型(当且仅当该MAE值取得最小值时则该模型解释回归树模型为最佳解释模型);若否,则调整回归树入模超参并重新执行步骤S5-步骤S7。
S8、输出最优版本的解释回归树模型的学习规则,并利用学习规则反向解释原始场景机器学习模型的机器学习逻辑。
具体输出形式见图6示例。由于模型解释回归树模型的入模指标与原始场景模型构建的入模指标相一致,因此最优版本的模型解释树回归模型输出的模型学习规则便可以很好的反向解释原始场景模型的机器学习逻辑。
综上所述,借助于本发明的上述技术方案,本发明采用树回归模型对原始机器学习模型进行解释,实现以机器学习解释机器学习的模式输出机器学习逻辑,为企业精细化运营提供业务策略支撑,且本发明中的模型解释模式可以为企业释放大量的人力资源,实现有人力转机器学习的全链条跨越。
此外,本发明从企业运营角度出发,充分考量企业运营的痛点及需求,在全链条机器学习执行的情况下设置了人工干预的窗口,即人工选择待解释样本,样本越精细模型解释输出的判断逻辑越准确。
此外,本发明适用于各种机器学习模型构建及应用场景,可对各种业务场景机器学习模型进行反向解释,进而将原先的机器学习黑盒转化为易于理解的模型学习规则,实现支撑企业的精细化运营策略制定的目的。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种助力企业精细化运营的模型可解释性分析新方法,其特征在于,该助力企业精细化运营的模型可解释性分析新方法包括以下步骤:
S1、企业按照具体的场景目标选择相应的入模指标及相匹配的模型算法构建初始的原始场景机器学习模型;
S2、利用预设的模型测试集对初始的原始场景机器学习模型进行效果验证,得到原始场景机器学习模型;
S3、利用原始场景机器学习模型对模型测试集进行模型推理预测,并输出该模型在测试集上的预测概率值;
S4、设置模型解释样本的圈选阈值,筛选模型解释样本;
S5、以回归树模型作为模型解释算法,并基于入模指标及预测概率值构建模型解释回归树模型;
S6、基于模型解释回归树模型对圈选测试集样本进行模型预测,输出该部分圈选测试集样本的模型解释回归树模型的拟合概率值;
S7、引入平均绝对误差MAE作为模型效果评估策略,并对模型解释回归树模型进行效果测评;
S8、输出最优版本的解释回归树模型的学习规则,并利用学习规则反向解释原始场景机器学习模型的机器学习逻辑。
2.根据权利要求1所述的一种助力企业精细化运营的模型可解释性分析新方法,其特征在于,所述原始场景机器学习模型采用原始的建模数据集构建得到,且原始的建模数据集包括模型建模集及模型测试集;
其中,所述模型建模集用于构建初始的原始场景机器学习模型;
所述模型测试集用于初始的原始场景机器学习模型的效果评估及模型解释树回归算法的损失函数的构建。
3.根据权利要求1所述的一种助力企业精细化运营的模型可解释性分析新方法,其特征在于,所述利用预设的模型测试集对初始的原始场景机器学习模型进行效果验证时的模型效果评估方法包括以下步骤:
构建模型预测混淆矩阵,并通过计算混淆矩阵的精准率、查全率以及F1_Score对模型性能进行定量评估。
7.根据权利要求1所述的一种助力企业精细化运营的模型可解释性分析新方法,其特征在于,所述以回归树模型作为模型解释算法,并基于入模指标及预测概率值构建模型解释回归树模型包括以下步骤:
S51、选取原始场景机器学习模型的入模指标作为模型解释回归树模型的入模指标;
S52、选取原始场景机器学习模型在测试集上的预测概率值作为模型解释回归树模型的目标变量;
S53、以回归树模型作为模型解释算法,并结合入模指标及预测概率值构建模型解释回归树模型;
其中,所述回归树模型的结构由根节点、内部节点、各分支结构及叶节点组成,且每个所述叶节点中包含若干具有相同特征的样本用户。
8.根据权利要求7所述的一种助力企业精细化运营的模型可解释性分析新方法,其特征在于,所述回归树模型的构建包括以下步骤:
根据数据集上的所有特征,遍历每个特征下所有可能的取值或者切分点,并将数据集划分成两个部分;
分别计算两个部分的平方误差和,选择最小的平方误差对应的特征及分割点生成两个子节点;
对于所述两个子节点递归调用上述两个步骤,直到满足停止条件。
9.根据权利要求1所述的一种助力企业精细化运营的模型可解释性分析新方法,其特征在于,所述引入平均绝对误差MAE作为模型效果评估策略,并对模型解释回归树模型进行效果测评包括以下步骤;
S71、计算原始场景机器学习模型在测试集上的预测概率值与模型解释回归树模型的拟合概率值之间的误差量化值;
S72、判断平均绝对误差MAE是否为最小值,若是,则该模型解释回归树模型为最佳解释模型;若否,则调整回归树入模超参并重新执行步骤S5-步骤S7。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211225312.3A CN115293827A (zh) | 2022-10-09 | 2022-10-09 | 一种助力企业精细化运营的模型可解释性分析新方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211225312.3A CN115293827A (zh) | 2022-10-09 | 2022-10-09 | 一种助力企业精细化运营的模型可解释性分析新方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115293827A true CN115293827A (zh) | 2022-11-04 |
Family
ID=83833783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211225312.3A Pending CN115293827A (zh) | 2022-10-09 | 2022-10-09 | 一种助力企业精细化运营的模型可解释性分析新方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115293827A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115828772A (zh) * | 2023-02-14 | 2023-03-21 | 科大智能物联技术股份有限公司 | 一种融合正向机理与机器学习的钢坯温度的快速计算方法 |
-
2022
- 2022-10-09 CN CN202211225312.3A patent/CN115293827A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115828772A (zh) * | 2023-02-14 | 2023-03-21 | 科大智能物联技术股份有限公司 | 一种融合正向机理与机器学习的钢坯温度的快速计算方法 |
CN115828772B (zh) * | 2023-02-14 | 2023-05-09 | 科大智能物联技术股份有限公司 | 一种融合正向机理与机器学习的钢坯温度的快速计算方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110288137B (zh) | 路网级道路基础设施结构综合养护决策方法及系统 | |
JPH05342191A (ja) | 経済時系列データ予測及び解析システム | |
Pratt et al. | Employee attrition estimation using random forest algorithm | |
CN110705873A (zh) | 一种新型的配电网运行状态画像分析方法 | |
CN112734154B (zh) | 一种基于模糊数相似度的多因素舆情风险评估方法 | |
WO2017071369A1 (zh) | 一种预测用户离网的方法和设备 | |
CN110188047A (zh) | 一种基于双通道卷积神经网络的重复缺陷报告检测方法 | |
CN111178585A (zh) | 基于多算法模型融合的故障接报量预测方法 | |
DE112020002684T5 (de) | Ein Mehrfachverfahrenssystem für optimale Vorhersagemodellauswahl | |
CN111199469A (zh) | 用户还款模型生成方法、装置及电子设备 | |
CN110826237A (zh) | 基于贝叶斯信念网络的风电设备可靠性分析方法及装置 | |
CN113822499A (zh) | 一种基于模型融合的列车备件损耗预测方法 | |
CN115293827A (zh) | 一种助力企业精细化运营的模型可解释性分析新方法 | |
CN115760332A (zh) | 基于企业数据分析的风险预测方法、系统、介质及设备 | |
CN115034473A (zh) | 一种电价预测方法、系统及装置 | |
Tiruneh et al. | Feature selection for construction organizational competencies impacting performance | |
CN117674119A (zh) | 电网运行风险评估方法、装置、计算机设备和存储介质 | |
Li et al. | Prediction of Barrier Option Price Based on Antithetic Monte Carlo and Machine Learning Methods | |
CN114820074A (zh) | 基于机器学习的目标用户群体预测模型构建方法 | |
CN115330526A (zh) | 一种企业信用评分方法及装置 | |
CN114490925A (zh) | 公共事件下的情绪挖掘方法及设备 | |
CN114529063A (zh) | 一种基于机器学习的金融领域数据预测方法、设备及介质 | |
CN113807587A (zh) | 一种基于多梯核深度神经网络模型积分预警方法以及系统 | |
Mia et al. | Machine learning approach for predicting bridge components’ condition ratings | |
CN113435655B (zh) | 扇区动态管理决策方法、服务器及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221104 |
|
RJ01 | Rejection of invention patent application after publication |