CN108509644A

CN108509644A - 一种具备模型预警更新机制的数据挖掘方法

Info

Publication number: CN108509644A
Application number: CN201810327487.2A
Authority: CN
Inventors: 勇萌哲; 普雪飞
Original assignee: Chengdu Gifted Data Co Ltd
Current assignee: Chengdu Gifted Data Co Ltd
Priority date: 2018-04-12
Filing date: 2018-04-12
Publication date: 2018-09-07

Abstract

本发明公开了一种具备模型预警更新机制的数据挖掘方法，涉及跨行业数据挖掘标准流程领域；其包括1：商业理解获得业务目标初步方案并根据业务目标定义模型失效判定原则；2：基于初步方案依次进行数据理解和数据准备获得适于建模分析的数据集；3：基于数据集和失效判定原则训练多个模型完成模型的建立和优化；4：对建立好的多个模型进行模型评估和初步部署后判断其是否满足预警规则需要更新，若满足，则重新计算模型完成更新后跳至步骤5；若不需要，则直接跳至步骤5；5：进行模型最终部署完成数据挖掘；本发明解决了现有数据挖掘流程因模型数量少导致重复执行流程带来的精度低、成本高的问题，达到了提高模型精度、降低成本的效果。

Description

一种具备模型预警更新机制的数据挖掘方法

技术领域

本发明涉及跨行业数据挖掘标准流程领域，尤其是一种具备模型预警更新机制的数据挖掘方法。

背景技术

CRISP-DM(cross-industry standard process for data mining)“跨行业数据挖掘标准流程”是NCR、OHRA、SPSS、Daimler-Benz等全球企业一起开发出来的数据挖掘方法论，相对于现存的其他数据挖掘方法论，CRISP-DM方法论更具有优越性，因而被广泛地采用。

CRISP-DM方法论把数据挖掘实践定义为六个标准阶段，分别是商业理解、数据理解、数据准备、建立模型、模型评估和模型部署，以下分别加以简介：

一、商业理解：

商业理解是明确要达到的业务目标，并将其转化为数据挖掘主题；要从商业角度对业务部门的需求进行理解，并把业务需求的理解转化为数据挖掘的定义，拟定达成业务目标的初步方案；具体包括商业背景分析、商业成功标准的确定、形势评估、获得企业资源清单、获得企业的要求和设想、评估成本和收益、评估风险和意外、初步理解行业术语，并确定数据挖掘的目标和制定数据挖掘计划。

二、数据理解：

数据理解是找出可能的影响主题的因素，确定这些影响因素的数据载体、数据体现形式和数据存储位置。数据理解从数据收集开始，然后熟悉数据，具体包括以下工作内容:检测数据质量，对数据进行初步理解，简单描述数据，探测数据意义，并对数据中潜藏的信息和知识提出拟用数据加以验证的假设。

三、数据准备：

数据准备是将前面找到的数据进行变换、组合，建立数据挖掘工具软件要求格式和内容的宽表。数据准备阶段要从原始数据中形成作为建模分析对象的最终数据集；数据准备阶段的具体工作主要包括数据制表、记录处理、变量选择、数据转换、数据格式化和数据清理等，各项工作并不需要预先规定好执行顺序，而且数据准备工作还有可能多次执行。

四、建立模型：

建立模型是应用软件工具选择合适的建模方法，处理准备好的数据宽表，找出数据中隐藏的规律；在建立模型阶段，将选择和使用各种建模方法，并将模型参数进行优化，对同样的业务问题和数据准备，可能有多种数据挖掘技术方法可供选用，此时可优选提升度高、置信度高、简单而易于总结业务政策和建议的数据挖掘技术方法。在建模过程中，还可能会发现一些潜在的数据问题，要求回到数据准备阶段。建立模型阶段的具体工作包括：选择合适的建模技术、进行检验设计、建造模型。

五、模型评估：

模型评估是要从业务角度和统计角度进行模型结论的评估；要求检查建模的整个过程，以确保模型没有重大错误，并检查是否遗漏重要的业务问题。当模型评估阶段结束时，应对数据挖掘结果的部署计划达成一致。

六、模型部署：

模型部署又称为模型部署，建立模型本身并不是数据挖掘的目标，虽然模型使数据背后隐藏的信息和知识显现出来，但数据挖掘的根本目标是将信息和知识以某种方式组织和呈现出来，并用来改善运营和提高效率。当然，在实际的数据挖掘工作中，根据不同的企业业务需求，模型部署的具体工作可能简单到提交数据挖掘报告，也可能复杂到将模型集成到企业的核心运营系统中去。

虽然在CRISP-DM流程的模型评估阶段，算法工程师通过模型训练建立并评估了一个模型，但这些工作都是在进行最终的模型部署之前，训练模型的数据都是基于历史数据，部署模型并没有经过最新数据的检验，现实的实际业务场景可能出现历史数据与最新数据存在较大差异的情况，这样就会导致基于历史数据构建出来的模型失效，导致模型精度较低；另一方面实施一个数据挖掘类项目往往需要执行几轮CRISP-DM流程，每轮流程从始至终都需要包括标准步骤，实施方执行第一轮流程不满足实际的业务需求，例如：由于模型精度较低，造成预测结果偏离实际情况较大，实施方进而定义问题，开始执行下一轮CRISP-DM流程；或者模型选择不符合需要从头执行下一轮CRISP-DM流程；随着CRISP-DM流程的执行次数的增加，实施成本也随之增高，大大增加了项目实施失败的概率。因此需要一种数据挖掘流程可以实现提高精度且降低成本。

发明内容

本发明的目的在于：本发明提供了一种具备模型预警更新机制的数据挖掘方法，解决了现有数据挖掘流程因模型数量少和缺乏实际数据检验导致重复执行流程带来的精度低、成本高的问题。

本发明采用的技术方案如下：

一种具备模型预警更新机制的数据挖掘方法，包括如下步骤：

步骤1：商业理解获得业务目标初步方案并根据业务目标定义模型失效判定原则；

步骤2：基于初步方案依次进行数据理解和数据准备获得适于建模分析的数据集；

步骤3：基于数据集和失效判定原则，根据实际业务场景训练多个模型完成模型的建立和优化；

步骤4：对建立好的多个模型进行模型评估和初步部署后判断其是否满足预警规则需要更新，若满足，则重新计算模型完成更新后跳至步骤5；若不需要，则直接跳至步骤5；

步骤5：进行模型最终部署完成数据挖掘。

优选地，所述步骤4包括如下步骤：

步骤4.1：对建立好的多个模型进行模型评估和初步部署；

步骤4.2：将测试数据输入完成评估的模型中获得模型性能的评估指标；

步骤4.3：判断模型性能的评估指标是否满足预设的失效判定原则，若满足，则重新计算模型选择多个模型中的备用模型完成更新跳至步骤5；若不满足，则直接跳至步骤5。

优选地，所述步骤4.2包括如下步骤：

步骤4.2.1：选择测试数据中对应的输入数据作为标签字段进行测试后根据公式1计算正确分类率accuracy，公式1如下：

其中，n_correct被正确分类的样本数，n_total总样本数；

步骤4.2.2：根据公式2计算针对标签字段特定取值的准确率和召回率，则正例的正确率Precision计算如公式2所示：

召回率Recall计算如公式3所示：

其中，TP为真正例即实际为正例，预测为正例，FP是假正例即实际为负例，预测为正例；FN表示实际为正例，被模型预测为负例的样本；

步骤4.2.3：基于步骤4.2.2计算真正例率TPR如公式4所示、假正例率FPR如公式5所示和真负例率TNR如公式6所示后画ROC曲线图求得AUC值，计算公式如下：

其中，FN表示实际为正例，被模型预测为负例的样本；TN表示实际为负例，被模型预测为负例的样本，AUC值为ROC曲线面积，ROC曲线是受试者特征曲线。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.本发明通过部署多个模型的同时增加模型失效判定原则实现模型预警更新，实践过程中模型选择多，避免了现有直接重新训练带来重复执行标准流程导致成本高的缺点，根据实际情况及时判断模型并更新，增强模型在不同数据集上的鲁棒性，提高泛化性能，从而提高模型精度；解决了现有数据挖掘流程因模型数量少和缺乏实际数据检验导致重复执行流程带来的精度低、成本高的问题，达到了提高模型精度、降低成本的效果；

2.本发明在建立模型和评估模型阶段，针对每个实际业务场景训练两个以上的模型，一个模型为实际上线的模型，其它模型为备用模型，上线模型如果没有达到预计效果，则根据用户事先定义的模型失效的判定规则，软件系统对模型失效的情况进行邮件通知，并自动重新计算模型，并按用户定制的策略从备选模型中选择模型进行更新，通过部署不同的模型，可以增强模型在不同数据集上的鲁棒性，提高泛化性能，从而提高模型精度；

3.由于增设备用模型和模型更新，提升精度的同时可以避免重复执行下一轮CRISP-DM流程，较大降低了项目实施成本。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1是本发明的流程框图；

图2是本发明的方法流程图；

图3是本发明的实施示意图；

图4是本发明的ROC曲线图。

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

下面结合图1-4对本发明作详细说明。

一、商业理解：

商业理解是明确要达到的业务目标，并将其转化为数据挖掘主题，拟定达成业务目标的初步方案，具体包括商业背景分析、商业成功标准的确定、形势评估、获得企业资源清单、获得企业的要求和设想、评估成本和收益、评估风险和意外、初步理解行业术语，并确定数据挖掘的目标和制定数据挖掘计划；同时用户根据业务目标，事先定义模型失效的判定规则。

二、数据理解：

数据理解是找出可能的影响主题的因素，确定这些影响因素的数据载体、数据体现形式和数据存储位置；具体包括：检测数据质量，对数据进行初步理解，简单描述数据，探测数据意义，并对数据中潜藏的信息和知识提出拟用数据加以验证的假设。

三、数据准备：

数据准备是将前面找到的数据进行变换、组合，建立数据挖掘工具软件要求格式和内容的宽表；数据准备阶段要从原始数据中形成作为建模分析对象的最终数据集；数据准备阶段的具体工作主要包括数据制表、记录处理、变量选择、数据转换、数据格式化和数据清理等，各项工作并不需要预先规定好执行顺序，而且数据准备工作还有可能多次执行。

四、建立模型：

建立模型是应用软件工具，选择合适的建模方法，处理准备好的数据宽表，找出数据中隐藏的规律。在建立模型阶段，将选择和使用各种建模方法，并将模型参数进行优化。优选提升度高、置信度高、简单而易于总结业务政策和建议的数据挖掘技术方法；建立模型阶段的具体工作包括:选择合适的建模技术、进行检验设计、建造模型。根据用户事先定义的模型失效的判定规则，工程师需要针对每个实际业务场景训练两个以上的模型，一个模型为实际上线的模型，其它模型为备用模型。

五、模型评估：

模型评估是要从业务角度和统计角度进行模型结论的评估，除了对上线模型进行评估，也需要对备用模型进行评估。要求检查建模的整个过程，以确保模型没有重大错误，并检查是否遗漏重要的业务问题。当模型评估阶段结束时，应对数据挖掘结果的部署计划达成一致。

六、模型部署：

模型部署又称为模型分布，将模型完成模型评估后进行初步部署，然后进行预警更新，完成更新的模型需要进行最终部署完成数据挖掘，数据挖掘的根本目标是将信息和知识以某种方式组织和呈现出来，并用来改善运营和提高效率。

七、模型预警更新：

根据用户在商业理解阶段定义的模型失效的判定规则，软件系统对模型失效的情况进行邮件通知，并自动重新计算模型，并按用户定制的策略从备选模型中选择模型进行更新，更新后进行最终部署完成数据挖掘。

实施例1

数据挖掘项目中通过机器学习模型来预测客户将来是否会流失，其中数据特征字段为客户一段时间内的行为数据，标签字段为客户的流失状态且取值为：是/否；模型训练好后用测试数据进行测试，得出模型性能的评估指标即正确分类率、针对标签列特定取值的准确率和召回率、AUC值，其中AUC值评判的是模型的泛化能力即在新样本上将不同分类的样本分对的能力；根据这些指标设置模型预警规则，但模型新的测试数进行测试后，将新的指标与预测规则进行对比，满足模型预警规则后，系统会用户进行相应的警报提醒。

模型预警指标计算过程如下：

正确分类率计算如公式1所示：

其中，n_correct被正确分类的样本数，n_total总样本数；

以二分类任务为例，标签列中取值为“是”的样本为正例，取值为“否”的样本为“负”例，正例的准确率计算如公式2所示：

召回率计算如公式3所示：

其中，TP为真正例即实际为正例，预测为正例，FP为假正例即实际为负例，预测为正例；FN表示实际为正例，被模型预测为负例的样本；

ROC曲线是受试者特征曲线，ROC曲线是以假阳性概率FPR为横轴，真阳性概率TPR为纵轴所组成的坐标图，表示受试者在特定刺激条件下由于采用不同的判断标准得出的不同结果画出的曲线；AUC值为ROC曲线下面的面积，取值范围为[0，1]，ROC曲线的画图方式如下：

真正例率TPR，代表分类器预测的正例中实际正例所占的比例；计算如公式4所示：

假正例率FPR，代表分类器预测的正例中实际负例所占的比例；计算如公式5所示：

真负例率TNR，代表分类器预测的负例中实际为负例的样本所占的比例；计算如公式6所示：

其中，FN表示实际为正例，被模型预测为负例的样本；TN表示实际为负例，被模型预测为负例的样本；其中采用逻辑回归分类器，其给出针对每个实例为正例的概率，那么通过设定一个阈值如0.6，概率大于0.6为正例，小于0.6为负例，对应就可以算出一组(FPR，TPR)，在平面中得到对应坐标点。

ROC曲线如图4所示：随着阈值的逐渐减小，越来越多的实例被划分到正例中，但预测的正例中也有真正的负例，即TPR和FPR会同时增大；阈值最大时，对应坐标点为(0，0)，阈值最小时，对应坐标点(1，1)；

横轴FPR：FPR越大，预测的正例中，实际负例越多；

纵轴TPR：TPR越大，预测的正例中，实际正例越多；

理想目标：TPR＝1，FPR＝0，即图中(0，1)点，因此ROC曲线越靠近(0，1)点，越偏离45度对角线越好即AUC的值越接近1越好。

求得性能评估指标后与事先定义的模型失效原则中的策略比较，若未超过设定的阈值，则进行模型部署，若超过设定的阈值，则重新计算模型后从备用模型中选择模型完成更新，更新后进行模型部署，避免了现有一旦模型不匹配需要从头执行流程带来的高成本的缺点，选择增设模型和模型预警更新，根据预警判断的各指标部署最优的模型，可提高模型精度；解决了现有数据挖掘流程因模型数量少和缺乏实际数据检验导致重复执行流程带来的精度低、成本高的问题，达到了提高模型精度、降低成本的效果。

Claims

1.一种具备模型预警更新机制的数据挖掘方法，其特征在于：包括如下步骤：

步骤5：进行模型最终部署完成数据挖掘。

2.根据权利要求1所述的一种具备模型预警更新机制的数据挖掘方法，其特征在于：所述步骤4包括如下步骤：

步骤4.1：对建立好的多个模型进行模型评估和初步部署；

3.根据权利要求1所述的一种具备模型预警更新机制的数据挖掘方法，其特征在于：所述步骤4.2包括如下步骤：

其中，n_correct被正确分类的样本数，n_total总样本数；

召回率Recall计算如公式3所示：