CN111242449A

CN111242449A - 一种企业情报流失预测方法

Info

Publication number: CN111242449A
Application number: CN202010011876.1A
Authority: CN
Inventors: 杨冬豪; 陈海峰
Original assignee: Hangzhou Cezhitong Technology Co Ltd
Current assignee: Hangzhou Cezhitong Technology Co Ltd
Priority date: 2020-01-07
Filing date: 2020-01-07
Publication date: 2020-06-05

Abstract

本发明公开了一种企业情报流失预测方法，包括系统获取数据集，将数据集划分为训练集和测试集，之后利用CatBoost、GBDT算法和加权投票算法，将所述训练集进行双层训练，输出分类预测模型的评价指标。使用双层融合的方法以及相适应的算法，提高企业情报流失预测模型的准确率和精确率，进一步的完善企业情报流失预测模型。

Description

一种企业情报流失预测方法

技术领域

本发明涉及数据处理领域，尤其涉及一种企业情报流失预测方法。

背景技术

时至今日，各类市场日益饱和且竞争激烈，属于行业巨头的市场份额越来越大，各行业企业家们以往关注的重点在于推出新颖的定制服务来吸引新客户，并将已经拥有的客户转换成忠诚客户。而研究表明发展一个新客户的成本远高于维护一个老客户的成本，所以预防老客户的流失是各企业家们必须重视的问题。

因此，客户流失预测技术对于企业挽留老客户和推出各种定制服务来说是十分重要的。比如电信企业，一个流失的客户如果不再使用运营商提供的服务，那么他就再也无法产生任何利润，这对于拥有千万级别数量客户的运营商而言，如果能降低百分之一的客户流失率，那将会带来可观的利润增长。及时并准确识别潜在的流失客户渐渐成为了各大行业巨头企业家们研究的重点。

在客户流失预测领域，机器学习的算法如强化学习算法的应用大幅提高了模型的准确率，但是单个算法在预测准确率上的提升还很有限，所以提升准确率和精确率是客户流失预测模型急需提高的地方。本发明采用双层融合结构以及相适用的算法，提高客户流失预测模型的准确率和精确率，进一步的完善客户流失预测模型。

发明内容

本发明提供的一种企业情报流失预测方法，旨在解决现有技术中存在准确率和精确率低的问题。

为实现上述目的，本发明采用以下技术方案：

本发明的一种企业情报流失预测方法，包括以下步骤：

获取数据集，将数据集划分为训练集和测试集；

利用CatBoost、GBDT算法和加权投票算法，将所述训练集进行双层训练，输出分类预测模型的评价指标。

获取数据集，将数据集划分为训练集和测试集，之后利用CatBoost、GBDT算法和加权投票算法，将所述训练集进行双层训练，输出分类预测模型的评价指标。使用双层融合的方法以及相适应的算法，提高客户流失预测模型的准确率和精确率，进一步的完善客户流失预测模型。

作为优选，所述利用CatBoost、GBDT算法和加权投票算法，将所述训练集进行双层训练，输出分类预测模型的评价指标，包括：

搭建分类预测模型双层结构，第一层通过相应算法对训练集进行训练，得到第一层数据集；

第二层通过相应算法对第一层数据集进行训练，得到分类预测模型的评价指标,其中GBDT算法是基学习器采用的Decision Tree的Gradient Boosting方法，GradientBoosting模型与Adaboost的形式一致，采用M个基学习器的线性组合得到最终模型：

其中m是模型迭代的步数，θm为固定参数。

作为优选，所述获取数据集，将数据集划分为训练集和测试集，经过训练、验证和测试方法，输出相对应的评估集和测试集。

一种企业情报流失预测装置，包括：

获取模块，获取数据集，将数据集划分为训练集和测试集；

计算模块，利用CatBoost、GBDT算法和加权投票算法，将所述训练集进行双层训练，输出分类预测模型的评价指标；

分析模块，将所述分类预测模型的评价指标与对比对象进行结果分析比较。

作为优选，所述计算模块包括：

第一层训练单元，搭建分类预测模型双层结构，第一层通过相应算法对数据集进行训练，得到第一层数据集；

第二层训练单元，第二层通过相应算法对第一层数据集进行训练，得到分类预测模型的评价指标,其中GBDT算法是基学习器采用的Decision Tree的Gradient Boosting方法，Gradient Boosting模型与Adaboost的形式一致，采用M个基学习器的线性组合得到最终模型：

其中m是模型迭代的步数，θm为固定参数。

作为优选，所述获取模块包括：

划分单元，获取数据集，将数据集划分为训练集和测试集；

输出单元，所述数据集经过训练、验证和测试方法，输出相对应的评估集和测试集。

一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如上述中任一项所述的一种企业情报流失预测方法。

一种存储有计算机程序的计算机可读存储介质，所述计算机程序使计算机执行时实现如上述中任一项所述的一种企业情报流失预测方法。

本发明具有如下有益效果：

系统获取数据集，将数据集划分为训练集和测试集，之后利用CatBoost、GBDT算法和加权投票算法，将所述训练集进行双层训练，输出分类预测模型的评价指标。使用双层融合的方法以及相适应的算法，提高客户流失预测模型的准确率和精确率，进一步的完善客户流失预测模型。

附图说明

图1是本发明实施例实现一种企业情报流失预测方法第一流程图；

图2是本发明实施例实现一种企业情报流失预测方法第二流程图；

图3是本发明实施例实现一种企业情报流失预测方法具体实施流程示意图；

图4是本发明实施例实现一种企业情报流失预测装置示意图；

图5是本发明实施例实现一种企业情报流失预测装置的计算模块示意图；

图6是本发明实施例实现一种企业情报流失预测装置的获取模块示意图；

图7是本发明实施例实现一种企业情报流失预测装置的具体实施流程示意图；

图8是本发明实施例实现一种企业情报流失预测方法的一种电子设备示意图。

具体实施方式

下面将结合附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在介绍本发明技术方案之前，示例性的介绍一种本发明技术方案可能适用的场景。

示例性的：客户流失预测模型中训练集进行训练是客户流失预测模型中的一个工序。对训练集进行相应的计算处理获得模型分类预测模型的评价指标，以利于后续的分析分析对比。

客户流失预测模型中的训练单元是必不可少，示例性的，训练集经过训练单元输出相应数据进行分析对比，提高客户流失预测模型的准确率和精确率，完善客户流失预测模型。

示例性的，训练单元采用不同的算法会对客户流失预测模型的准确率和精确率产生一定的影响，为了提高客户流失预测模型的准确率和精确率，可能的，采用双层融合模型以及CatBoost、GBDT算法和加权投票算法进行处理。

显而易见的，现有技术中，客户流失预测模型采用随机森林算法，由此造成的在一些噪音较大的分类或回归问题上会过拟合，导致客户流失预测模型的准确率和精确率偏低，影响预测结果。

使用CatBoost、GBDT算法和加权投票算法和双层融合模型进行处理可以提高客户流失预测模型的准确率和精确率，进一步完善客户流失预测模型。

实施例1

如图1所示，一种企业情报流失预测方法，包括以下步骤：

S100、获取数据集，将数据集划分为训练集和测试集；

S110、利用CatBoost、GBDT算法和加权投票算法，将所述训练集进行双层训练，输出分类预测模型的评价指标；

根据实施例1可知，系统获取数据集，将数据集划分为训练集和测试集，之后利用CatBoost、GBDT算法和加权投票算法，将所述训练集进行双层训练，输出分类预测模型的评价指标。此方法可以提高客户流失预测模型的准确率和精确率，进一步完善客户流失预测模型。

实施例2

如图2所示，一种企业情报流失预测方法，包括：

S210、获取数据集，将数据集划分为训练集和测试集；

S220、搭建分类预测模型双层结构，第一层通过相应算法对数据集进行训练，得到第一层数据集；

S230、第二层通过相应算法对第一层数据集进行训练，得到分类预测模型的评价指标,其中GBDT算法是基学习器采用的Decision Tree的Gradient Boosting方法，Gradient Boosting模型与Adaboost的形式一致，采用M个基学习器的线性组合得到最终模型：

其中m是模型迭代的步数，θm为固定参数。

根据实施例2可知，搭建分类预测模型双层结构，训练集依次经过第一层和第二层，第一层通过相应算法对训练集进行训练得到第二训练集，同时测试集进行预测得到第二测试集，第一层数据集包括第二训练集和第二测试集，第二层通过相应算法对第一层数据集进行训练，得到分类预测模型的评价指标，分类预测模型的评价指标包括准确率、精准率、召回率和F1值这四个指标。使用双层融合的方法以及相适应的算法，提高客户流失预测模型的准确率和精确率，进一步的完善客户流失预测模型。

实施例3

如图3所示，一种具体的实施方式可为：

S310、获取数据集，将数据集划分为训练集和测试集；

将数据集划分为训练集和测试集(假设训练集为999条数据，测试集为210条数据)，然后一级分类模型中的单个基础分类器1进行3折交叉验证，使用训练集中的666条作为喂养集，剩余333条作为验证集。

S320、搭建分类预测模型双层结构，第一层通过相应算法对数据集进行训练，利用CatBoost算法和GBDT算法计算得到第一层数据集；

第一层Stacking层通过CatBoost和GBDT算法对数据集进行训练。每次验证使用666条数据训练出一个模型，再用训练出的模型对验证集进行验证得到333条数据，同时对测试集进行预测，得到210条数据。这样经过3次交叉检验，可以得到新特征也就是3*333条预测结果和3*210条测试数据集的预测结果。

接下来会将3*333条预测结果拼接成999行1列的矩阵，标记为训练数据集A1。而对于3*210行的测试数据集的预测结果进行加权平均，得到一个210行1列的矩阵，测试数据集B1。这是单个基础分类器在数据集上的预测结果，如果再集成两个基础分类器，比如基础分类器2、基础分类器3，那么最后会得到A1、A2、A3、B1、B2、B3一共六个矩阵。

最后将A1、A2、A3并列在一起成999行3列的矩阵作为第二训练数据集，B1、B2、B3合并在一起成210行3列的矩阵作为第二测试数据集，第一层数据集包括第二训练数据集和第二测试数据集，让次级分类模型基于第一层数据集再训练。

其中CatBoost算法的核心是对称完全二叉树思想，即每一次只划分出两条路径，划分路径的顺序是随机的，其公式为：

增加了先验值P和参数a>0，即为先验的权重，添加先验有助于减少从低频类别获得的噪声。

其中GBDT算法是基学习器采用的Decision Tree的Gradient Boosting方法。Gradient Boosting模型与Adaboost的形式一致，采用M个基学习器的线性组合得到最终模型：

首先确定初始模型，定义初始基学习器f₀(x)，当模型迭代到第m步时：

f_m(x)＝f_m-1(x)+γ_mT(x；θ_m)

通过最小化损失来确定参数θm的值：

S330、第二层通过相应算法对第一层数据集进行训练，得到分类预测模型的评价指标。

第二层Voting层搭建好后，对比实验了文章选取的3个基础分类器不同权重下的准确率，最终确定基础分类器权重设置为{{GBDT:1}，{CatBoost:2}}。准确率较高的基础分类器可以具有较大的权重值。最终根据计算后概率最高的类确定样本的判定结果。Voting层通过加权投票算法对第一层数据集进行训练，得到分类预测模型的评价指标，分类预测模型的评价指标使用准确率，精准率，召回率和F1值这四个指标。

实施例4

如图4所示，一种企业情报流失预测装置，包括：

获取模块10，获取数据集，将数据集划分为训练集和测试集；

计算模块20，利用CatBoost、GBDT算法和加权投票算法，将所述训练集进行双层训练，输出分类预测模型的评价指标；

分析模块30，将所述分类预测模型的评价指标与对比对象进行结果分析比较。

上述装置的一种实施方式可为：获取模块10获取数据集，将数据集划分为训练集和测试集，计算模块20利用CatBoost、GBDT算法和加权投票算法，将所述训练集进行双层训练，输出分类预测模型的评价指标，最后，分析模块30将所述分类预测模型的评价指标与对比对象进行结果分析比较。

实施例5

如图5所示，一种企业情报流失预测装置的计算模块20包括：

第一层训练单元22，搭建分类预测模型双层结构，第一层通过相应算法对训练集进行训练，得到第一层训练数据集；

第二层训练单元24，第二层通过相应算法对训练数据集进行训练，得到分类预测模型的评价指标,其中GBDT算法是基学习器采用的Decision Tree的Gradient Boosting方法，Gradient Boosting模型与Adaboost的形式一致，采用M个基学习器的线性组合得到最终模型：

其中m是模型迭代的步数，θm为固定参数。

上述装置的计算模块20的一种实施方式可为：第一层训练单元22搭建分类预测模型双层结构，训练集依次经过第一层和第二层，第一层通过相应算法对训练集进行训练得到第二训练集，同时测试集进行预测得到第二测试集，第一层数据集包括第二训练集和第二测试集，第二层训练单元24第二层通过相应算法对第一层数据集进行训练，得到分类预测模型的评价指标。

其中GBDT算法是基学习器采用的Decision Tree的Gradient Boosting方法，Gradient Boosting模型与Adaboost的形式一致，采用M个基学习器的线性组合得到最终模型：

其中m是模型迭代的步数，θm为固定参数,

确定初始模型，定义初始基学习器f₀(x)，当模型迭代到第m步时：

f_m(x)＝f_m-1(x)+γ_mT(x；θ_m)

通过最小化损失来确定参数θm的值：

分类预测模型的评价指标包括准确率、精准率、召回率和F1值这四个指标。

实施例6

如图6所示，一种企业情报流失预测装置的获取模块10包括：

划分单元12，获取数据集，将数据集划分为训练集和测试集；

输出单元14，所述数据集经过训练、验证和测试方法，输出相对应的评估集和测试集。

上述装置的获取模块10的一种实施方式可为：，由识别单元12获取数据集，将数据集划分为训练集和测试集，然后选择单元14所述数据集经过训练、验证和测试方法，输出相对应的评估集和测试集。

实施例7

如图7所示，一种具体的实施方式可为：

S710、获取数据集，将数据集划分为训练集和测试集；

S720、搭建分类预测模型双层结构，第一层通过相应算法对数据集进行训练，利用CatBoost算法和GBDT算法计算得到第一层数据集；

其中m是模型迭代的步数，θm为固定参数,

f_m(x)＝f_m-1(x)+γ_mT(x；θ_m)

通过最小化损失来确定参数θm的值：

S730、第二层通过相应算法对第一层数据集进行训练，得到分类预测模型的评价指标。

第二层Voting层搭建好后，对比实验了文章选取的3个基础分类器不同权重下的准确率，最终确定基础分类器权重设置为{{GBDT：1}，{CatBoost：2}}。准确率较高的基础分类器可以具有较大的权重值。最终根据计算后概率最高的类确定样本的判定结果。Voting层通过加权投票算法对第一层数据集进行训练，得到分类预测模型的评价指标，分类预测模型的评价指标使用准确率，精准率，召回率和F1值这四个指标。

实施例8

如图6所示，一种电子设备，包括存储器801和处理器802，所述存储器801用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器802执行以实现上述的一种企业情报流失预测方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的电子设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

一种存储有计算机程序的计算机可读存储介质，所述计算机程序使计算机执行时实现如上述的一种企业情报流失预测方法。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器801中，并由处理器802执行，以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机设备中的执行过程。

计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括，但不仅限于，存储器801、处理器802。本领域技术人员可以理解，本实施例仅仅是计算机设备的示例，并不构成对计算机设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。

处理器802可以是中央处理单元(CentralProcessingUnit，CPU)，还可以是其他通用处理器802、数字信号处理器802(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(Field-ProgRAM503mableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器802可以是微处理器802或者该处理器802也可以是任何常规的处理器802等。

存储器801可以是计算机设备的内部存储单元，例如计算机设备的硬盘或内存。存储器801也可以是计算机设备的外部存储设备，例如计算机设备上配备的插接式硬盘，智能存储卡(SmartMediaCard,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(FlashCard)等。进一步地，存储器801还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器801用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器501还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本发明的具体实施例，但本发明的技术特征并不局限于此，任何本领域的技术人员在本发明的领域内，所作的变化或修饰皆涵盖在本发明的专利范围之中。

Claims

1.一种企业情报流失预测方法，其特征在于，包括以下步骤：

获取数据集，将数据集划分为训练集和测试集；

2.根据权利要求1所述的一种企业情报流失预测方法，其特征在于，所述利用CatBoost、GBDT算法和加权投票算法，将所述训练集进行双层训练，输出分类预测模型的评价指标，包括：

搭建分类预测模型双层结构，第一层通过相应算法对数据集进行训练，得到第一层数据集；

第二层通过相应算法对第一层数据集进行训练，得到分类预测模型的评价指标，其中GBDT算法是基学习器采用的Decision Tree的Gradient Boosting方法，GradientBoosting模型与Adaboost的形式一致，采用M个基学习器的线性组合得到最终模型：

其中m是模型迭代的步数，θm为固定参数。

3.根据权利要求2所述的一种企业情报流失预测方法，其特征在于，所述获取数据集，将数据集划分为训练集和测试集，经过训练、验证和测试方法，输出相对应的评估集和测试集。

4.一种企业情报流失预测装置，其特征在于，包括：

获取模块，获取数据集，将数据集划分为训练集和测试集；

计算模块，利用CatBoost、GBDT算法和加权投票算法，将所述训练集进行双层训练，输出分类预测模型的评价指标。

5.根据权利要求4所述的一种企业情报流失预测装置，其特征在于，所述计算模块包括：

其中m是模型迭代的步数，θm为固定参数。

6.根据权利要求5所述的一种企业情报流失预测装置，其特征在于，所述获取模块包括：

划分单元，获取数据集，将数据集划分为训练集和测试集；

7.一种电子设备，其特征在于，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如权利要求1～3中任一项所述的一种企业情报流失预测方法。

8.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序使计算机执行时实现如权利要求1～3中任一项所述的一种企业情报流失预测方法。