CN109886758A

CN109886758A - 一种基于组合分类器的客户流失预测模型

Info

Publication number: CN109886758A
Application number: CN201910190944.2A
Authority: CN
Inventors: 曾婷凤; 刘莉平
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2019-03-13
Filing date: 2019-03-13
Publication date: 2019-06-14

Abstract

本发明提出构建结合回声状态网络和支持向量机的流失预测模型。针对单模型预测效果不理想，探索改进分类器构建方法，分类器的构建可以分为训练集构建策略、分类器选择策略和预测值确定策略三个方面。通过融合马氏距离与最大信息系数综合评定特征和类别、特征和特征之间的相关程度，共同衡量特征之间的冗余度以及特征与类别之间的关联度。集合回声状态网络和支持向量机的优点，线性约束解决二次优化问题，从而提高电信客户流失系统的性能，提高客户流失预测模型的预测效果。

Description

一种基于组合分类器的客户流失预测模型

技术领域

本发明涉及电信客户流失分类领域，特别是一种基于组合分类器的客户流失预测模型。

背景技术

在当前电信市场环境下，吸引新的客户和挽留己有客户成为电信运营商客户管理系统的两个重要主题。潜在流失客户的预测分析是实施客户挽留策略的一个关键环节，已成为当今学术界和商业界广泛关注的一个热口话题。客户流失预测分析的目的是预测出具有较高流失槪率的客户，正确锁定潜在流失客户群体。在此基础上，分配并调整有限的营销资源，制定有针对性的客户挽留策略，提高客户挽留策略的有效性，提高后续营销活动的投资回报率，进一步减少客户流失带来的经济损失。因此，构建一个商效、准确的电信客户流失预测模型，预测出具有较高流失概率的客户，对电信企业具有重大意义。

近年来的文献中，提出了不同类型的基于机器学习的方法来开发流失预测模型，大多数都只考虑了单一机器学习技术进行流失预测，包括决策、人工神经网络、朴素贝叶斯和支持向量机等。单个分类器预测数据必然会导致效率和性能的偏差，在实时和精度要求的范围内，可以通过某种方式使基本分类器以高效的方式协同工作，以便做到最好利用优势和绕过劣势，整合学习优势组合每种算法。因此基于机器学习的集成学习和选择性集成学习研究迅速发展，分类和挖掘的性能优于传统方法，已成为研究客户流失预测的新方法。

发明内容

本发明的目的是针对单一分类算法模型对电信客户流失预测性能不太理想的问题，提供一种组合分类模型。首先融合马氏距离与最大信息系数综合评定特征和类别、特征和特征之间的相关程度，共同衡量特征之间的冗余度以及特征与类别之间的关联度。在找到最优数据特征的基础上，将ESN的状态空间输出将作为SVM分类器的输入，提出带有SVM训练算法的ESN来预测电信公司的客户流失。

为实现本发明的目的，构建结合回声状态网络和支持向量机的组合分类模型包括以下步骤：

1)数据的预处理，对所收集数据进行分类或分组前所做的审核、筛选、排序等必要的处理。

2)使用最大信息系数来度量特征和类别之间的相关性，融合马氏距离与最大信息系数综合评定特征和类别、特征和特征之间的相关程度，共同衡量特征之间的冗余度以及特征与类别之间的关联度，选出数据特征变量集。

3)回声状态网络是最简单但有效的递归神经网络之一，回声状态网络的状态空间输出将作为支持向量机分类器的输入。

4)得出电信客户数据集流失与否的结果。

与经典的单一分类算法模型相比，本发明的有益效果是：

1)该算法在实时和精度要求的范围内，可以通过某种方式使基本分类器以高效的方式协同工作，以便做到最好利用优势和绕过劣势，整合学习优势组合每种算法。

2)该算法使预测模型具有更好的命中率和准确率。

附图说明

图1是本发明的电信客户流失预测系统的总体架构。

图2是本发明的预测模型应用模块流程图。

图3是本发明的初始化、训练、使用的具体方案图。

图4是本发明的整体流程图。

具体实施方式

为了使本发明的目的、特征、优点更加明显易懂，下面结合基础基论、公式附图，按照基本原理、宏观流程、具体步骤的顺序对本发明做进一步的详细说明。

步骤1、对样本集进行预处理。

数据预处理有多种方法：数据清理，数据集成，数据变换，数据归约等。

数据清理通过填写缺失值、光滑噪声数据、识别或删除离群点并解决不一致性来清理数据。实现格式标准化，异常数据清除，错误纠正，重复数据的清除。数据集成将多个数据源中的数据结合起来并统一存储，建立数据仓库或数据集市。数据变换通过平滑聚集，数据概化，规范化等方式将数据转换成适用于数据挖掘的形式。数据归约删除原始特征集合中的无用特征、弱相关特征和冗余特征，得到数据集的归约表示的同时保持原数据的完整性。

步骤2、对样本集进行特征选择。

利用马氏距离和最大信息系数对数据集进行处理，得到特征和类别、特征与特征之间的融合系数，最后根据选择标准，找出需要的特征。

样本向量S为X₁～X_m，均值为μ，协方差矩为ε，则样本X到μ的马氏距离为：X_i向量到X_j的马氏距离为：

对于有限集合D，将D集合分割成x乘y的网格。定义x*y的网格为G，D|_G是有限集合D中的点在网格G上的概率分布。通过不断调整网格分辨率，分别得到不同的概率分布。MaxI(D|_G)表示在x*y分辨率分割方式中得到的最大互信息值。假设有限集合D的大小为n，网络规模需小于B(n)，B(n)为可搜寻网格的上界，其目的是为了限制算法的搜索范围，降低算法的复杂度。则最大信息系数表示为：

由于马氏距离在判断特征之间的关系时，其值越大代表特征之间的离散度越大，而最大信息系数值越大，代表特征之间的相关性越大，因此定义融合马氏距离和最大信息系数的融合系数为P。

因此P(X_i,X_j)的值越大，说明特征之间的相关性强。特征和类别之间的融合系数为

S为特征集合，clas为类别，P(char_i,clas)为特征char_i和类标签clas之间的融合系数。特征和特征之间的融合系数为

x_i，x_j为不同特征，P(x_i,x_j)为特征x_i和特征x_j之间的融合系数。需要保证特征和类别之间的融合最大，具有最大关联，而特征之间的关联度最小，因此最小冗余最大相关特性选择标准为：

max(M-R)

对求出的所有M-R的值进行排序，找出最大值，选出最优的特征子集。

步骤3、组合分类器的构建。

回声状态网络的核心结构是一个随机生成且保持不变的储备池(Reservoir)；其输出权值是唯一需要调整的部分；简单的线性回归就可完成网络的训练。图中t时刻的输入u(t)，一共有K个节点，储备池状态为x(t)，N个节点，输出为y(t)，L个节点。t时刻的状态为：

u(t)＝[u₁(t),u₂(t),···,u_k(t)]^T

x(t)＝[x₁(t),x₂(t),···,x_N(t)]^T

y(t)＝[y₁(t),y₂(t),···,y_L(t)]^T

输入层到储备池的连接为Win(N*K阶)，储备池到下一个时刻储备池状态的连接为W(N*N阶)，储备池到输出层的连接为Wout(L*(K+N+L)阶)。另外还有一个前一时刻的输出层到下一时刻的储备池的连接Wback(N*L阶)，这个连接不是必须的(图中虚线表示)。每一时刻输入u(t)，储备池都要更新状态，它的状态更新方程为：

x(t+1)＝f(W_in×u(t+1)+Wx(t)+z(t+1))

式中，W_in和W都是在最初建立网络的时候随机初始化的，并且固定不变，u(t+1)是这个时候的输入，x(t+1)是这个时刻的储备池状态，x(t)是上一个时刻的储备池状态，z(t+1)是不影响的噪声函数，在t＝0时刻可以用0初始化，f是DR内部神经元激活函数，通常使用双曲正切函数。在建模的时候，和一般的神经网络一样，会在连接矩阵上加上一个偏置量，所以输入u的是一个长度为1+K的向量，Win是一个[1+K,N]的矩阵，x是一个长度为N的向量。ESN的输出状态方程为：

y(t+1)＝f_out×(W_out×(u(t+1),x(t+1)))

式中，f_out是输出层神经元激活函数。到这里有了储备池状态，有了ESN输出方式，就可以根据目标输出y(target)来确定W_out，以使得y(t+1)和y(target)的差距尽可能小。储备池是该网络的核心结构，就是随机生成的、大规模的、稀疏连接的递归结构。

回声状态网络的储备池内部连接权谱半径SR，其为连接权矩阵W的绝对值最大的特征值，记为λmax，λmax<1是保证网络稳定的必要条件。储备池规模N，其为储备池中神经元的个数，储备池的规模选择与样本个数有关，对网络性能影响很大，储备池规模越大，回声状态网络对给定动态系统的描述越准确。储备池输入单元尺度IS。其为储备池的输入信号连接到储备池内部神经元之前需要相乘的一个尺度因子，即对输入信号进行一定的缩放。一般需要处理的对象非线性越强，IS越大。储备池稀疏程度SD。其表示储备池中神经元之间的连接情况，储备池中并不是所有神经元之间都存在连接。SD表示储备池中相互连接的神经元总数占总的神经元N的百分比，其值越大，非线性逼近能力越强。回声状态网络的训练过程就是根据给定的训练样本确定系数输出连接权矩阵Wout的过程，其训练分为采样和权值计算两个阶段。

支持向量机首先要构建一个超平面能够最大化距离，然后将定义扩展到非线性可分问题上，最后将数据映射到一个高维度空间，使得数据能够更容易被边界分开。基于将训练数据点使用非线性函数映射到高维空间，然后支持向量机在该空间中执行线性回归来实现最小化泛化误差。使用支持向量机训练回声状态网络，可以最小化损失函数。算法的具体步骤为先确定储备池的大小，初始化W，缩放矩阵使得谱半径λmax<1，在训练集上运行回声状态网络，对数据进行清洗，删除部分数据，完成系统状态和输出x(t)的计算，收集到矩阵X，将回声状态网络的状态空间矩阵X作为支持向量机的输入，使用交叉验证找到支持向量机的最佳参数，将训练集的目标值得到集合y。

步骤4、得到电信客户数据集的流失预测与否的结果。

总结出客户流失的因素，对潜在的流失客户进行数据挖掘，提出针对性挽留建议。

Claims

1.一种结合回声状态网络和支持向量机的流失预测模型，其特征在于，通过某种方式使基本分类器以高效的方式协同工作，以便做到最好利用优势和绕过劣势，整合学习优势组合每种算法。一种基于机器学习的集成学习和选择性集成学习。研究包括以下步骤：

步骤一：数据的预处理，对所收集数据进行分类或分组前所做的审核、筛选、排序等必要的处理。

步骤二：使用最大信息系数来度量特征和类别之间的相关性，融合马氏距离与最大信息系数综合评定特征和类别、特征和特征之间的相关程度，共同衡量特征之间的冗余度以及特征与类别之间的关联度，选出数据特征变量集。

步骤三：回声状态网络是最简单但有效的递归神经网络之一，回声状态网络的状态空间输出将作为支持向量机分类器的输入。

步骤四：得出电信客户数据集流失与否的结果。

2.根据权利要求1所述的方法，其特征在于，所述步骤一具体为：

对样本集进行预处理。数据预处理有多种方法：数据清理，数据集成，数据变换，数据归约等。

3.根据权利要求2所述的方法，其特征在于，所述步骤二具体为：

对样本集进行特征选择。利用马氏距离和最大信息系数对数据集进行处理，得到特征和类别、特征与特征之间的融合系数，最后根据选择标准，找出需要的特征。

max(M-R)

4.根据权利要求3所述的方法，其特征在于，所述步骤三中，具体为：

组合分类器的构建。回声状态网络的储备池内部连接权谱半径SR，其为连接权矩阵W的绝对值最大的特征值，记为λmax，λmax<1是保证网络稳定的必要条件。储备池规模N，其为储备池中神经元的个数，储备池的规模选择与样本个数有关，对网络性能影响很大，储备池规模越大，回声状态网络对给定动态系统的描述越准确。储备池输入单元尺度IS。其为储备池的输入信号连接到储备池内部神经元之前需要相乘的一个尺度因子，即对输入信号进行一定的缩放。一般需要处理的对象非线性越强，IS越大。储备池稀疏程度SD。其表示储备池中神经元之间的连接情况，储备池中并不是所有神经元之间都存在连接。SD表示储备池中相互连接的神经元总数占总的神经元N的百分比，其值越大，非线性逼近能力越强。回声状态网络的训练过程就是根据给定的训练样本确定系数输出连接权矩阵Wout的过程，其训练分为采样和权值计算两个阶段。

使用支持向量机训练回声状态网络，可以最小化损失函数。算法的具体步骤为先确定储备池的大小，初始化W，缩放矩阵使得谱半径λmax<1，在训练集上运行回声状态网络，对数据进行清洗，删除部分数据，完成系统状态和输出x(t)的计算，收集到矩阵X，将回声状态网络的状态空间矩阵X作为支持向量机的输入，使用交叉验证找到支持向量机的最佳参数，将训练集的目标值得到集合y。