CN108876034A

CN108876034A - 一种改进的Lasso+RBF神经网络组合预测模型

Info

Publication number: CN108876034A
Application number: CN201810607799.9A
Authority: CN
Inventors: 熊安萍; 游涯; 龙林波
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-06-13
Filing date: 2018-06-13
Publication date: 2018-11-23
Anticipated expiration: 2038-06-13
Also published as: CN108876034B

Abstract

本发明涉及一种改进的Lasso+RBF神经网络组合预测模型，属于大数据分析与处理领域。该模型的预测过程为：通过对客户关系的生命周期特征做出界定，将客户生命周期划分为获取阶段、提升阶段、成熟阶段、衰退阶段和流失阶段；将流失阶段客户作为模型的训练集和测试集，其余4个阶段的客户作为预测客户，并将流失阶段客户再次划分为前四个阶段；分别用Lasso回归提取特征，再分别训练每个阶段对应的RBF神经网络模型；将得到的前4个未流失阶段的客户分别带入训练出的对应阶段的模型中进行预测；最后将得到的预测结果组合起来，即为将要流失的客户集。本发明所述模型使提取的特征更加准确，减小数据的不平衡性，提高预测的精确性。

Description

一种改进的Lasso+RBF神经网络组合预测模型

技术领域

本发明属于大数据分析与处理领域，涉及一种基于根据客户生命周期划分客户，采用改进的Lasso+RBF神经网络组合预测模型来对电信客户的流失进行预测。

背景技术

在智能手机的普及和移动互联网的发展快速的今天，电信企业已经积累了前所未有的数据资源，相应的数据存储量为每天数百TB。海量数据具有大数据的典型特征，因此被称为“电信大数据”，其中包括呼叫详细记录，流量话费消费，业务办理信息，用户基本信息等等。因为传统方法不适用于大型，动态和非结构化数据类型，这部分数据中隐含大量提高运营商客户稳定性和绩效的可能性，而稳定已有客户会给企业带来更多的经济效益。因此，需要寻求大数据分析解决方案来将数据转化为有价值的业务洞察力，稳定客户，解决客户流失问题。

客户流失是指客户终止对一个公司或者企业的合同或联系而转向其他竞争对手公司。客户流失是影响商业和工业的关键和挑战性问题，它可能导致巨大的经济损失，甚至损害公司的公众形象。由于市场饱和激烈竞争，因此在企业当中，越来越多的公司已经认识到客户关系管理(CRM)的重要性，并改变了以产品为中心的大众营销战略，实现以客户为中心的有针对性的营销，并迫切的想要在海量的客户信息中提取客户对企业有用的信息。在电信行业，由于扩大市场份额已变得越来越困难，获取新客户也会消耗更高成本，所以留住现有客户，避免客户流失则是当下的重中之重。

研究电信客户流失预测模型，帮助电信管理者提供有流失可能性的客户信息，通过分析流失客户对应的相关特征及特征取值范围，采取一定的比较有针对性的挽留措施，从而提高客户忠诚度，挽留客户，稳定客户。客户对电信行业的忠诚度的提高，相应的会提高电信业的市场占有率、市场影响力、营销份额、收益和利润以及在竞争对手中更有力的竞争能力。

近年来，电信客户流失预测方法大量提出，其中包括采用聚类算法进行聚类；用粗糙集理论(RST)提取与客户流失相关的重要决策规则；利用逻辑回归模型解决客户流失预测中数据不平衡的问题，以及采用C5.0决策树建立用户流失预测模型，进一步还有将多个算法组合建立模型，比如决策树+boosting算法,聚类算法+逻辑回归算法等，这些方法利用其算法的不同优点处理模型中数据问题不平衡、分类不够精确等问题。

在上述算法中，这些算法都没有考虑到客户的生命周期，客户处于不同的周期阶段，对应的特征及取值有所区别，也就是特征的权值是不同的，因此，上述方法在流失预测的时候，是有一定缺陷的，同时，上诉方法中，决策树会导致过拟合；回归算法需要严格的假设和处理异常值，且容易产生欠拟合，分类精度不高；AdaBoost算法在数据不平衡时导致分类精度下降，且需要每次选择当前分类器最好切分点等。

客户流失预测分析所具有的属性多样性、数据不平衡性、数据处理量大、非线性等特征给数据挖掘分析算法带来了新的挑战。由于传统方法不适用于处理大型，动态和非结构化数据类型，传统的分析方法在进行客户流失分析时也更可能遇到性能瓶颈，又由于很多已有的分析预测模型是在整个数据集上提取特征，因此在分析时也不够准确。

发明内容

有鉴于此，本发明的目的在于提供一种基于根据客户生命周期划分客户，采用改进的Lasso+RBF神经网络组合预测模型来对电信客户的流失进行预测。

为达到上述目的，本发明提供如下技术方案：

一种改进的Lasso+RBF神经网络组合预测模型，该模型的预测过程具体包括以下步骤：

S1：通过对客户关系的生命周期特征做出界定，将客户关系的生命周期划分为获取阶段、提升阶段、成熟阶段、衰退阶段和流失阶段；

S2：流失阶段的客户为流失客户，将流失阶段的客户作为模型的训练集和测试集，其余4个阶段的客户作为预测客户，并按照步骤S1给出的阶段的界定，将流失阶段的客户再次划分为获取阶段、提升阶段、成熟阶段和衰退阶段；

S3：将由流失客户划分出的4个阶段的客户，分别用Lasso回归提取特征，得到各个阶段对应的流失特征；

S4：基于步骤S3的各个阶段的特征，再分别训练每个阶段对应的RBF神经网络模型；

S5：将步骤S1得到的前4个未流失阶段的客户分别带入步骤S4训练出的对应阶段的模型中进行预测；

S6：最后将步骤S5得到的预测结果组合起来，即为将要预测的电信将要流失的客户集。

进一步，在步骤S1中，所述客户关系的生命周期特征的界定方法为：

获取阶段：客户入网时间在一个月之内；

提升阶段：入网2～12个月||存在1，2次购买产品或业务的行为||1星级客户；

成熟阶段：入网12个月以上||2星级及以上客户||存在2次及以上购买业务行为；

衰退阶段：交易量下降||退订已订业务||支付速度放慢||支付费用持续走低；

流失阶段：客户状态明确为‘拆机’。

为了防止界定中的交集部分使提取不分明，需按照以下顺序进行提取：

S11：提取流失阶段的数据集，得到流失客户；

S12：由于衰退期并不总是发生在成熟期之后，实际上可能发生在任何前三个阶段之后，所以第二步提取衰退阶段数据集；

S13：提取获取阶段数据集；

S14：由于提升期并不是固定多长时间，客户存在早熟情况，所以第四步提取成熟阶段数据集；

S15：最后剩余的为提升阶段数据集。

进一步，所述步骤S4具体包括：首先，将步骤S3中提取的各个阶段的特征作为输入神经元；输出神经元为单神经元，表示流失；其次，采用密度聚类算法获得流失客户的各个阶段客户数据集的核心对象点和半径，分别将其作为隐含层神经元基函数的中心点和扩展常数；然后，初始化隐含层神经元与输出神经元之间的权值，将基函数中心带入流失客户的各个阶段求出的Lasso回归方程，得到的值带入tanh函数，将tanh函数输出值作为该中心点的权值；最后，使用批量梯度下降方法训练权值，采用获取到的中心点和扩展常数，将中心点与其余数据点之间的距离小于扩展常数的点归为一个训练集，一次选取一个训练集传入模型，计算这个训练集的总误差，根据总误差来更新权值；

所述RBF神经网络的拓扑结构的确定，具体包括以下步骤：

S41：确定输入层神经元，将步骤S3中Lasso回归提取的特征，作为输入变量；

S42：确定输出层神经元，采用单神经元表示流失；

S43：确定隐含层神经元；

S44：确定隐含层到输出层的权值。

进一步，在步骤S43中，所述确定隐含层神经元，具体包括以下步骤：

S431：获取基函数的数据中心点C，采用DBSCAN密度聚类算法获取中心点，首先确定邻域的半径Eps和邻域的最小样本点数MinPts，步骤如下：

1)输入样本集D＝{x₁,x₂,...,x_i,...,x_n}；

2)通过欧式距离度量方式，找到样本点x_i到集合D的子集S＝{x₁,x₂,...,x_i-1,x_i+1,...,x_n}中所有点之间的距离，距离按照从小到大的顺序排序，得到样本点x_i的距离集合e_i；对集合D中的所有点都按照以上方式计算距离，得到所有点的距离集合E＝{e₁,e₂,...,e_i,...,e_n}；

3)将E集合中每个元素集合中的元素组成一个新的集合E'，对集合E'进行升序排序后得到距离集合E”，拟合一条排序后的E”集合中的距离的变化曲线并绘制曲线，通过观察，将急剧发生变化的位置所对应的距离的值，确定为半径Eps的值；

4)确定MinPts的大小，将所取半径Eps对应的排序后的距离集合中对应的索引k(距离值相同的元素其索引值也相同)，取MinPts＝K；

5)初始化核心对像集合

6)针对样本点x_i的距离集合e_i,如果样本x_i的距离集合e_i中满足：

A＝{a|a∈e_i&&a＜Eps}，|A|≥MinPts，则x_i即为核心对象，P＝P∪{x_i}；

7)输出核心对象集合P，将P作为RBF神经网络的隐含层神经元的基函数的中心；

S432：获取基函数的扩展常数σ，由于高斯函数的扩展常数σi决定了基函数围绕中心点Ci的宽度，类比在密度聚类算法中，由半径Eps决定中心样本点与其他样本点距离之间的类簇关系，所以，各基函数采用统一的扩展常数σ＝Eps；

S433：将|P|作为隐含层神经元的个数，将其中的核心对象作为各个隐含层神经元的基函数的中心，将Eps作为基函数的扩展常数。

进一步，在步骤S44中，所述确定隐含层到输出层的权值，具体包括以下步骤：

S441：初始化权值，利用Logistic回归的思想，步骤如下：

1)将步骤S433中各个隐含层神经元的基函数的中心点ci代入求得的生命周期阶段对应的Lasso回归方程，得到值yi；

2)将yi代入tanh函数，进而得到[-1,1]之间的数值tanhi，tanhi则是该中心点对结果为‘1’的影响程度；

3)令中心点ci所在的隐含层神经元与输出层神经元之间的权值Wi0＝tanhi；

S442：使用批量梯度下降方法训练权值，采用步骤S431获取的基函数的中心点C和步骤S432获取的扩展常数σ，将中心点C与其余数据点之间的距离小于σ的点归为一个训练集，一次选取一个训练集的数据传入模型，计算这个训练集的总误差，根据总误差来更新权值。

本发明的有益效果在于：本发明所述预测模型：(1)基于生命周期划分客户数据集，不但可以让提取的特征更加准确，还能减小数据的不平衡性，提高预测的精确性；(2)不仅让提取的特征更具有解释性和客观性，还由于神经网络的强特征性质，更加准确的训练出与流失相关的规则特性，训练出恰当的拟合结果。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为本发明所述客户生命周期示意图；

图2为本发明所述预测模型结构图；

图3为RBF神经网络的拓扑结构图。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述。

本发明所述改进的Lasso+RBF神经网络组合预测模型，预测过程为：

首先，分析电信客户信息和电信客户生命周期的介绍，给出各个生命周期阶段的界定，按照这个界定划分电信客户为获取阶段、提升阶段、成熟阶段、衰退阶段和流失阶段，其中再次按照阶段的界定，将流失阶段的客户再次划分为获取阶段、提升阶段、成熟阶段和衰退阶段；其次，针对流失阶段划分的子阶段，采用Lasso回归算法提取特征并得到特征方程，将提取出的非零系数对应的特征作为RBF神经网络的输入，然后借鉴密度聚类思想，提取数据的中心点，将提取出的中心点作为RBF神经网络的基函数的中心，将提出的半径作为基函数的扩展常数；再次，初始化RBF的权值，将基函数中心点带入本阶段求得的Lasso回归方程，得到的值再带入tanh函数，再次得到的值则作为该中心点到输出神经元的初始权值，最后使用批量梯度下降训练权值，将隐含层神经元的基函数的中心点c_i与其余数据点之间的距离小于Eps的点归为一个训练集，然后一次选取一个训练集的数据传入模型，计算这个训练集的总误差，根据总误差来更新权值，最终得到训练好的预测模型；然后将未流失的各个阶段的客户，分别带入对应阶段的预测模型中进行预测，最后将各个模型得到的预测结果集合起来，就是总的预测出的将要流失的客户。

其中，通过对电信客户生命周期的研究以及电信企业对销户和星级评定的规定，给出以下生命周期特征的界定，通过表1获得：

表1电信客户生命周期的界定

获取阶段	客户入网时间在一个月之内
		提升阶段	入网2～12个月\|\|存在1，2次购买产品或业务的行为\|\|1星级客户
成熟阶段	入网12个月以上\|\|2星级及以上客户\|\|存在2次及以上购买业务行为
		衰退阶段	交易量下降\|\|退订已订业务\|\|支付速度放慢\|\|支付费用持续走低
流失阶段	客户状态明确为‘拆机’

根据定义好的周期特征界定，通过SQL在数据库中进行提取操作，其中，为了防止界定中的交集部分使提取不分明，因此，本发明按照以下顺序进行提取：

步骤一：提取流失阶段的数据集，得到流失客户；

步骤二：由于衰退期并不总是发生在成熟期之后，实际上可能发生在任何前三个阶段之后，所以在第二步提取衰退阶段数据集；

步骤三：提取获取阶段数据集；

步骤四：由于提升期并不是固定多长时间，客户存在早熟情况，所以第四步提取成熟阶段数据集；

步骤五：最后剩余的就是提升阶段数据集。

图1是本发明的客户生命周期图，如图1所示，将客户关系的周期划分为获取阶段、提升阶段、成熟阶段、衰退阶段和流失阶段，其中获取阶段、提升阶段、成熟阶段、衰退阶段这4个阶段的客户为未流失客户，是需要进行预测是否将要流失，而流失阶段为流失客户，是用来对预测模型进行训练和测试的。值得注意的是，并不是每一个客户都会经历这五个阶段，而是在每一个阶段都有客户会流失，因此，由于阶段的不同，每一个客户的特征以及取值范围也是有一定区别的，如果把所有客户一概而论，则对特征的选取与取值是会相互影响、不够准确的。比如成熟的客户，它所对应的特征更多，取值也更大，而对于刚入网的客户，他的特征还很少，取值也很小或者很多没有，如果这两者作为一类客户，那么在特征选取和求值时，刚入网的客户会拉低整体的特征选取和取值的大小，从而造成结果不够准确，会影响最后对流失的决策判断。

针对处于不同周期阶段的客户，他们所对应的特征与特征值有所区别，如果统一进行处理会造成结果不准确的问题，因此提出以下处理方法：

首先，对客户关系的生命周期特征的界定给出定义，根据定义将客户数据集分成5个子数据集，每个子数据集对应一个周期阶段，其中的第5个流失阶段的客户作为训练集和测试集，前4个阶段的未流失客户则是需要进行预测的。

其次，针对流失客户，再次按照前4个阶段的界定，将流失客户数据集也划分为前4个周期阶段的子数据集，然后对每一个子数据集提取与流失相关的特征，根据提取的特征进行训练，得到流失预测模型。

最后，将未流失客户的每一个阶段的数据集带入每一个阶段的预测模型中进行预测，将每个模型预测得到的结果集合起来，即为整个预测出的将要流失的客户，其处理过程如图2所示。

接下来提取特征，基于电信客户的信息，每个客户拥有很多特征，然而，这些特征中的大部分与流失预测无关，或者相关性不大。多余的特征变量不仅加重了模型生成的计算过程，还干扰了模型的准确性，导致了一个较差的模型，因此，我们需要对特征变量进行提取，提取与流失相关的特征。由于不同阶段的流失客户的流失因素是有区别的，他们的特征维度和取值权重都有差异，因此，为了提取出各个阶段相关的流失特征，稀疏掉与流失无关的特征，用最小的子集来反映最强的信息，由于Lasso回归模型会像最佳子集选择那样便于解释，同时又具有岭回归类似的稳定性,因此它便于我们特取特征与解释模型，所以本发明采用Lasso回归算法进行特征提取，得到的Lasso回归方程，根据系数为0可以稀疏掉无用特征，根据非0系数的大小，可得出与流失相关特征的权重。

然后是模型训练，在进行电信企业客户流失分析时，由Lasso回归得到了影响客户流失的必要特征，避免依靠主观经验统计大量的冗余信息作为分析预测的依据，导致传统的方法如贝叶斯分类、决策树算法和Logistic回归等方法的预测结果准确率不高，输出误差较大，决策依据性较低。因此，选择神经网络之类的强特征模型，本发明选择RBF神经网络作为训练模型。图3为RBF神经网络的拓扑结构图，RBF神经网络是由三层神经元构成的前向神经网络。第一层为输入层，节点个数等于输入的维数；第二层为隐含层，节点个数视问题的复杂度而定；第三层为输出层，节点个数等于输出数据的维数。其中隐含层是非线性的，采用径向基函数作为基函数，其中最常用的就是高斯函数，从而将输入向量空间转换到隐含层空间，使原来线性不可分的问题变得线性可分，并且RBF神经网络的输入层到隐含层之间没有权值，隐含层和输出层之间有权值，输出层为线性的。

本发明所述预测模型的整个预测过程为：

Step1：准备数据，针对缺失值，采用0替换；针对某条数据如果发现其类别标签缺失，则丢弃该条数据；

Step2：通过对客户关系的生命周期特征做出界定，将客户关系的周期划分为获取阶段、提升阶段、成熟阶段、衰退阶段和流失阶段；

Step3：将流失阶段的客户作为模型的训练集和测试集，其余4个阶段的客户作为预测客户，再次按照客户生命周期的界定，将流失阶段的客户再次划分为获取阶段、提升阶段、成熟阶段、衰退阶段；

Step4：数据归一化，采用Z-score进行数据归一化，归一化公式为 δ分别为原始数据集的均值和方差；

Step5：针对流失阶段划分的获取阶段、提升阶段、成熟阶段、衰退阶段的4个数据集，分别执行Step6->Step7->Step8->……->Step20；

Step6：采用Lasso回归提取特征，将数据(X_i,y_i)，i＝1,2,…,N，其中X_i＝(x_i1,x_i2,…,x_ip)^T和y_i(i＝1,2,…,M)带入估计出的回归系数即为Lasso回归系数β_j(t)(j＝1,2,…,p)值，不断调节t值(t∈[0,1],t＝0,0.1,0.2,…,1)，得到多组β_j(t)(j＝1,2,…,p)值，通过绘图语法绘出β_j(t)(t＝0,0.1,0.2,…,1)随t值的变化趋势，取趋势变得稳定时的t值对应的β_j(t)值，最后将得到的非零值对应的变量作为本次提取出的与流失相关的特征，达到降维效果，并且得到Lasso回归方程y^lasso＝β₀+β₁x₁+β₂x₂+…+β_kx_k；其中，β_j表示第j个特征的回归系数，N表示样本点数，M表示输出类别数，p表示样本点的特征维数，x_ij表示样本点xi的第j个特征；

Step7：将Lasso回归提取的特征，作为RBF神经网络的输入变量，采用单神经元作为输出神经元，表示流失“1”；

Step8：采用距离度量方式找到样本点x_i到集合D的子集S＝{x₁,x₂……x_i-1,x_i+1,……x_n}中所有点之间的距离，距离按照从小到大的顺序排序，得到样本点x_i的距离集合e_i；对集合D中的所有点都按照以上方式计算距离，得到所有点的距离集合E＝{e₁,e₂,……,e_n}；其中m、n分别表示样本点的特征维数、样本点数；

Step9：将E集合中每个元素集合中的元素组成一个新的集合E’，对集合E’进行升序排序后得到距离集合E”,拟合一条排序后的E”集合中的距离的变化曲线并绘制曲线，通过观察，将急剧发生变化的位置所对应的距离的值，确定为半径Eps的值；

Step10：将所取半径Eps对应的排序后的距离集合中对应的索引K，取MinPts＝K；

Step11：初始化核心对像集合针对样本点x_i的距离集合e_i,如果样本x_i的距离集合e_i中满足，A＝{a|a∈e_i&&a<Eps},|A|≥MinPts,则x_i即为核心对象，P＝P∪{x_i}；

Step12：输出核心对象集合P,将|P|作为隐含层神经元的个数，P的元素分别为RBF神经网络的隐含层神经元的基函数的中心；

Step13：将Eps作为基函数的扩展常数σ；

Step14：将隐含层神经元的基函数的中心点c_i代入求得的该生命周期阶段对应的Lasso回归方程，得到值y_i；

Step15：将y_i代入tanh(x)＝2sigmoid(2x)-1函数，将得到的数值tanh_i作为该神经元与输出神经元的初始权值；

Step16：将隐含层神经元的基函数的中心点ci与其余数据点之间的距离小于Eps的点归为一个训练集；

Step17：一次选取一个训练集的数据传入模型，计算这个训练集的总误差，根据总误差来更新权值，具体内容如下：

网络的输出：其中w_ij、x_p分别表示第i个隐含层神经元与第j个输出层神经元之间的权值、第p个输入变量；

设d是样本的期望输出值(流失＝1)，e_k为输入第k个样本的误差信号，则：

定义网络的总误差为目标函数：

误差对权值求偏导为：

其中，μ为学习率；重复训练，直到误差小于设定的范围或达到训练次数，得到网络权值。

Step18：将Stp2提取出的获取阶段、提升阶段、成熟阶段、衰退阶段这4个阶段的客户数据集，分别带入训练出的4个阶段的模型，得到各个阶段的预测出的流失客户；

Step19：将各个阶段预测出的客户集合起来，作为总的需要的预测流失客户集；

Step20：输出预测流失客户集。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种改进的Lasso+RBF神经网络组合预测模型，其特征在于，该模型的预测过程具体包括以下步骤：

2.根据权利要求1所述的一种改进的Lasso+RBF神经网络组合预测模型，其特征在于，在步骤S1中，所述客户关系的生命周期特征的界定方法为：

获取阶段：客户入网时间在一个月之内；

流失阶段：客户状态明确为‘拆机’；

S11：提取流失阶段的数据集，得到流失客户；

S12：提取衰退阶段数据集；

S13：提取获取阶段数据集；

S14：提取成熟阶段数据集；

S15：最后剩余的为提升阶段数据集。

3.根据权利要求1所述的一种改进的Lasso+RBF神经网络组合预测模型，其特征在于，所述步骤S4具体包括：首先，将步骤S3中提取的各个阶段的特征作为输入神经元；输出神经元为单神经元，表示流失；其次，采用密度聚类算法获得流失客户的各个阶段客户数据集的核心对象点和半径，分别将其作为隐含层神经元基函数的中心点和扩展常数；然后，初始化隐含层神经元与输出神经元之间的权值，将基函数中心带入流失客户的各个阶段求出的Lasso回归方程，得到的值带入tanh函数，将tanh函数输出值作为该中心点的初始权值；最后，使用批量梯度下降方法训练权值，采用获取到的中心点和扩展常数，将中心点与其余数据点之间的距离小于扩展常数的点归为一个训练集，一次选取一个训练集传入模型，计算这个训练集的总误差，根据总误差来更新权值；

所述RBF神经网络的拓扑结构的确定，具体包括以下步骤：

S42：确定输出层神经元，采用单神经元表示流失；

S43：确定隐含层神经元；

S44：确定隐含层到输出层的权值。

4.根据权利要求3所述的一种改进的Lasso+RBF神经网络组合预测模型，其特征在于，在步骤S43中，所述确定隐含层神经元，具体包括以下步骤：

1)输入样本集D＝{x₁,x₂,...,x_i,...,x_n}；

4)确定MinPts的大小，将所取半径Eps对应的排序后的距离集合中对应的索引k，注意距离相同的元素对应的索引值相同，取MinPts＝K；

5)初始化核心对像集合

S432：获取基函数的扩展常数σ，各基函数采用统一的扩展常数σ＝Eps；

5.根据权利要求4所述的一种改进的Lasso+RBF神经网络组合预测模型，其特征在于，在步骤S44中，所述确定隐含层到输出层的权值，具体包括以下步骤：

S441：初始化权值，利用Logistic回归的思想，步骤如下：