CN109460872B

CN109460872B - 一种面向移动通信用户流失不平衡数据预测方法

Info

Publication number: CN109460872B
Application number: CN201811353587.9A
Authority: CN
Inventors: 袁正午; 赵璞; 段炼
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-11-14
Filing date: 2018-11-14
Publication date: 2021-11-16
Anticipated expiration: 2038-11-14
Also published as: CN109460872A

Abstract

本发明提供了一种面向移动通信用户流失不平衡数据预测方法。该方法主要基于改进的深度森林模型算法框架对通信用户流失不平衡数据进行分类。首先在深度森林模型的多粒度窗口滑动过程构造新的参数，控制不同类别用户数据滑动。将滑动后的数据带入级联森林部分训练，森林中的每颗决策树根据训练结果对不同类别的数据赋予不同的权重。最终算法模型的投票结果采用加权后投票，从而实现对不平衡用户数据的处理。本发明提供的预测方法将深度森林中多粒度滑动模块改进为对不同的分类进行滑动，同时森林中每颗决策树对不同类别用户的权重进行更新，使得整个模型对移动通信用户流失不平衡数据具有更高的识别精度。

Description

一种面向移动通信用户流失不平衡数据预测方法

技术领域

本发明涉及数据处理相关技术，具体涉及一种面向移动通信用户流失不平衡数据预测方法。

背景技术

随着信息技术的快速发展，移动通信用户的流失已经成为电信运营商急需解决的问题。现在的运营商主要通过统计用户的个人信息数据，并由专业人员通过对过去的数据、资料的总结，结合自身经验进行分析和判断，作出用户流失的预警。目前的移动用户数据呈现出明显分布的不平衡特征，数据中的流失用户数量远小于未流失用户数量。

预测移动通信用户流失，传统的方式主要是通过人工经验进行判别，容易受个人经验影响，精准度和预警效率都比较低。成熟的数据分类算法可以取得较好的分类精度，但是这些算法大多建立在平衡的数据基础上。在移动通信用户的流失数据中，数据具有分布不平衡的特点，应用的传统的分类算法，分类器容易倾向于多数类(即未流失用户)，使得我们主要关注的流失用户没有得到正确的识别，所以提升对移动通信用户流失不平衡数据的识别精度已经成为一项亟待解决的问题。针对移动通信用户流失数据的特性，利用一种改进的深度森林模型对流失用户数据进行预测。

深度森林(gcForest)主要由多粒度滑动窗口扫描(Multi-grained Scanning)和级联森林(CascadeForest Structure)组成。首先数据集通过多粒度滑动窗口进行特征的扩充，获得增强的特征向量。并将增强的特征向量作为级联森林的训练集，每一层级联森林上学习得到的为类别的概率分布向量，算法将级联森林在该层输出的向量与滑动窗口获得的特征向量合并，传入下一层学习，在多层次的学习中，算法对整个模型进行性能判定，如果性能没有明显增长，则算法停止，并输出最终的分类结果。该算法较过去的集成学习算法在分类精度上得到进一步提升。

发明内容

经过上述分析本发明旨在解决现有的技术问题。提供一种改进的深度森林模型框架，能够更好地提升该模型在不平衡数据集中的表现，同时提高其对移动通信流失数据中的流失用户的识别率。

一种面向移动通信用户流失不平衡数据预测方法具体步骤如下：

步骤一：构建数据预处理模块并进行数据预处理；

步骤一(1)定义预处理模块1获取用户数据，包括用户基本信息、消费信息、位置信息、终端信息、接触信息等多个维度的信息。

步骤一(2)模块处理其中离群数据、缺失数据。

步骤一(3)模块对其中的连续化数据进行离散化处理。

步骤一(4)定义预处理模块2，用于计算上述获取属性中的信息增益、相关性，排序筛选出强属性。

步骤二：深度森林模型滑动窗口过程改进；

步骤二(1)增加一个可选参数，可以分别控制多数类样本和少数类样本的滑动

步骤二(2)计算不平衡度：

式中Maj表示未流失用户的样本数，Min代表流失用户的样本数。

步骤二(3)根据不平衡度的反比采样进行多粒度滑动，未流失用户中随机滑动部分用户数据，流失用户样本全部滑动。

步骤三：对级联森林部分中的随机森林改进：

步骤三(1)如果随机森林中的某颗决策树对样本分类成功，记该决策树h的P＝1若分类错误记P＝0；

步骤三(2)移动通信用户流失为二分类问题，则每颗决策树拥有两种分类精度，分别记为W_h,min与W_h,maj:

上式中，h表示第h颗决策树，min表示少数类(流失用户)，maj表示多数类(未流失用户)。这种分类精确度即是每颗决策树对不同类别样本的分类权重。

步骤三(3)每颗决策树对每个样本针对不同的类别进行加权投票：

V_i,h＝vote(Xi,h,c)*W_h,min

上式中，Xi表示样本，h表示决策树，c表示类别，同样有两个类。

步骤三(4)最终样本的总共投票也分为两个状态的分别投票总和：

上式中，h表示决策树，Tmaj表示分类结果为未流失用户的决策树，Tmin表示分类结果为流失用户的决策树。

步骤三(5)基于加权的投票结果，更新随机森林概率分布输出:

上式中，ProMAJ代表多数类概率(未流失用户概率)，ProMIN代表少数类概率(流失用户概率)。

步骤三(6)每层级联森林输出类分布向量[ProMAJ,ProMIN]与多粒度扫描展开的向量组合构成新的向量组，作为下一层级联森林的训练集。

步骤四：根据步骤一至步骤三中的数据预处理模块与改进的深度森林模型进行建模，并输出移动通信用户流失不平衡数据预测结果。

本发明的优点如下：

在原有的深度森林算法的多粒度滑动窗口过程中，针对不平衡数据不同类别进行分别的滑动。通过控制不同类别的滑动，可避免多数类样本训练过拟合，也能提升少数类样本的识别精度。

级联森林过程的改进，将森林中每颗决策树对不同类别的权重进行更新，以提升整个森林对少数类样本的识别精度，以及整体样本识别精度。

附图说明

图1是本发明提供的移动通信用户流失不平衡数据模型框架。

图2是本发明提供的面向移动通信用户不平衡数据改进的深度森林算法流程图。

具体实施方式

结合具体实例作进一步详细的说明：

步骤一：构建数据预处理模块并进行数据预处理；

(1)数据集采用某省运营商流失用户数据，进行数据预处理。

(2)通过预处理模块1获取用户数据，并处理其中缺失值、离群值。

(3)通过预处理模块2与专家经验获取部分关联程度较高的有效特征。

步骤二：数据经过预处理模块后，进入改进的多粒度滑动窗口过程。

(1)在深度森林滑动窗口阶段，对用户数据的不同分类根据不平衡度的反比进行滑动采样。

(2)多粒度窗口按照不平衡度的反比将流失用户样本全部进行窗口滑动，未流失用户样本随机数量部分窗口滑动。窗口滑动后获得增强的特征向量作为级联森林的训练集。

步骤三：改进的级联森林训练过程

(1)这里设级联森林中每层有4个随机森林，每个随机森林中的决策树在对用户样本正确分类后，我们记该决策树的

P(Xi,h,c)＝1(h(Xi)＝Yi)

P(Xi,h,c)＝0(h(Xi)≠Yi)

上式h表示随机森林中的决策树，Xi表示样本，c表示类别，Yi为流失用户标签，Yi＝1为流失用户，Yi＝0为非流失用户，c表示类别，有两个状态，maj类与min类。

(2)每颗决策树对不同的用户分类有对应的权重值：

上式表示每个决策树h对不同用户分类有不一样的权重，nMAJ表示数据集中非流失用户的样本个数,nMIN表示数据集中流失用户的样本个数。

(3)得到每个决策树的分类权重后，下一步计算随机森林对每个用户样本基于该权重的投票值

上式表示每层中的随机森林对不同的用户样本Xi在不同分类决策树中获得的加权投票总和，其中vote()表示每个决策树的投票，同样投票的种类分为流失与非流失两种。

(4)获得该用户在随机森林上的总投票后，由于每层随机森林输出为用户分类的概率分布向量，则需要获取用户类别的概率分布。

上式为获取用户类别的概率分布公式，ProMAJ代表非流失用户概率，ProMIN代表流失用户概率。

获取该层随机森林上用户类别的概率分布向量[ProMAJ,ProMIN]，并与上述多粒度窗口滑动获取的增强特征向量一起组成新的特征向量，作为议下一层随机森林的训练集。

步骤四：最终深度森林算法在经过多层次的随机森林学习后，算法获取的用户分类精度没有提升，则终止算法，并输出流失用户不平衡数据的最后分类结果。

需要指出的是本算法整体为一个针对移动通信用户不平衡数据的分类算法框架，其中级联森林的子分类器，可以替换为其它经典分类器，也能做相应的加权改进。数据的预处理模块可以根据不同运营商的数据集样本进行调整。同时滑动窗口对不同比例样本的采样都是可以相应调整的。

Claims

1.一种面向移动通信用户流失不平衡数据预测方法，其特征在于，包括以下步骤：

步骤一：构建数据预处理模块并进行数据预处理；

步骤二：深度森林模型滑动窗口过程改进；

步骤三：对级联森林部分中的随机森林改进；

步骤四：根据步骤一至步骤三中的数据预处理与改进的深度森林模型进行建模，并输出移动通信用户流失不平衡数据预测结果；

其中所述步骤二包括：多粒度滑动窗口部分增加一个可选参数，可以分别控制多数类和少数类用户样本的滑动；窗口滑动后获得增强的特征向量作为级联森林的训练集；

所述步骤三：对级联森林部分进行改进，包括：

如果级联森林中某颗决策树对样本分类成功，记该决策树h的P＝1若分类错误记P＝0；P表示分类成功率；

P(Xi,h,c)＝1(h(Xi)＝Yi)

上式中，h表示随机森林中的决策树，Xi表示样本，Yi为流失用户标签，Yi＝1为流失用户，Yi＝0为非流失用户，c表示类别，有两个状态，非流失类maj与流失类min；

计算每颗决策树对不同的用户分类有对应的权重值：

上式表示每个决策树h对不同用户分类有不一样的权重，nMAJ表示数据集中非流失用户的样本个数，nMIN表示数据集中流失用户的样本个数；

得到每个决策树的分类权重后，下一步计算随机森林对每个用户样本基于该权重的投票值：

上式表示每层中的随机森林对不同的用户样本Xi在不同分类决策树中获得的加权投票总和，其中vote()表示每个决策树的投票，同样投票的种类分为流失与非流失两种；

获得该用户在随机森林上的总投票后，由于每层随机森林输出为用户分类的概率分布向量，则需要获取用户类别的概率分布：

获取该层随机森林上用户类别的概率分布向量[ProMAJ,ProMIN]，ProMAJ代表非流失用户概率，ProMIN代表流失用户概率，并与上述多粒度窗口滑动获取的增强特征向量一起组成新的特征向量，作为下一层随机森林的训练集。

2.根据权利要求1所述一种面向移动通信用户流失不平衡数据预测方法，其特征在于建立两个数据预处理模块，处理数据集中的离群数据、缺失数据，并筛选关联性强的属性。

3.根据权利要求1所述一种面向移动通信用户流失不平衡数据预测方法，其特征在于最终改进的深度森林模型在经过多层次的随机森林学习后，算法获取的用户分类精度没有提升，则终止算法，并输出流失用户不平衡数据的最后预测分类结果。