CN109460872B - 一种面向移动通信用户流失不平衡数据预测方法 - Google Patents
一种面向移动通信用户流失不平衡数据预测方法 Download PDFInfo
- Publication number
- CN109460872B CN109460872B CN201811353587.9A CN201811353587A CN109460872B CN 109460872 B CN109460872 B CN 109460872B CN 201811353587 A CN201811353587 A CN 201811353587A CN 109460872 B CN109460872 B CN 109460872B
- Authority
- CN
- China
- Prior art keywords
- user
- data
- forest
- decision tree
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000010295 mobile communication Methods 0.000 title claims abstract description 21
- 238000003066 decision tree Methods 0.000 claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000007637 random forest analysis Methods 0.000 claims description 22
- 239000013598 vector Substances 0.000 claims description 21
- 238000007781 pre-processing Methods 0.000 claims description 16
- SQQCWHCJRWYRLB-UHFFFAOYSA-N 2,3,4,5,6-pentahydroxy-1-[4-[4-[(2,3,4,5,6-pentahydroxy-1-sulfohexyl)amino]phenyl]sulfonylanilino]hexane-1-sulfonic acid Chemical compound C1=CC(NC(C(O)C(O)C(O)C(O)CO)S(O)(=O)=O)=CC=C1S(=O)(=O)C1=CC=C(NC(C(O)C(O)C(O)C(O)CO)S(O)(=O)=O)C=C1 SQQCWHCJRWYRLB-UHFFFAOYSA-N 0.000 claims description 6
- 238000004891 communication Methods 0.000 abstract 1
- 238000007635 classification algorithm Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 2
- 238000013499 data model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明提供了一种面向移动通信用户流失不平衡数据预测方法。该方法主要基于改进的深度森林模型算法框架对通信用户流失不平衡数据进行分类。首先在深度森林模型的多粒度窗口滑动过程构造新的参数,控制不同类别用户数据滑动。将滑动后的数据带入级联森林部分训练,森林中的每颗决策树根据训练结果对不同类别的数据赋予不同的权重。最终算法模型的投票结果采用加权后投票,从而实现对不平衡用户数据的处理。本发明提供的预测方法将深度森林中多粒度滑动模块改进为对不同的分类进行滑动,同时森林中每颗决策树对不同类别用户的权重进行更新,使得整个模型对移动通信用户流失不平衡数据具有更高的识别精度。
Description
技术领域
本发明涉及数据处理相关技术,具体涉及一种面向移动通信用户流失不平衡数据预测方法。
背景技术
随着信息技术的快速发展,移动通信用户的流失已经成为电信运营商急需解决的问题。现在的运营商主要通过统计用户的个人信息数据,并由专业人员通过对过去的数据、资料的总结,结合自身经验进行分析和判断,作出用户流失的预警。目前的移动用户数据呈现出明显分布的不平衡特征,数据中的流失用户数量远小于未流失用户数量。
预测移动通信用户流失,传统的方式主要是通过人工经验进行判别,容易受个人经验影响,精准度和预警效率都比较低。成熟的数据分类算法可以取得较好的分类精度,但是这些算法大多建立在平衡的数据基础上。在移动通信用户的流失数据中,数据具有分布不平衡的特点,应用的传统的分类算法,分类器容易倾向于多数类(即未流失用户),使得我们主要关注的流失用户没有得到正确的识别,所以提升对移动通信用户流失不平衡数据的识别精度已经成为一项亟待解决的问题。针对移动通信用户流失数据的特性,利用一种改进的深度森林模型对流失用户数据进行预测。
深度森林(gcForest)主要由多粒度滑动窗口扫描(Multi-grained Scanning)和级联森林(CascadeForest Structure)组成。首先数据集通过多粒度滑动窗口进行特征的扩充,获得增强的特征向量。并将增强的特征向量作为级联森林的训练集,每一层级联森林上学习得到的为类别的概率分布向量,算法将级联森林在该层输出的向量与滑动窗口获得的特征向量合并,传入下一层学习,在多层次的学习中,算法对整个模型进行性能判定,如果性能没有明显增长,则算法停止,并输出最终的分类结果。该算法较过去的集成学习算法在分类精度上得到进一步提升。
发明内容
经过上述分析本发明旨在解决现有的技术问题。提供一种改进的深度森林模型框架,能够更好地提升该模型在不平衡数据集中的表现,同时提高其对移动通信流失数据中的流失用户的识别率。
一种面向移动通信用户流失不平衡数据预测方法具体步骤如下:
步骤一:构建数据预处理模块并进行数据预处理;
步骤一(1)定义预处理模块1获取用户数据,包括用户基本信息、消费信息、位置信息、终端信息、接触信息等多个维度的信息。
步骤一(2)模块处理其中离群数据、缺失数据。
步骤一(3)模块对其中的连续化数据进行离散化处理。
步骤一(4)定义预处理模块2,用于计算上述获取属性中的信息增益、相关性,排序筛选出强属性。
步骤二:深度森林模型滑动窗口过程改进;
步骤二(1)增加一个可选参数,可以分别控制多数类样本和少数类样本的滑动
步骤二(2)计算不平衡度:
式中Maj表示未流失用户的样本数,Min代表流失用户的样本数。
步骤二(3)根据不平衡度的反比采样进行多粒度滑动,未流失用户中随机滑动部分用户数据,流失用户样本全部滑动。
步骤三:对级联森林部分中的随机森林改进:
步骤三(1)如果随机森林中的某颗决策树对样本分类成功,记该决策树h的P=1若分类错误记P=0;
步骤三(2)移动通信用户流失为二分类问题,则每颗决策树拥有两种分类精度,分别记为Wh,min与Wh,maj:
上式中,h表示第h颗决策树,min表示少数类(流失用户),maj表示多数类(未流失用户)。这种分类精确度即是每颗决策树对不同类别样本的分类权重。
步骤三(3)每颗决策树对每个样本针对不同的类别进行加权投票:
Vi,h=vote(Xi,h,c)*Wh,min
上式中,Xi表示样本,h表示决策树,c表示类别,同样有两个类。
步骤三(4)最终样本的总共投票也分为两个状态的分别投票总和:
上式中,h表示决策树,Tmaj表示分类结果为未流失用户的决策树,Tmin表示分类结果为流失用户的决策树。
步骤三(5)基于加权的投票结果,更新随机森林概率分布输出:
上式中,ProMAJ代表多数类概率(未流失用户概率),ProMIN代表少数类概率(流失用户概率)。
步骤三(6)每层级联森林输出类分布向量[ProMAJ,ProMIN]与多粒度扫描展开的向量组合构成新的向量组,作为下一层级联森林的训练集。
步骤四:根据步骤一至步骤三中的数据预处理模块与改进的深度森林模型进行建模,并输出移动通信用户流失不平衡数据预测结果。
本发明的优点如下:
在原有的深度森林算法的多粒度滑动窗口过程中,针对不平衡数据不同类别进行分别的滑动。通过控制不同类别的滑动,可避免多数类样本训练过拟合,也能提升少数类样本的识别精度。
级联森林过程的改进,将森林中每颗决策树对不同类别的权重进行更新,以提升整个森林对少数类样本的识别精度,以及整体样本识别精度。
附图说明
图1是本发明提供的移动通信用户流失不平衡数据模型框架。
图2是本发明提供的面向移动通信用户不平衡数据改进的深度森林算法流程图。
具体实施方式
结合具体实例作进一步详细的说明:
步骤一:构建数据预处理模块并进行数据预处理;
(1)数据集采用某省运营商流失用户数据,进行数据预处理。
(2)通过预处理模块1获取用户数据,并处理其中缺失值、离群值。
(3)通过预处理模块2与专家经验获取部分关联程度较高的有效特征。
步骤二:数据经过预处理模块后,进入改进的多粒度滑动窗口过程。
(1)在深度森林滑动窗口阶段,对用户数据的不同分类根据不平衡度的反比进行滑动采样。
(2)多粒度窗口按照不平衡度的反比将流失用户样本全部进行窗口滑动,未流失用户样本随机数量部分窗口滑动。窗口滑动后获得增强的特征向量作为级联森林的训练集。
步骤三:改进的级联森林训练过程
(1)这里设级联森林中每层有4个随机森林,每个随机森林中的决策树在对用户样本正确分类后,我们记该决策树的
P(Xi,h,c)=1(h(Xi)=Yi)
P(Xi,h,c)=0(h(Xi)≠Yi)
上式h表示随机森林中的决策树,Xi表示样本,c表示类别,Yi为流失用户标签,Yi=1为流失用户,Yi=0为非流失用户,c表示类别,有两个状态,maj类与min类。
(2)每颗决策树对不同的用户分类有对应的权重值:
上式表示每个决策树h对不同用户分类有不一样的权重,nMAJ表示数据集中非流失用户的样本个数,nMIN表示数据集中流失用户的样本个数。
(3)得到每个决策树的分类权重后,下一步计算随机森林对每个用户样本基于该权重的投票值
上式表示每层中的随机森林对不同的用户样本Xi在不同分类决策树中获得的加权投票总和,其中vote()表示每个决策树的投票,同样投票的种类分为流失与非流失两种。
(4)获得该用户在随机森林上的总投票后,由于每层随机森林输出为用户分类的概率分布向量,则需要获取用户类别的概率分布。
上式为获取用户类别的概率分布公式,ProMAJ代表非流失用户概率,ProMIN代表流失用户概率。
获取该层随机森林上用户类别的概率分布向量[ProMAJ,ProMIN],并与上述多粒度窗口滑动获取的增强特征向量一起组成新的特征向量,作为议下一层随机森林的训练集。
步骤四:最终深度森林算法在经过多层次的随机森林学习后,算法获取的用户分类精度没有提升,则终止算法,并输出流失用户不平衡数据的最后分类结果。
需要指出的是本算法整体为一个针对移动通信用户不平衡数据的分类算法框架,其中级联森林的子分类器,可以替换为其它经典分类器,也能做相应的加权改进。数据的预处理模块可以根据不同运营商的数据集样本进行调整。同时滑动窗口对不同比例样本的采样都是可以相应调整的。
Claims (3)
1.一种面向移动通信用户流失不平衡数据预测方法,其特征在于,包括以下步骤:
步骤一:构建数据预处理模块并进行数据预处理;
步骤二:深度森林模型滑动窗口过程改进;
步骤三:对级联森林部分中的随机森林改进;
步骤四:根据步骤一至步骤三中的数据预处理与改进的深度森林模型进行建模,并输出移动通信用户流失不平衡数据预测结果;
其中所述步骤二包括:多粒度滑动窗口部分增加一个可选参数,可以分别控制多数类和少数类用户样本的滑动;窗口滑动后获得增强的特征向量作为级联森林的训练集;
所述步骤三:对级联森林部分进行改进,包括:
如果级联森林中某颗决策树对样本分类成功,记该决策树h的P=1若分类错误记P=0;P表示分类成功率;
P(Xi,h,c)=1(h(Xi)=Yi)
上式中,h表示随机森林中的决策树,Xi表示样本,Yi为流失用户标签,Yi=1为流失用户,Yi=0为非流失用户,c表示类别,有两个状态,非流失类maj与流失类min;
计算每颗决策树对不同的用户分类有对应的权重值:
上式表示每个决策树h对不同用户分类有不一样的权重,nMAJ表示数据集中非流失用户的样本个数,nMIN表示数据集中流失用户的样本个数;
得到每个决策树的分类权重后,下一步计算随机森林对每个用户样本基于该权重的投票值:
上式表示每层中的随机森林对不同的用户样本Xi在不同分类决策树中获得的加权投票总和,其中vote()表示每个决策树的投票,同样投票的种类分为流失与非流失两种;
获得该用户在随机森林上的总投票后,由于每层随机森林输出为用户分类的概率分布向量,则需要获取用户类别的概率分布:
获取该层随机森林上用户类别的概率分布向量[ProMAJ,ProMIN],ProMAJ代表非流失用户概率,ProMIN代表流失用户概率,并与上述多粒度窗口滑动获取的增强特征向量一起组成新的特征向量,作为下一层随机森林的训练集。
2.根据权利要求1所述一种面向移动通信用户流失不平衡数据预测方法,其特征在于建立两个数据预处理模块,处理数据集中的离群数据、缺失数据,并筛选关联性强的属性。
3.根据权利要求1所述一种面向移动通信用户流失不平衡数据预测方法,其特征在于最终改进的深度森林模型在经过多层次的随机森林学习后,算法获取的用户分类精度没有提升,则终止算法,并输出流失用户不平衡数据的最后预测分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811353587.9A CN109460872B (zh) | 2018-11-14 | 2018-11-14 | 一种面向移动通信用户流失不平衡数据预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811353587.9A CN109460872B (zh) | 2018-11-14 | 2018-11-14 | 一种面向移动通信用户流失不平衡数据预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109460872A CN109460872A (zh) | 2019-03-12 |
CN109460872B true CN109460872B (zh) | 2021-11-16 |
Family
ID=65610408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811353587.9A Active CN109460872B (zh) | 2018-11-14 | 2018-11-14 | 一种面向移动通信用户流失不平衡数据预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109460872B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110177112B (zh) * | 2019-06-05 | 2021-11-30 | 华东理工大学 | 基于双重子空间采样和置信偏移的网络入侵检测方法 |
CN110264342B (zh) * | 2019-06-19 | 2024-06-28 | 深圳前海微众银行股份有限公司 | 一种基于机器学习的业务审核方法及装置 |
CN113469406A (zh) * | 2021-05-20 | 2021-10-01 | 杭州电子科技大学 | 结合多粒度窗口扫描和组合多分类的用户流失预测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239516A (zh) * | 2014-09-17 | 2014-12-24 | 南京大学 | 一种不平衡数据分类方法 |
CN107657274A (zh) * | 2017-09-20 | 2018-02-02 | 浙江大学 | 一种基于k‑means的二叉SVM‑tree不平衡数据工业故障分类方法 |
CN107728476A (zh) * | 2017-09-20 | 2018-02-23 | 浙江大学 | 一种基于SVM‑forest的从非平衡类数据中提取敏感数据的方法 |
CN108021565A (zh) * | 2016-11-01 | 2018-05-11 | 中国移动通信有限公司研究院 | 一种基于语言层的用户满意度的分析方法及装置 |
CN108694413A (zh) * | 2018-05-10 | 2018-10-23 | 广州大学 | 自适应采样不平衡数据分类处理方法、装置、设备及介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363714A (zh) * | 2017-12-21 | 2018-08-03 | 北京至信普林科技有限公司 | 一种方便数据分析人员使用的集成机器学习的方法及系统 |
CN108304884A (zh) * | 2018-02-23 | 2018-07-20 | 华东理工大学 | 一种基于特征逆映射的代价敏感堆叠集成学习框架 |
-
2018
- 2018-11-14 CN CN201811353587.9A patent/CN109460872B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239516A (zh) * | 2014-09-17 | 2014-12-24 | 南京大学 | 一种不平衡数据分类方法 |
CN108021565A (zh) * | 2016-11-01 | 2018-05-11 | 中国移动通信有限公司研究院 | 一种基于语言层的用户满意度的分析方法及装置 |
CN107657274A (zh) * | 2017-09-20 | 2018-02-02 | 浙江大学 | 一种基于k‑means的二叉SVM‑tree不平衡数据工业故障分类方法 |
CN107728476A (zh) * | 2017-09-20 | 2018-02-23 | 浙江大学 | 一种基于SVM‑forest的从非平衡类数据中提取敏感数据的方法 |
CN108694413A (zh) * | 2018-05-10 | 2018-10-23 | 广州大学 | 自适应采样不平衡数据分类处理方法、装置、设备及介质 |
Non-Patent Citations (2)
Title |
---|
"Deep Forest: Towards An Alternative to Deep Neural Networks";Zhi-Hua Zhou,Ji Feng;《arXiv》;20170228;第1-7页 * |
"基于R_SMOTE方法的非平衡数据分类研究";袁铭;《中国优秀硕士学位论文全文数据库 信息科技辑》;20151215(第12期);论文摘要、第1-4章 * |
Also Published As
Publication number | Publication date |
---|---|
CN109460872A (zh) | 2019-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ding et al. | Autospeech: Neural architecture search for speaker recognition | |
CN108363810B (zh) | 一种文本分类方法及装置 | |
US20190228268A1 (en) | Method and system for cell image segmentation using multi-stage convolutional neural networks | |
CN109299741B (zh) | 一种基于多层检测的网络攻击类型识别方法 | |
CN108898479B (zh) | 信用评价模型的构建方法及装置 | |
US20210027145A1 (en) | Fraudulent transaction detection method based on sequence wide and deep learning | |
CN112069310A (zh) | 基于主动学习策略的文本分类方法及系统 | |
CN109460872B (zh) | 一种面向移动通信用户流失不平衡数据预测方法 | |
Mo et al. | Neural architecture search for keyword spotting | |
WO2021189830A1 (zh) | 样本数据优化方法、装置、设备及存储介质 | |
CN113326377A (zh) | 一种基于企业关联关系的人名消歧方法及系统 | |
CN112529638B (zh) | 基于用户分类和深度学习的服务需求动态预测方法及系统 | |
CN112861984A (zh) | 一种基于特征融合与集成学习的语音情感分类方法 | |
CN112818893A (zh) | 一种面向移动终端的轻量化开集地标识别方法 | |
CN113962294A (zh) | 多类型事件预测模型 | |
CN110750641A (zh) | 一种基于序列连接模型和二叉树模型的分类纠错方法 | |
CN111695824A (zh) | 风险尾端客户分析方法、装置、设备及计算机存储介质 | |
CN110110915A (zh) | 一种基于cnn-svr模型的负荷集成预测方法 | |
CN101901251A (zh) | 基于马尔科夫过程亚稳性的复杂网络簇结构分析和识别方法 | |
CN113109782A (zh) | 一种直接应用于雷达辐射源幅度序列的新型分类方法 | |
CN116304518A (zh) | 用于信息推荐的异质图卷积神经网络模型构建方法及系统 | |
Ali et al. | Fake accounts detection on social media using stack ensemble system | |
CN113837266B (zh) | 一种基于特征提取和Stacking集成学习的软件缺陷预测方法 | |
CN117876018A (zh) | 潜在客户识别和预测的方法、装置、电子设备及存储介质 | |
CN113361590A (zh) | 基于多元时间序列的特征融合方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |