CN109451527B - 一种移动通信用户流失日粒度预测方法及装置 - Google Patents

一种移动通信用户流失日粒度预测方法及装置 Download PDF

Info

Publication number
CN109451527B
CN109451527B CN201811590706.2A CN201811590706A CN109451527B CN 109451527 B CN109451527 B CN 109451527B CN 201811590706 A CN201811590706 A CN 201811590706A CN 109451527 B CN109451527 B CN 109451527B
Authority
CN
China
Prior art keywords
user
granularity
day
data
lost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811590706.2A
Other languages
English (en)
Other versions
CN109451527A (zh
Inventor
温勇
罗宏贤
杨万山
梁勇华
叶超海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yitong Century Science And Technology Co Ltd
Original Assignee
Yitong Century Science And Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yitong Century Science And Technology Co Ltd filed Critical Yitong Century Science And Technology Co Ltd
Priority to CN201811590706.2A priority Critical patent/CN109451527B/zh
Publication of CN109451527A publication Critical patent/CN109451527A/zh
Application granted granted Critical
Publication of CN109451527B publication Critical patent/CN109451527B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/08Testing, supervising or monitoring using real traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种移动通信用户流失日粒度预测方法及装置,包括采集用户数据,并对用户数据进行清洗,对清洗后的用户基本属性、月粒度通信话单数据进行特征提取,得到用户基本特征数据和月平均数据,根据清洗后的日粒度通信话单数据,采用滑动平均算法进行计算,得到非传统统计意义上的月粒度通信特征,之后对其做进一步处理,得到用户通信变化率分布特征,根据用户基本特征数据、月平均数据及用户通信变化率分布特征,得到特征数据集,使用预先选择的机器学习算法对特征数据集进行训练,得到用户流失日粒度预测模型,之后将待预测用户的用户数据输入到用户流失日粒度预测模型,得到用户分类结果,能有效提高模型预测精度,降低营销成本。

Description

一种移动通信用户流失日粒度预测方法及装置
技术领域
本发明涉及通信技术领域,尤其涉及一种移动通信用户流失日粒度预测方法及装置。
背景技术
随着移动通信行业的竞争日益激烈,开发新客户的成本也远高于挽留老客户的成本,相对于吸引新用户,如何保有现有用户、避免用户流失对于运营商来说更为重要,准确的预测移动通信流失用户对于运营商来说是非常重要的。现有的移动通信用户流失预测模型实现的是月粒度预测,一个月只能有一次预测结果,无法通过二次筛选来提高预测精度。
发明内容
本发明实施例提供一种移动通信用户流失日粒度预测方法及装置,能有效解决现有技术仅对月粒度进行预测导致模型精度低的问题,能有效提高模型预测精度,降低营销成本。
本发明一实施例提供一种移动通信用户流失日粒度预测方法,包括:
采集预设天数的用户数据,并对所述用户数据进行清洗;其中,所述用户数据包括用户的用户基本属性、月粒度通信话单数据及日粒度通信话单数据;
对清洗后的用户基本属性、月粒度通信话单数据进行特征提取,得到用户基本特征数据和月平均数据;
根据清洗后的日粒度通信话单数据,采用滑动平均算法进行计算,得到非传统统计意义上的月粒度通信特征,之后对其做进一步处理,得到用户通信变化率分布特征;其中,根据清洗后的当前日期及所述当前日期前n-1天对应的日粒度通信话单数据,计算所述当前日期的月粒度通信特征,n为预设周期;
根据所述用户基本特征数据、所述月平均数据及所述用户通信变化率分布特征,得到特征数据集;
使用预先选择的机器学习算法对所述特征数据集进行训练,得到用户流失日粒度预测模型;
将待预测用户的用户数据输入到所述用户流失日粒度预测模型,得到用户分类结果。
作为上述方案的改进,所述根据清洗后的当前日期及所述当前日期前n-1天对应的日粒度通信话单数据,计算所述当前日期的月粒度通信特征,具体为:
根据以下公式得到所述当前日期的月粒度通信特征:
其中,Ft为所述当前日期的月粒度通信特征,At为所述当前日期的日粒度通信话单数据,At-1、At-2……At-n+1分别表示前一天、前两天直至前n-1天的日粒度通信话单数据。
作为上述方案的改进,所述之后对其做进一步处理,得到用户通信变化率分布特征,具体为:
对所述月粒度通信特征进行变化率计算,得到所述预设天数每天的平均变化率;
将所述平均变化率进行离散化处理,得到用户通信变化率分布特征。
作为上述方案的改进,所述对清洗后的用户基本属性、月粒度通信话单数据进行特征提取,得到用户基本特征数据和月平均数据,具体为:
采用预设的计算口径对清洗后的用户基本属性进行特征提取,得到用户基本特征数据;
采用所述计算口径对清洗后的月粒度通信话单数据进行平均值计算,得到月平均数据。
作为上述方案的改进,所述使用预先选择的机器学习算法对所述特征数据集进行训练,得到用户流失日粒度预测模型,具体为:
将所述特征数据集按预设的比例划分为训练样本和测试样本;
使用预先选择的机器学习算法对所述训练样本进行训练;
采用所述测试样本对训练后的机器学习算法进行测试,得到测试结果;
采用所述测试结果对所述训练后的机器学习算法进行评估;
采用所述测试样本对所述评估后的机器学习算法进行参数调优。
其中,所述训练样本为流失训练样本和非流失训练样本,所述测试样本为流失训练样本和非流失测试样本,具体为:
将所述特征数据集按预设的条件划分为流失样本和非流失样本;
将所述流失样本按所述比例划分为流失训练样本和流失测试样本;
将所述非流失样本按所述比例划分为非流失训练样本和非流失测试样本。
与现有技术相比,本发明实施例公开的一种移动通信用户流失日粒度预测方法,通过采集预设天数的用户数据,并对所述用户数据进行清洗,其中,所述用户数据包括用户的用户基本属性、月粒度通信话单数据及日粒度通信话单数据,对清洗后的用户基本属性、月粒度通信话单数据进行特征提取,得到用户基本特征数据和月平均数据,根据清洗后的日粒度通信话单数据,采用滑动平均算法进行计算,得到非传统统计意义上的月粒度通信特征,之后对其做进一步处理,得到用户通信变化率分布特征,根据所述用户基本特征数据、所述月平均数据及所述用户通信变化率分布特征,得到特征数据集,使用预先选择的机器学习算法对所述特征数据集进行训练,得到用户流失日粒度预测模型,将待预测用户的用户数据输入到所述用户流失日粒度预测模型,得到用户分类结果,能有效解决现有技术仅进行月粒度预测导致无法通过二次筛选来提高预测精度的问题,通过采用滑动平均算法对日粒度通信话单数据进行计算,进而得到非传统统计意义上的月粒度通信特征,从而可以得出用户流失日粒度预测模型,之后通过对多次日粒度预测结果进行二次筛选来提高预测精度,降低营销成本,同时采用通信特征的变化率分布作为模型训练的特征来体现用户的月通信特征趋势,在不遗漏用户的情况下又能体现不同用户之间的区别,能有效提高预测结果的准确度。
本发明另一实施例对应提供了一种移动通信用户流失日粒度预测装置,包括:
数据处理模块,用于采集预设天数的用户数据,并对所述用户数据进行清洗;其中,所述用户数据包括用户的用户基本属性、月粒度通信话单数据及日粒度通信话单数据;
特征提取模块,用于对清洗后的用户基本属性、月粒度通信话单数据进行特征提取,得到用户基本特征数据和月平均数据;
月粒度通信特征处理模块,用于根据清洗后的日粒度通信话单数据,采用滑动平均算法进行计算,得到非传统统计意义上的月粒度通信特征,并之后对其做进一步处理,得到用户通信变化率分布特征;其中,根据清洗后的当前日期及所述当前日期前n-1天对应的日粒度通信话单数据,计算所述当前日期的月粒度通信特征,n为预设周期;
特征数据集构建模块,用于根据所述用户基本特征数据、所述月平均数据及所述用户通信变化率分布特征,得到特征数据集;
模型构建模块,用于使用预先选择的机器学习算法对所述特征数据集进行训练,得到用户流失日粒度预测模型;
用户流失日粒度预测模块,用于将待预测用户的用户数据输入到所述用户流失日粒度预测模型,得到用户分类结果。
本发明另一实施例提供了一种移动通信用户流失日粒度预测装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述发明实施例所述的移动通信用户流失日粒度预测方法。
本发明另一实施例提供了一种存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述发明实施例所述的移动通信用户流失日粒度预测方法。
附图说明
图1是本发明一实施例提供的一种移动通信用户流失日粒度预测方法的流程示意图;
图2是本发明一实施例提供的一种移动通信用户流失日粒度预测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明一实施例提供的一种移动通信用户流失日粒度预测方法的流程示意图,包括:
S11、采集预设天数的用户数据,并对所述用户数据进行清洗;其中,所述用户数据包括用户的用户基本属性、月粒度通信话单数据及日粒度通信话单数据。
需要说明的是,本发明实施例预先对流失用户和非流失用户进行定义,流失用户为上个月有发生主动通信,即有发生主叫、产生流量等情况,但本月没有发生主动通信的用户,非流失用户为上个月和本月都有发生主动通信的用户。另外,若用户注销号码,则不考虑在上述两种情况内,该用户号码数据可由通信运行商提供。为充分发挥大数据的优势,本发明实施例所有步骤都在hadoop大数据平台上完成。
优选地,所述用户数据包括用户基本属性、用户通信话单数据、及通信运行商的标记数据集。其中,所述用户基本属性如性别、年龄、入网日期、是否双卡、是否王卡、常驻地及是否亲情号码,将所述用户基本属性的数据存储到hadoop上。
所述用户通信话单数据包括用户在预设天数内日粒度通信话单数据和月粒度通信话单数据,具体可以为用户最近4个月的日粒度通信话单数据和月粒度通信话单数据,将所述用户通信话单数据存储在hadoop大数据平台。其中,所述日粒度通信话单数据为日交往人数、日主叫次数、日被叫次数、日主叫通话时长、日被叫通话时长、日使用流量,所述月粒度通信话单数据为月ARPU值、月与10086主叫次数、月与10086被叫次数、月与10086主叫通话时长、月与10086被叫通话时长。
所述通信运行商的标记数据集包括通信运行商在预设月份记录的流失用户号码数据集和非流失用户号码数据集,具体可以为某市级移动通信运营商某个月份的真实流失用户号码和未流失用户号码数据。
进一步的,步骤S11还包括对所述用户数据进行清洗,以提高用户数据质量,具体为:
优选地,对所述用户数据进行噪声数据处理。
具体地,噪声处理为将停机时间超过半个月的号码从所述通信运行商的标记数据集的非流失号码数据中删除。所述停机时间是根据获取数据当天是否已停机进行判断,若停机,则获取最近一次的停机时间。
进一步的,对所述噪声处理后的用户数据进行空缺值处理。
具体地,空缺值处理为空缺值用0填补,以保证数据完整性。
进一步的,对所述空缺值处理后的用户数据进行异常值处理。
具体地,异常值处理为剔除极大值的数据,以减少数据误差。
进一步的,对所述异常值处理后的用户数据进行数据离散化处理,得到清洗后的用户数据。
具体地,离散化处理为所述对部分连续性的特征进行离散化处理。
S12、对清洗后的用户基本属性、月粒度通信话单数据进行特征提取,得到用户基本特征数据和月平均数据。
优选地,采用预设的计算口径对清洗后的用户基本属性进行特征提取,得到用户基本特征数据;
采用所述计算口径对清洗后的月粒度通信话单数据进行平均值计算,得到月平均数据。
其中,所述计算口径可以认为是训练用户流失日粒度预测模型的特征变量条件,此处的特征变量为用户基本特征数据、月平均数据及用户通信变化率分布特征。用户基本特征数据包括入网时间、年龄、性别、常驻地、是否双卡、是否王卡、是否亲情号码。月平均数据包括与10086主叫次数比、与10086主叫次数比平均变化率、与10086主被叫通话时长比、与10086主被叫通话时长比平均变化率、月平均ARPU值、ARPU值平均变化率。具体地,所述预设天数为4个月,各特征变量计算口径如下表:
S13、根据清洗后的日粒度通信话单数据,采用滑动平均算法进行计算,得到非传统统计意义上的月粒度通信特征,之后对其做进一步处理,得到用户通信变化率分布特征。
具体地,所述根据清洗后的日粒度通信话单数据,采用滑动平均算法进行计算,得到非传统统计意义上的月粒度通信特征,具体为:
根据清洗后的当前日期及所述当前日期前n-1天对应的日粒度通信话单数据,计算所述当前日期的月粒度通信特征;其中,n为预设周期。
优选地,根据以下公式得到所述当前日期的月粒度通信特征:
其中,Ft为所述当前日期的月粒度通信特征,At为所述当前日期的日粒度通信话单数据,At-1、At-2……At-n+1分别表示前一天、前两天直至前n-1天的日粒度通信话单数据。
需要说明的是,预先设置样本天数和用于日粒度预测的周期,每次向前滑动1天,把计算一个周期的均值作为当前日期的月粒度通信特征,即非传统统计意义的月粒度通信特征可以理解为预设天数内的日粒度通信话单数据多次交互叠加,可得到多个月粒度通信特征。
作为举例,使用窗口为30的滑动平均法对日粒度通信话单数据进行处理,即以30天为预设周期,每次向前滑动1天,把计算所得一个周期的均值作为当前日期的月粒度通信特征,假设所述预设天数为4个月有120天,通过计算有91天的月粒度通信特征(前29天因不足30天,计算结果为空值)。
本实施例采用滑动平均算法对日粒度通信话单数据进行计算,进而得出非传统统计意义上的月粒度通信特征。
进一步的,对所述月粒度通信特征做进一步处理,得到用户通信变化率分布特征。
具体地,对所述月粒度通信特征进行变化率计算,得到所述预设天数每天的平均变化率。
为了减少偶然性和体现变化趋势,分别计算当前日期与前3天的变化率,再求平均值作为当前日期变化率,计算公式为:
当前日期与前第一天的变化率:Ct-1 t=(Ft-Ft-1)/Ft-1
当前日期与前第二天的变化率Ct-2 t=(Ft-Ft-2)/Ft-2
当前日期与前第三天的变化率Ct-3 t=(Ft-Ft-3)/Ft-3
当前日期的平均变化率:Ct=(Ct-1 t+Ct-2 t+Ct-3 t)/3
其中,Ct为当前日期的平均变化率,Ct-1 t、Ct-2 t、Ct-3 t为当前日期分别与前第一、二、三天的变化率。
进一步的,将所述平均变化率进行离散化处理,得到用户通信变化率分布特征。
根据所得平均变化率的范围从-1到inf,将其离散化,分为[-1,-0.05),[-0.05,0),[0,0.05),[0.05,inf)这4个区间,区间为左包含,即-0.05属于[-0.05,0),得到所述用户通信变化率分布特征。
其中,所述用户通信变化率分布特征为月平均交往人数、月平均主叫次数、月平均被叫次数、月平均使用流量、月平均主叫通话时长、月平均被叫通话时长、交往人数变化率分布、主叫次数变化率分布、被叫次数变化率分布、主叫通话时长变化率分布、被叫通话时长变化率分布、使用流量变化率分布。
S14、根据所述用户基本特征数据、所述月平均数据及所述用户通信变化率分布特征,得到特征数据集。
具体地,所述特征数据集用于训练用户流失日粒度预测模型的特征。
S15、使用预先选择的机器学习算法对所述特征数据集进行训练,得到用户流失日粒度预测模型。
步骤S15具体训练过程为:将所述特征数据集按预设的比例划分为训练样本和测试样本;
使用预先选择的机器学习算法对所述训练样本进行训练;
采用所述测试样本对训练后的机器学习算法进行测试,得到测试结果;
采用所述测试结果对所述训练后的机器学习算法进行评估;
采用所述测试样本对所述评估后的机器学习算法进行参数调优。
其中,所述训练样本为流失训练样本和非流失训练样本,所述测试样本为流失训练样本和非流失测试样本,具体为:
将所述特征数据集按预设的条件划分为流失样本和非流失样本;
将所述流失样本按所述比例划分为流失训练样本和流失测试样本;
将所述非流失样本按所述比例划分为非流失训练样本和非流失测试样本。
可以理解,所述机器学习算法可以为随机森林算法。根据上述对流失用户和非流失用户的定义把步骤S14中的特征数据集划分为流失样本和非流失样本。把流失样本记为正样本,非流失样本记为负样本,先把正样本随机不放回抽样生成训练集和测试集,再对负样本采用欠抽样抽取与正样本训练集同样数量的样本作为训练集,剩下为测试集。分别把正负样本的训练集、测试集合并成样本的训练集和测试集。
进一步的,使用训练样本训练所述机器学习算法,然后使用测试样本进行测试得到测试结果,使用分类结果的查准率、查全率和F值来评估模型。然后遍历随机森林算法的n_estimators、max_features、min_sample_leaf等参数的取值,计算每个取值模型的测试结果的查准率、查全率和F值,选取最优的参数。
其中,查准率为预测为正类的样本预测正确的比例,查全率为实际为正类的样本预测为正类的比例,F值为查准率和查全率的加权平均值。查准率、查全率和F值的算法如下:
TP:预测为正类,实际为正类(预测正确)
TN:预测为负类,实际为负类(预测正确)
FP:预测为正类,实际为负类(预测错误)
FN:预测为负类,实际为正类(预测错误)
S16、将待预测用户的用户数据输入到所述用户流失日粒度预测模型,得到用户分类结果。
优选地,将待预测用户的用户基本属性和用户通信话单数据输入所述用户流失日粒度预测模型进行判定,得到日粒度预测值,即用户分类结果,为待预测用户生成标记“流失用户”或“非流失用户”。
本发明实施例提供的一种移动通信用户流失日粒度预测方法,通过采集预设天数的用户数据,并对所述用户数据进行清洗,其中,所述用户数据包括用户的用户基本属性、月粒度通信话单数据及日粒度通信话单数据,对清洗后的用户基本属性、月粒度通信话单数据进行特征提取,得到用户基本特征数据和月平均数据,根据清洗后的日粒度通信话单数据,采用滑动平均算法进行计算,得到非传统统计意义上的月粒度通信特征,之后对其做进一步处理,得到用户通信变化率分布特征,根据所述用户基本特征数据、所述月平均数据及所述用户通信变化率分布特征,得到特征数据集,使用预先选择的机器学习算法对所述特征数据集进行训练,得到用户流失日粒度预测模型,将待预测用户的用户数据输入到所述用户流失日粒度预测模型,得到用户分类结果,能有效解决现有技术仅进行月粒度预测导致无法通过二次筛选来提高预测精度的问题,通过采用滑动平均算法对日粒度通信话单数据进行计算,进而得到非传统统计意义上的月粒度通信特征,从而可以得出用户流失日粒度预测模型,之后对多次日粒度预测结果进行二次筛选,从而提高预测精度,降低营销成本,同时采用通信特征的变化率分布作为模型训练的特征来体现用户的月通信特征趋势,在不遗漏用户的情况下又能体现不同用户之间的区别,能有效提高预测结果的准确度。
参见图2,是本发明一实施例提供的一种移动通信用户流失日粒度预测装置的结构示意图,包括:
数据处理模块1,用于采集预设天数的用户数据,并对所述用户数据进行清洗;其中,所述用户数据包括用户的用户基本属性、月粒度通信话单数据及日粒度通信话单数据;
特征提取模块2,用于对清洗后的用户基本属性、月粒度通信话单数据进行特征提取,得到用户基本特征数据和月平均数据;
月粒度通信特征处理模块3,用于根据清洗后的日粒度通信话单数据,采用滑动平均算法进行计算,得到非传统统计意义上的月粒度通信特征,之后对其做进一步处理,得到用户通信变化率分布特征;其中,根据清洗后的当前日期及所述当前日期前n-1天对应的日粒度通信话单数据,计算所述当前日期的月粒度通信特征,n为预设周期;
特征数据集构建模块4,用于根据所述用户基本特征数据、所述月平均数据及所述用户通信变化率分布特征,得到特征数据集;
模型构建模块5,用于使用预先选择的机器学习算法对所述特征数据集进行训练,得到用户流失日粒度预测模型;
用户流失日粒度预测模块6,用于将待预测用户的用户数据输入到所述用户流失日粒度预测模型,得到用户分类结果。
优选地,该月粒度通信特征处理模块3包括:
月粒度通信特征计算单元,用于根据清洗后的当前日期及所述当前日期前n-1天对应的日粒度通信话单数据,计算所述当前日期的月粒度通信特征;其中,n为预设周期。
优选地,该月粒度通信特征计算单元包括:
计算单元,用于根据以下公式得到所述当前日期的月粒度通信特征:
其中,Ft为所述当前日期的月粒度通信特征,At为所述当前日期的日粒度通信话单数据,At-1、At-2……At-n+1分别表示前一天、前两天直至前n-1天的日粒度通信话单数据。
优选地,该月粒度通信特征处理模块3包括:
平均变化率计算单元,用于对所述月粒度通信特征进行变化率计算,得到所述预设天数每天的平均变化率;
离散化处理单元,用于将所述平均变化率进行离散化处理,得到用户通信变化率分布特征。
优选地,该特征提取模块2包括:
用户基本特征数据提取单元,用于采用预设的计算口径对清洗后的用户基本属性进行特征提取,得到用户基本特征数据;
月平均数据计算单元,用于采用所述计算口径对清洗后的月粒度通信话单数据进行平均值计算,得到月平均数据。
优选地,该模型构建模块5包括:
样本划分单元,用于将所述特征数据集按预设的比例划分为训练样本和测试样本;
训练单元,用于使用预先选择的机器学习算法对所述训练样本进行训练;
测试单元,用于采用所述测试样本对训练后的机器学习算法进行测试,得到测试结果;
评估单元,用于采用所述测试结果对所述训练后的机器学习算法进行评估;
参数调优单元,用于采用所述测试样本对所述评估后的机器学习算法进行参数调优。
优选地,该样本划分单元包括:
特征数据集划分单元,用于将所述特征数据集按预设的条件划分为流失样本和非流失样本;
流失样本划分单元,用于将所述流失样本按所述比例划分为流失训练样本和流失测试样本;
非流失样本划分单元,用于将所述非流失样本按所述比例划分为非流失训练样本和非流失测试样本。
参见图2,是本发明一实施例提供的一种移动通信用户流失日粒度预测装置的结构示意图。该实施例的移动通信用户流失日粒度预测装置包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述各个移动通信用户流失日粒度预测方法实施例中的步骤,例如图1所述的步骤S13根据清洗后的日粒度通信话单数据,采用滑动平均算法进行计算,得到非传统统计意义上的月粒度通信特征,之后对其做进一步处理,得到用户通信变化率分布特征。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能,例如月粒度通信特征处理模块3,用于根据清洗后的日粒度通信话单数据,采用滑动平均算法进行计算,得到非传统统计意义上的月粒度通信特征,之后对其做进一步处理,得到用户通信变化率分布特征。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述移动通信用户流失日粒度预测装置中的执行过程。
所述移动通信用户流失日粒度预测装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述移动通信用户流失日粒度预测装置可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述示意图仅仅是移动通信用户流失日粒度预测装置的示例,并不构成对移动通信用户流失日粒度预测装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述移动通信用户流失日粒度预测装置还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述移动通信用户流失日粒度预测装置的控制中心,利用各种接口和线路连接整个移动通信用户流失日粒度预测装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述移动通信用户流失日粒度预测装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述移动通信用户流失日粒度预测装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (9)

1.一种移动通信用户流失日粒度预测方法,其特征在于,包括:
采集预设天数的用户数据,并对所述用户数据进行清洗;其中,所述用户数据包括用户的用户基本属性、月粒度通信话单数据及日粒度通信话单数据;
对清洗后的用户基本属性、月粒度通信话单数据进行特征提取,得到用户基本特征数据和月平均数据;
根据清洗后的日粒度通信话单数据,采用滑动平均算法进行计算,得到非传统统计意义上的月粒度通信特征,之后对其做进一步处理,得到用户通信变化率分布特征;其中,根据清洗后的当前日期及所述当前日期前n-1天对应的日粒度通信话单数据,计算所述当前日期的月粒度通信特征,n为预设周期;
根据所述用户基本特征数据、所述月平均数据及所述用户通信变化率分布特征,得到特征数据集;
使用预先选择的机器学习算法对所述特征数据集进行训练,得到用户流失日粒度预测模型;
将待预测用户的用户数据输入到所述用户流失日粒度预测模型,得到用户分类结果。
2.如权利要求1所述的移动通信用户流失日粒度预测方法,其特征在于,所述根据清洗后的当前日期及所述当前日期前n-1天对应的日粒度通信话单数据,计算所述当前日期的月粒度通信特征,具体为:
根据公式(1)得到所述当前日期的月粒度通信特征:
其中,Ft为所述当前日期的月粒度通信特征,At为所述当前日期的日粒度通信话单数据,At-1、At-2……At-n+1分别表示前一天、前两天直至前n-1天的日粒度通信话单数据。
3.如权利要求1所述的移动通信用户流失日粒度预测方法,其特征在于,所述之后对其做进一步处理,得到用户通信变化率分布特征,具体为:
对所述月粒度通信特征进行变化率计算,得到所述预设天数每天的平均变化率;
将所述平均变化率进行离散化处理,得到用户通信变化率分布特征。
4.如权利要求1所述的移动通信用户流失日粒度预测方法,其特征在于,所述对清洗后的用户基本属性、月粒度通信话单数据进行特征提取,得到用户基本特征数据和月平均数据,具体为:
采用预设的计算口径对清洗后的用户基本属性进行特征提取,得到用户基本特征数据;
采用所述计算口径对清洗后的月粒度通信话单数据进行平均值计算,得到月平均数据。
5.如权利要求1所述的移动通信用户流失日粒度预测方法,其特征在于,所述使用预先选择的机器学习算法对所述特征数据集进行训练,得到用户流失日粒度预测模型,具体为:
将所述特征数据集按预设的比例划分为训练样本和测试样本;
使用预先选择的机器学习算法对所述训练样本进行训练;
采用所述测试样本对训练后的机器学习算法进行测试,得到测试结果;
采用所述测试结果对所述训练后的机器学习算法进行评估;
采用所述测试样本对所述评估后的机器学习算法进行参数调优。
6.如权利要求5所述的移动通信用户流失日粒度预测方法,其特征在于,所述训练样本为流失训练样本和非流失训练样本,所述测试样本为流失训练样本和非流失测试样本,具体为:
将所述特征数据集按预设的条件划分为流失样本和非流失样本;
将所述流失样本按所述比例划分为流失训练样本和流失测试样本;
将所述非流失样本按所述比例划分为非流失训练样本和非流失测试样本。
7.一种移动通信用户流失日粒度预测装置,其特征在于,包括:
数据处理模块,用于采集预设天数的用户数据,并对所述用户数据进行清洗;其中,所述用户数据包括用户的用户基本属性、月粒度通信话单数据及日粒度通信话单数据;
特征提取模块,用于对清洗后的用户基本属性、月粒度通信话单数据进行特征提取,得到用户基本特征数据和月平均数据;
月粒度通信特征处理模块,用于根据清洗后的日粒度通信话单数据,采用滑动平均算法进行计算,得到非传统统计意义上的月粒度通信特征,之后对其做进一步处理,得到用户通信变化率分布特征;其中,根据清洗后的当前日期及所述当前日期前n-1天对应的日粒度通信话单数据,计算所述当前日期的月粒度通信特征,n为预设周期;
特征数据集构建模块,用于根据所述用户基本特征数据、所述月平均数据及所述用户通信变化率分布特征,得到特征数据集;
模型构建模块,用于使用预先选择的机器学习算法对所述特征数据集进行训练,得到用户流失日粒度预测模型;
用户流失日粒度预测模块,用于将待预测用户的用户数据输入到所述用户流失日粒度预测模型,得到用户分类结果。
8.一种移动通信用户流失日粒度预测装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6中任意一项所述的移动通信用户流失日粒度预测方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至6中任意一项所述的移动通信用户流失日粒度预测方法。
CN201811590706.2A 2018-12-21 2018-12-21 一种移动通信用户流失日粒度预测方法及装置 Active CN109451527B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811590706.2A CN109451527B (zh) 2018-12-21 2018-12-21 一种移动通信用户流失日粒度预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811590706.2A CN109451527B (zh) 2018-12-21 2018-12-21 一种移动通信用户流失日粒度预测方法及装置

Publications (2)

Publication Number Publication Date
CN109451527A CN109451527A (zh) 2019-03-08
CN109451527B true CN109451527B (zh) 2019-09-20

Family

ID=65535485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811590706.2A Active CN109451527B (zh) 2018-12-21 2018-12-21 一种移动通信用户流失日粒度预测方法及装置

Country Status (1)

Country Link
CN (1) CN109451527B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781922A (zh) * 2019-09-27 2020-02-11 北京淇瑀信息科技有限公司 用于机器学习模型的样本数据生成方法、装置及电子设备
CN112153636A (zh) * 2020-10-29 2020-12-29 浙江鸿程计算机系统有限公司 一种基于机器学习预测电信业用户携号转出的方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103905229A (zh) * 2012-12-27 2014-07-02 中国移动通信集团四川有限公司 一种终端用户流失预警方法与装置
CN104182474A (zh) * 2014-07-30 2014-12-03 北京拓明科技有限公司 一种预流失用户的识别方法
CN105281959A (zh) * 2015-11-04 2016-01-27 东北大学 一种基于隐马尔可夫模型的移动通信用户流失预测方法
CN105469144A (zh) * 2015-11-19 2016-04-06 东北大学 基于粒子分类与bp神经网络的移动通信用户流失预测方法
CN107274001A (zh) * 2017-04-28 2017-10-20 国网浙江省电力公司 一种基于数据挖掘的用电客户流失电量预测方法
CN107784511A (zh) * 2016-08-24 2018-03-09 中国移动通信集团湖南有限公司 一种用户流失预测方法及装置
CN108038711A (zh) * 2017-11-09 2018-05-15 广州虎牙信息科技有限公司 用户流失预测方法、装置以及计算机设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567807B (zh) * 2010-12-23 2016-01-13 上海亚太计算机信息系统有限公司 加油卡客户流失预测方法
CN106203679A (zh) * 2016-06-27 2016-12-07 武汉斗鱼网络科技有限公司 一种用户流失预测方法及系统
CN109034861B (zh) * 2018-06-04 2022-06-07 挖财网络技术有限公司 基于移动端日志行为数据的用户流失预测方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103905229A (zh) * 2012-12-27 2014-07-02 中国移动通信集团四川有限公司 一种终端用户流失预警方法与装置
CN104182474A (zh) * 2014-07-30 2014-12-03 北京拓明科技有限公司 一种预流失用户的识别方法
CN105281959A (zh) * 2015-11-04 2016-01-27 东北大学 一种基于隐马尔可夫模型的移动通信用户流失预测方法
CN105469144A (zh) * 2015-11-19 2016-04-06 东北大学 基于粒子分类与bp神经网络的移动通信用户流失预测方法
CN107784511A (zh) * 2016-08-24 2018-03-09 中国移动通信集团湖南有限公司 一种用户流失预测方法及装置
CN107274001A (zh) * 2017-04-28 2017-10-20 国网浙江省电力公司 一种基于数据挖掘的用电客户流失电量预测方法
CN108038711A (zh) * 2017-11-09 2018-05-15 广州虎牙信息科技有限公司 用户流失预测方法、装置以及计算机设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于数据挖掘的广电客户流失预测分析;胡玉婷等;《2013国际传输与覆盖研讨会论文集》;20131023;全文 *
数据仓库技术在电信精确营销领域的应用探讨;窦会昌;《市场周刊》;20110531;全文 *
电信运营企业客户流失预测与评价研究;迟准;《中国博士学位论文全文数据库》;20140430;全文 *

Also Published As

Publication number Publication date
CN109451527A (zh) 2019-03-08

Similar Documents

Publication Publication Date Title
CN109872535B (zh) 一种智慧交通通行预测方法、装置及服务器
CN106878572A (zh) 处理联络中心系统中的联络和坐席的方法、系统以及制品
US8788438B2 (en) Method performed in a computer system for aiding the assessment of an influence of a user in or interacting with a communication system by applying social network analysis, SNA, functions, a computer system, computer program and computer program product
CN109451527B (zh) 一种移动通信用户流失日粒度预测方法及装置
CN110096617B (zh) 视频分类方法、装置、电子设备及计算机可读存储介质
CN110417607A (zh) 一种流量预测方法、装置及设备
CN109525739B (zh) 一种电话号码识别方法、装置及服务器
CN112967091A (zh) 营销服务事件的智能分发方法、系统及存储介质
CN109033148A (zh) 一种面向多分类的不平衡数据预处理方法、装置及设备
CN109426985A (zh) 信息处理方法、装置、计算机设备和存储介质
CN107784511A (zh) 一种用户流失预测方法及装置
CN108171570A (zh) 一种数据筛选方法、装置及终端
CN110196805B (zh) 数据处理方法、装置、存储介质和电子装置
CN110677269A (zh) 通信用户关系的确定方法、装置和计算机可读存储介质
WO2020248916A1 (zh) 一种信息处理方法及装置
CN110309284A (zh) 一种基于贝叶斯网络推理的自动对答方法及装置
CN114997879B (zh) 一种支付路由方法、装置、设备和存储介质
CN110610373A (zh) 一种潜在客户挖掘处理方法及装置
CN115311001A (zh) 一种基于多重投票算法的预测用户换机倾向的方法及系统
CN110264306B (zh) 基于大数据的产品推荐方法、装置、服务器及介质
CN115956359A (zh) 用于音调和语音分类的累积平均频谱熵分析
CN108881591B (zh) 一种多平台信息推荐方法、装置及存储介质
CN112788087A (zh) 业务产品信息推送方法、装置以及存储介质
CN111062800A (zh) 数据处理方法、装置、电子设备及计算机可读介质
CN114067785B (zh) 语音深度神经网络训练方法、装置、存储介质及电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 510665 East Floor 3, No. 14 and No. 16 Jianzhong Road, Tianhe District, Guangzhou City, Guangdong Province

Applicant after: Yitong Century Science and Technology Co., Ltd.

Address before: 510665 12/F, Building A, Guangzhou Information Port, 16 Keyun Road, Tianhe District, Guangzhou City, Guangdong Province

Applicant before: Guangdong Eastone Technology Co., Ltd.

GR01 Patent grant
GR01 Patent grant