CN106203679A - 一种用户流失预测方法及系统 - Google Patents

一种用户流失预测方法及系统 Download PDF

Info

Publication number
CN106203679A
CN106203679A CN201610482664.5A CN201610482664A CN106203679A CN 106203679 A CN106203679 A CN 106203679A CN 201610482664 A CN201610482664 A CN 201610482664A CN 106203679 A CN106203679 A CN 106203679A
Authority
CN
China
Prior art keywords
user
index
loss
model
target indicator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610482664.5A
Other languages
English (en)
Inventor
程晓歌
吴瑞诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Douyu Network Technology Co Ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201610482664.5A priority Critical patent/CN106203679A/zh
Publication of CN106203679A publication Critical patent/CN106203679A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种用户流失预测方法及系统,涉及网络技术领域。该方法包括以下步骤:从服务器采集用户的基础信息指标和行为信息指标;从在统计期内采集的用户中选取部分用户作为采样用户,并选取采样用户的目标指标和M种指标;根据采样用户的目标指标和M种指标,通过决策树算法构建潜在流失用户识别模型;将在统计期之后采集的M种指标的取值作为潜在流失用户识别模型的输入变量,获得M种指标对应的用户的流失概率,如果流失概率大于设定的阈值,则判断用户为潜在流失用户。本发明通过基于选取的用户的基础信息指标和行为信息指标建立的潜在流失用户识别模型,模型固化简便,建模效率高,而且能够准确地识别潜在流失用户。

Description

一种用户流失预测方法及系统
本发明涉及网络技术领域,具体是涉及一种用户流失预测方法及系统。
背景技术
随着直播行业的飞速发展,各个直播平台之间的竞争日益激烈,导致用户流失形势严峻,对直播平台造成直接经济损失,不利于平台的长期发展。因此,需要通过机器学习算法分析用户的行为,建立潜在流失用户识别模型,精准定位潜在流失的用户,制定维系策略以挽回潜在流失用户。目前用户行为趋于多样化和复杂化,而且变化迅速,导致用户的行为信息指标数量较多,如果直接采用用户的行为参数作为模型的输入变量,将导致建模过程和模型本身较为复杂,而且模型对流失用户预测的准确性不高。
发明内容
针对现有技术中存在的缺陷,本发明的主要目的在于提供一种用户流失预测方法,本发明的另一目的在于提供一种用户流失预测系统,基于选取的用户的基础信息指标和行为信息指标建立的潜在流失用户识别模型,模型固化简便,建模效率高,而且能够准确地识别潜在流失用户。
本发明提供一种用户流失预测方法,包括以下步骤:
S1.从服务器采集用户的基础信息指标和行为信息指标;
S2.从在统计期内采集的用户中选取部分用户作为采样用户,并选取所述采样用户的目标指标和M种指标,所述M种指标包括所述采样用户的基础信息指标和行为信息指标,将目标指标小于设定的阈值的用户划分为流失用户,将目标指标大于所述阈值的用户划分为非流失用户;
S3.根据所述采样用户的目标指标和M种指标,通过决策树算法构建潜在流失用户识别模型;
S4.将在所述统计期之后采集的所述M种指标的取值作为所述潜在流失用户识别模型的输入变量,获得所述M种指标对应的用户的流失概率,如果所述流失概率大于设定的阈值,则判断所述用户为潜在流失用户。
在上述技术方案的基础上,所述目标指标为用户在设定时间段内的观看时长。
在上述技术方案的基础上,所述采样用户中流失用户和非流失用户的比例为,流失用户:非流失用户=1:N,N>1;。
在上述技术方案的基础上,步骤2中,所述M种指标的具体选取方法包括:
S2.1对采集到的所述基础信息指标和行为信息指标中除目标指标之外的其它指标进行转换处理,并剔除所述其它指标在预设范围内的极大值和极小值;
S2.2对于S2.1选取的指标进行多维分析,剔除与所述目标指标无关的指标,保留的指标包括离散型指标和连续型指标;
S2.3对于所述离散型指标使用卡方检验,计算所述离散型指标与所述目标指标之间的卡方值,剔除卡方值小于预设的卡方值阈值的指标;
S2.4对于所述连续型指标使用方差分析,计算所述连续型指标与所述目标指标之间的方差,剔除方差小于预设的方差阈值的连续型指标;对于方差大于预设的方差阈值的连续型指标,计算其与所述目标指标之间的相关系数,并剔除与所述目标指标相关系数小于预设阈值的指标,最终得到M种指标。
在上述技术方案的基础上,步骤S3具体包括:
S3.1将所述采样用户划分成训练集和测试集,所述训练集和测试集均包括流失用户和非流失用户,并且所述训练集和测试集中流失用户和非流失用户的比例分别与所述采样用户中流失用户和非流失用户的比例相同;
S3.2基于所述训练集,通过决策树算法构建潜在流失用户识别模型,并得到具有最优参数组合的所述潜在流失用户识别模型,最优参数组合包括所述M种指标和每个子分支的最小记录数;
S3.3使用测试集评估具有最优参数组合的潜在流失用户识别模型,并得到最优的潜在流失用户识别模型。
在上述技术方案的基础上,得到最优的所述潜在流失用户识别模型的方法包括:
计算潜在流失用户识别模型的多个考核指标,所述考核指标包括准确率、查全率、提升度和F-Measure,选取所述考核指标均为最大的潜在流失用户识别模型为最优的潜在流失用户识别模型。
在上述技术方案的基础上,步骤S3还包括从所述最优的潜在流失用户识别模型中提取多条识别规则,并计算所述识别规则的预测概率,所述预测概率根据通过该规则预测出的所述训练集中流失用户数量n,以及所述预测出的所述训练集中流失用户数量n中真正流失的用户数n1计算得到:预测概率=n1:n,n≥0,n1≥0。
在上述技术方案的基础上,步骤S4具体包括:将在所述统计期之后采集的所述M种指标的取值作为所述识别规则的输入变量,将所述识别规则的预测概率作为所述M种指标对应的用户的流失概率,如果所述流失概率大于设定的阈值,则判断所述用户为潜在流失用户。
在上述技术方案的基础上,所述M种指标包括:观看天数、观看时长、观看房间数、观看天数波动率、观看时长波动率、观看房间数波动率、最近一次观看距离天数、最近一次发送弹幕距离天数、弹幕天数、虚拟礼物赠送天数和注册时长;
所述M种指标包括在不同时间段内的取值。
本发明还提供一种用户流失预测系统,包括:
数据采集模块,用于从服务器采集用户的基础信息指标和行为信息指标;
样本提取模块,用于从在统计期内采集的用户中选取部分用户作为采样用户,并选取所述采样用户的目标指标和M种指标,所述M种指标包括所述采样用户的基础信息指标和行为信息指标,所述采样用户根据所述目标指标划分为流失用户和非流失用户,所述流失用户的目标指标小于设定的阈值,所述非流失用户的目标指标大于所述阈值;
模型构建模块,用于根据所述采样用户的目标指标和M种指标,通过决策树算法构建潜在流失用户识别模型;
用户识别模块,用于将数据采集模块在所述统计期之后采集的所述M种指标的取值作为所述潜在流失用户识别模型的输入变量,获得所述M种指标对应的用户的流失概率,如果所述流失概率大于设定的阈值,则判断所述用户为潜在流失用户。
与现有技术相比,本发明的优点如下:
(1)本发明从用户的基础信息指标和行为信息指标选取M种指标作为构建潜在流失用户识别模型的输入变量,并通过决策树算法构建潜在流失用户识别模型,模型固化简便,建模效率高,而且模型预测的准确性高,能够准确地识别潜在流失用户。
(2)本发明将采集的采样用户划分为成训练集和测试集,基于所述训练集,通过决策树算法构建潜在流失用户识别模型,使用测试集验证和评估潜在流失用户识别模型,并得到其中最优的潜在流失用户识别模型,因此可以提高潜在流失用户识别模型对潜在流失用户预测的准确性。
(3)本发明采用多维分析、卡方检验、方差分析和相关系数分析的多种统计方法结合的方法从用户的基础信息指标和行为信息指标中选取M种指标,指标选取重复性好。
(4)本发明中采样用户中流失用户和非流失用户的比例以及训练集和测试集的比例均可以根据实际需要进行调整,使建立的模型更加灵活,反映实际情况,预测准确率高。
附图说明
图1是本发明实施例用户流失预测方法流程图;
图2是本发明实施例用户流失预测系统示意图。
附图标记:
数据采集模块1,样本提取模块2,模型构建模块3,用户识别模块4。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细描述。
参见图1所示,本发明实施例提供一种用户流失预测方法,包括以下步骤:
S1.从服务器采集用户的基础信息指标和行为信息指标。
其中,基础信息指标包括用户注册时长、用户等级、用户邮箱认证状态,用户手机认证状态、来源类型,注册地。
行为信息指标包括观看信息、登录信息、充值信息、弹幕信息和交易信息。观看信息包括观看天数、观看时长和观看房间数,登录信息包括登录次数和登录天数;充值信息包括充值次数和充值金额,弹幕信息包括发送弹幕天数、发送弹幕次数和发送弹幕房间数;交易信息包括虚拟礼物赠送天数、虚拟礼物赠送次数、虚拟礼物赠送数量、虚拟礼物赠送房间数、获取虚拟礼物天数、获取虚拟礼物次数、获取虚拟礼物数量和获取虚拟礼物的方式。
从时间维度上,行为信息指标包括历史行为信息指标、历史行为信息指标波动率和最近行为信息。
S2.从在统计期内采集的用户中选取部分用户作为采样用户,并选取采样用户的目标指标和M种指标,M种指标包括采样用户的基础信息指标和行为信息指标,将目标指标小于设定的阈值的用户划分为流失用户,将目标指标大于阈值的用户划分为非流失用户。
在统计期内采集的基础信息指标和行为信息指标包括:
观看信息包括当月观看天数、当月观看时长、当月观看房间数、近三个月观看天数波动率、近三个月观看时长波动率、近三个月观看房间数波动率、近三天观看天数、近三天观看时长、近三天观看房间数和最近一次观看距离天数。
登录信息包括当月登录次数、当月登录天数、近三个月登录次数波动率、近三个月登录天数波动率、近三天登录次数、近三天登录天数和最近一次登录距离天数。
充值信息包括当月充值次数和充值金额。
弹幕信息包括当月发送弹幕天数、当月发送弹幕次数、当月发送弹幕房间数、近三个月弹幕天数波动率、近三个月弹幕次数波动率、近三个月弹幕房间数波动率、近三天弹幕天数、近三天弹幕次数、近三天弹幕房间数和最近一次发送弹幕距离天数。
交易信息包含当月虚拟礼物赠送天数、当月虚拟礼物赠送次数、当月虚拟礼物赠送量、当月虚拟礼物赠送房间数、当月获取虚拟礼物天数、当月获取虚拟礼物次数、当月获取虚拟礼物量和当月获取虚拟礼物的方式。
当月为统计期最后一个月,例如统计期为2016年1、2和3月,则当月为3月。
目标指标为用户在设定时间段内的观看时长。
具体的,在考察期观看视频直播的用户的观看时长大于30分钟,如果在预测期完全没有观看的用户为流失用户,如果在预测期内观看的用户为非流失用户。其中,考察期可以为月或周,预测期也相应地可以为月或周,预测期在考察期之后,本实施例以考察期和预测期均为月进行建模作为示例。如果用户A在上月观看时长为100分钟,在下月如果观看时长为0分钟,则记为流失用户,如果用户A在下月观看时长为80分钟,则记为非流失用户。
采样用户中流失用户和非流失用户的比例为,流失用户:非流失用户=1:N,N>1。例如,N=3.5。
本发明中采样用户中流失用户和非流失用户的比例可以根据实际需要进行调整,使建立的模型更加灵活,反映实际情况,预测准确率高。
按照上述比例抽样选取步骤S3中构建潜在流失用户识别模型所需的用户,并按照统计方法选取采样用户的M种指标。
M种指标的具体选取方法包括:
S2.1对采集到的基础信息指标和行为信息指标中除目标指标之外的其它指标进行转换处理,并剔除其它指标在预设范围内的极大值和极小值。转换处理包括对部分指标进行离散化取值,对缺失值进行填充,保证指标的完整性和精确性。
例如,预设范围设为5%,剔除指标在预设范围内的极大值和极小值具体为:剔除该指标的取值范围内的最大值5%范围内和最小值5%范围内的取值。
S2.2对于S2.1选取的指标进行多维分析,剔除与目标指标无关的指标,保留的指标包括离散型指标和连续型指标。这里剔除与目标指标无关的指标包括用户邮箱认证状态、用户手机认证状态、注册地等指标,以及缺失值多的指标。
多维分析是研究维度指标与目标指标之间的关系,例如研究用户手机认证状态与是否为流失用户的关系,认证用户与未认证用户中,流失用户占所有用户的流失比例是否有明显差异。举例说明,认证用户中流失比例为40%,未认证用户流失比例为50%,差异不明显。
S2.3对于离散型指标使用卡方检验,计算离散型指标与目标指标之间的卡方值,剔除卡方值小于预设的卡方值阈值的指标。卡方检验的基本原理是通过卡方值的大小来检验实际观察值与理论值之间的偏离程度,判断两个或两个以上指标之间是否具有关联关系的假设检验。
S2.4对于连续型指标使用方差分析,计算连续型指标与目标指标之间的方差,剔除方差小于预设的方差阈值的连续型指标;对于方差大于预设的方差阈值的连续型指标,计算其与目标指标之间的相关系数,并剔除与目标指标相关系数小于预设阈值的指标,最终得到M种指标。
方差分析是从观察指标的方差入手,研究诸多连续性指标中哪些指标是对目标指标有显著影响的变量。
下面通过具体例子解释通过计算相关系数的方法剔除与目标指标相关系数小于预设阈值的指标。例如,发送弹幕房间数与发送弹幕天数两个指标的相关系数为0.8765,属于强相关指标。通常如果相关系数大于0.8则为强相关,因此应当剔除其中一个指标。发送弹幕房间数与为流失用户的相关系数为0.1245,发送弹幕天数与为流失用户的相关系数为0.3212,因此,剔除与为流失用户相关性小的发送弹幕房间数指标。
本发明采用多维分析、卡方检验、方差分析和相关系数分析的多种统计方法结合的方法从用户的基础信息指标和行为信息指标中选取M种指标,指标选取重复性好。
经过上述步骤筛选的M种指标包括:观看天数、观看时长、观看房间数、观看天数波动率、观看时长波动率、观看房间数波动率、最近一次观看距离天数、最近一次发送弹幕距离天数、弹幕天数、虚拟礼物赠送天数和注册时长。
M种指标包括在统计期内不同时间段内的取值。
具体的,M种指标包括当月观看天数、近三个月观看天数波动率、近三个月观看时长波动率、近三个月观看房间数波动率、近三天观看天数、近三天观看时长、最近一次观看距离天数、近三天弹幕天数、最近一次发送弹幕距离天数、当月虚拟礼物赠送天数和注册时长。
S3.根据采样用户的目标指标和M种指标,通过决策树算法构建潜在流失用户识别模型,步骤S3具体包括:
S3.1将采样用户划分成训练集和测试集,训练集和测试集均包括流失用户和非流失用户,并且训练集和测试集中流失用户和非流失用户的比例分别与采样用户中流失用户和非流失用户的比例相同。
例如,训练集和测试集的比例为3:1,即75%的采样用户划分为训练集,剩余25%的采样用户划分为测试集。
本发明中训练集和测试集的比例均可以根据实际需要进行调整,使建立的模型更加灵活,反映实际情况,预测准确率高。
S3.2基于训练集,通过决策树算法构建潜在流失用户识别模型,并得到具有最优参数组合的潜在流失用户识别模型,最优参数组合包括M种指标和每个子分支的最小记录数。
本发明采用决策树分类算法构建潜在流失用户识别模型。决策树算法,以二分类预测问题为例,利用自变量构造一颗二叉树,将目标变量区分出来,二叉树的内部节点一般表示为一个逻辑判断,叶子节点表示类别标记。运用决策树算法建立潜在流失用户识别模型,并调试潜在流失用户识别模型的各种参数,对潜在流失用户识别模型进行剪枝,选择具有最优参数组合的潜在流失用户识别模型。
最优参数组合的确定通过,例如,选择每个子分支的最小记录数为30。
S3.3使用测试集评估具有最优参数组合的潜在流失用户识别模型,并得到最优的潜在流失用户识别模型。
得到最优的潜在流失用户识别模型的方法包括:
计算潜在流失用户识别模型的多个考核指标,考核指标包括准确率、查全率、提升度和F-Measure,选取考核指标均为最大的潜在流失用户识别模型为最优的潜在流失用户识别模型。
准确率为正确识别的流失用户数/识别出流失的用户数。
查全率为正确识别的流失用户数/测试集中流失的用户数。
提升度为准确率/(测试集中流失用户数/测试集中所有用户数)。
F-Measure=正确率*召回率*2/(正确率+召回率)
F值即为正确率和召回率的调和平均值。
步骤S3还包括从最优的潜在流失用户识别模型中提取多条识别规则,并计算识别规则的预测概率,预测概率根据通过该规则预测出的训练集中流失用户数量n,以及预测出的训练集中流失用户数量n中真正流失的用户数n1计算得到:预测概率=n1:n,n≥0,n1≥0。
例如,其中一条识别规则为:如果近三天观看天数>d,并且观看时长<t以及近三个月观看天数波动率<x……,其中训练集中通过该规则预测出的流失用户数量n=100,预测出的用户中真正流失的用户数n1=60,则预测概率为60/100=60%。其中d≥0,t≥0,x≥0,x和t均为实数,d为整数。
本发明从用户的基础信息指标和行为信息指标选取M种指标作为构建潜在流失用户识别模型的输入变量,并通过决策树算法构建潜在流失用户识别模型,模型固化简便,建模效率高,而且模型预测的准确性高,能够准确地识别潜在流失用户。
本发明将采集的采样用户划分为成训练集和测试集,基于所述训练集,通过决策树算法构建潜在流失用户识别模型,使用测试集验证和评估潜在流失用户识别模型,并得到其中最优的潜在流失用户识别模型,因此可以提高潜在流失用户识别模型对潜在流失用户预测的准确性。
S4.将在统计期之后采集的M种指标的取值作为潜在流失用户识别模型的输入变量,获得M种指标对应的用户的流失概率,如果流失概率大于设定的阈值,则判断用户为潜在流失用户。
步骤S4具体包括:将在统计期之后采集的M种指标的取值作为识别规则的输入变量,将识别规则的预测概率作为M种指标对应的用户的流失概率,如果流失概率大于设定的阈值,则判断用户为潜在流失用户。
下面通过具体例子进行说明。
在统计期之后采集M种指标的取值的具体方法如下:
例如,统计期为2016年1、2和3月,则在统计期之后采集M种指标的取值可以在2016年2、3和4月、2016年3、4和5月或2016年4、5和6月进行,M种指标包括在上述采集期内不同时间段内的取值。
如果预先设定的阈值=50%,并且,
如果用户B的近三天观看天数>d,并且观看时长<t以及近三个月观看天数波动率<x……,该识别规则的预测概率为60%,则判断该用户B为流失用户。
如果用户C的近三天观看天数>d并且观看时长<t以及近三个月观看天数波动率>x……该识别规则的预测概率为30%,则判断该用户C为非流失用户。
其中d≥0,t≥0,x≥0,x和t均为实数,d为整数。
可以通过撰写sql脚本,进行自动化部署,每月定期将用户的M种指标输入到潜在流失用户识别模型中,预测该用户为潜在流失用户的概率,判断用户是否为潜在流失用户。
进一步可以输出潜在流失用户清单,并分析潜在流失用户的流失原因,匹配相应的策略,进行维系挽留。
参见图2所示,本发明还提供一种用户流失预测系统,包括:
数据采集模块1,用于从服务器采集用户的基础信息指标和行为信息指标。
样本提取模块2,用于从在统计期内采集的用户中选取部分用户作为采样用户,并选取采样用户的目标指标和M种指标,M种指标包括采样用户的基础信息指标和行为信息指标,采样用户根据目标指标划分为流失用户和非流失用户,流失用户的目标指标小于设定的阈值,非流失用户的目标指标大于阈值。
模型构建模块3,用于根据采样用户的目标指标和M种指标,通过决策树算法构建潜在流失用户识别模型。
用户识别模块4,用于将数据采集模块1在统计期之后采集的M种指标的取值作为潜在流失用户识别模型的输入变量,获得M种指标对应的用户的流失概率,如果流失概率大于设定的阈值,则判断用户为潜在流失用户。
本发明采用决策树算法构建潜在流失用户识别模型,识别规则与流失原因之间关系可解释性好,因此便于针对识别出的潜在流失用户,快速、准确地确定其具体流失原因,并匹配相应的维系策略进行营销挽留,通过提升用户体验,有效地延长潜在流失用户的观看时长,避免潜在流失用户流失。
本领域的技术人员可以对本发明实施例进行各种修改和变型,倘若这些修改和变型在本发明权利要求及其等同技术的范围之内,则这些修改和变型也在本发明的保护范围之内。
说明书中未详细描述的内容为本领域技术人员公知的现有技术。

Claims (10)

1.一种用户流失预测方法,其特征在于,包括以下步骤:
S1.从服务器采集用户的基础信息指标和行为信息指标;
S2.从在统计期内采集的用户中选取部分用户作为采样用户,并选取所述采样用户的目标指标和M种指标,所述M种指标包括所述采样用户的基础信息指标和行为信息指标,将目标指标小于设定的阈值的用户划分为流失用户,将目标指标大于所述阈值的用户划分为非流失用户;
S3.根据所述采样用户的目标指标和M种指标,通过决策树算法构建潜在流失用户识别模型;
S4.将在所述统计期之后采集的所述M种指标的取值作为所述潜在流失用户识别模型的输入变量,获得所述M种指标对应的用户的流失概率,如果所述流失概率大于设定的阈值,则判断所述用户为潜在流失用户。
2.如权利要求1所述的一种用户流失预测方法,其特征在于:所述目标指标为用户在设定时间段内的观看时长。
3.如权利要求1所述的一种用户流失预测方法,其特征在于:所述采样用户中流失用户和非流失用户的比例为,流失用户:非流失用户=1:N,N>1;。
4.如权利要求2所述的一种用户流失预测方法,其特征在于,步骤2中,所述M种指标的具体选取方法包括:
S2.1对采集到的所述基础信息指标和行为信息指标中除目标指标之外的其它指标进行转换处理,并剔除所述其它指标在预设范围内的极大值和极小值;
S2.2对于S2.1选取的指标进行多维分析,剔除与所述目标指标无关的指标,保留的指标包括离散型指标和连续型指标;
S2.3对于所述离散型指标使用卡方检验,计算所述离散型指标与所述目标指标之间的卡方值,剔除卡方值小于预设的卡方值阈值的指标;
S2.4对于所述连续型指标使用方差分析,计算所述连续型指标与所述目标指标之间的方差,剔除方差小于预设的方差阈值的连续型指标;对于方差大于预设的方差阈值的连续型指标,计算其与所述目标指标之间的相关系数,并剔除与所述目标指标相关系数小于预设阈值的指标,最终得到M种指标。
5.如权利要求1所述的一种用户流失预测方法,其特征在于:步骤S3具体包括:
S3.1将所述采样用户划分成训练集和测试集,所述训练集和测试集均包括流失用户和非流失用户,并且所述训练集和测试集中流失用户和非流失用户的比例分别与所述采样用户中流失用户和非流失用户的比例相同;
S3.2基于所述训练集,通过决策树算法构建潜在流失用户识别模型,并得到具有最优参数组合的所述潜在流失用户识别模型,最优参数组合包括所述M种指标和每个子分支的最小记录数;
S3.3使用测试集评估具有最优参数组合的潜在流失用户识别模型,并得到最优的潜在流失用户识别模型。
6.如权利要求5所述的一种用户流失预测方法,其特征在于:得到最优的所述潜在流失用户识别模型的方法包括:
计算潜在流失用户识别模型的多个考核指标,所述考核指标包括准确率、查全率、提升度和F-Measure,选取所述考核指标均为最大的潜在流失用户识别模型为最优的潜在流失用户识别模型。
7.如权利要求5或6所述的一种用户流失预测方法,其特征在于:步骤S3还包括从所述最优的潜在流失用户识别模型中提取多条识别规则,并计算所述识别规则的预测概率,所述预测概率根据通过该规则预测出的所述训练集中流失用户数量n,以及所述预测出的所述训练集中流失用户数量n中真正流失的用户数n1计算得到:预测概率=n1:n,n≥0,n1≥0。
8.如权利要求7所述的一种用户流失预测方法,其特征在于:步骤S4具体包括:将在所述统计期之后采集的所述M种指标的取值作为所述识别规则的输入变量,将所述识别规则的预测概率作为所述M种指标对应的用户的流失概率,如果所述流失概率大于设定的阈值,则判断所述用户为潜在流失用户。
9.如权利要求1所述的一种用户流失预测方法,其特征在于:
所述M种指标包括:观看天数、观看时长、观看房间数、观看天数波动率、观看时长波动率、观看房间数波动率、最近一次观看距离天数、最近一次发送弹幕距离天数、弹幕天数、虚拟礼物赠送天数和注册时长;
所述M种指标包括在不同时间段内的取值。
10.一种用户流失预测系统,其特征在于,包括:
数据采集模块(1),用于从服务器采集用户的基础信息指标和行为信息指标;
样本提取模块(2),用于从在统计期内采集的用户中选取部分用户作为采样用户,并选取所述采样用户的目标指标和M种指标,所述M种指标包括所述采样用户的基础信息指标和行为信息指标,所述采样用户根据所述目标指标划分为流失用户和非流失用户,所述流失用户的目标指标小于设定的阈值,所述非流失用户的目标指标大于所述阈值;
模型构建模块(3),用于根据所述采样用户的目标指标和M种指标,通过决策树算法构建潜在流失用户识别模型;
用户识别模块(4),用于将数据采集模块在所述统计期之后采集的所述M种指标的取值作为所述潜在流失用户识别模型的输入变量,获得所述M种指标对应的用户的流失概率,如果所述流失概率大于设定的阈值,则判断所述用户为潜在流失用户。
CN201610482664.5A 2016-06-27 2016-06-27 一种用户流失预测方法及系统 Pending CN106203679A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610482664.5A CN106203679A (zh) 2016-06-27 2016-06-27 一种用户流失预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610482664.5A CN106203679A (zh) 2016-06-27 2016-06-27 一种用户流失预测方法及系统

Publications (1)

Publication Number Publication Date
CN106203679A true CN106203679A (zh) 2016-12-07

Family

ID=57461399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610482664.5A Pending CN106203679A (zh) 2016-06-27 2016-06-27 一种用户流失预测方法及系统

Country Status (1)

Country Link
CN (1) CN106203679A (zh)

Cited By (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107358247A (zh) * 2017-04-18 2017-11-17 阿里巴巴集团控股有限公司 一种确定流失用户的方法及装置
CN107462330A (zh) * 2017-08-17 2017-12-12 深圳市比特原子科技有限公司 一种颜色识别方法和系统
CN107507036A (zh) * 2017-08-28 2017-12-22 深圳市诚壹科技有限公司 一种数据预测的方法及终端
CN107609708A (zh) * 2017-09-25 2018-01-19 广州赫炎大数据科技有限公司 一种基于手机游戏商店的用户流失预测方法及系统
CN107679686A (zh) * 2017-08-28 2018-02-09 阿里巴巴集团控股有限公司 一种业务执行方法及装置
CN107784390A (zh) * 2017-10-19 2018-03-09 北京京东尚科信息技术有限公司 用户生命周期的识别方法、装置、电子设备及存储介质
CN107832581A (zh) * 2017-12-15 2018-03-23 百度在线网络技术(北京)有限公司 状态预测方法和装置
CN108108861A (zh) * 2018-03-06 2018-06-01 中国银行股份有限公司 一种潜在客户的预测方法及装置
CN108322780A (zh) * 2018-01-24 2018-07-24 广州虎牙信息科技有限公司 平台用户行为的预测方法、存储介质和终端
CN108428138A (zh) * 2017-02-13 2018-08-21 北京京东尚科信息技术有限公司 一种基于客户分群的客户生存率分析装置及分析方法
CN108510298A (zh) * 2017-02-28 2018-09-07 阿里巴巴集团控股有限公司 目标用户的识别方法及装置
CN108510096A (zh) * 2017-02-24 2018-09-07 百度在线网络技术(北京)有限公司 商户流失预测方法、装置、设备及存储介质
CN108537587A (zh) * 2018-04-03 2018-09-14 广州优视网络科技有限公司 流失用户预警方法、装置、计算机可读存储介质和服务器
CN108665321A (zh) * 2018-05-18 2018-10-16 广州虎牙信息科技有限公司 高粘性用户流失预测方法、装置及计算机可读存储介质
CN108683949A (zh) * 2018-05-18 2018-10-19 北京奇艺世纪科技有限公司 一种直播平台潜在用户的提取方法及装置
CN108712279A (zh) * 2018-04-27 2018-10-26 中国联合网络通信集团有限公司 用户离网的预测方法及装置
CN108830645A (zh) * 2018-05-31 2018-11-16 厦门快商通信息技术有限公司 一种访客流失预测方法及系统
CN108876394A (zh) * 2017-05-16 2018-11-23 北京京东尚科信息技术有限公司 识别电子商务平台潜在流失用户的方法和装置
CN109299961A (zh) * 2017-07-24 2019-02-01 北京嘀嘀无限科技发展有限公司 防止用户流失的方法及装置、设备和存储介质
CN109451527A (zh) * 2018-12-21 2019-03-08 广东宜通世纪科技股份有限公司 一种移动通信用户流失日粒度预测方法及装置
CN109451449A (zh) * 2018-09-06 2019-03-08 广州瀚信通信科技股份有限公司 一种基于决策树算法的移动通信4g套餐降档预测方法
CN109508329A (zh) * 2018-12-07 2019-03-22 广州市诚毅科技软件开发有限公司 基于广电大数据的用户流失预警方法、系统及存储介质
CN109558962A (zh) * 2017-09-26 2019-04-02 中国移动通信集团山西有限公司 预测电信用户流失的装置、方法和存储介质
CN109636443A (zh) * 2018-11-17 2019-04-16 南京中数媒介研究有限公司 客户流失预测的深度学习方法及装置
CN109685255A (zh) * 2018-12-13 2019-04-26 麒麟合盛网络技术股份有限公司 一种预测用户流失的方法和装置
CN109711860A (zh) * 2018-11-12 2019-05-03 平安科技(深圳)有限公司 用户行为的预测方法及装置、存储介质、计算机设备
CN109740685A (zh) * 2019-01-08 2019-05-10 武汉斗鱼鱼乐网络科技有限公司 用户流失的特征分析方法、预测方法、装置、设备及介质
CN109784993A (zh) * 2019-01-06 2019-05-21 广州银汉科技有限公司 一种基于大数据的用户轨迹智能精准预测系统
CN109962795A (zh) * 2017-12-22 2019-07-02 中国移动通信集团广东有限公司 一种基于多维组合变量的4g用户流失预警方法和系统
CN109993560A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 数据处理方法、系统及计算机可读介质
CN110020133A (zh) * 2017-11-07 2019-07-16 腾讯科技(深圳)有限公司 内容推荐处理方法和装置、计算机设备和存储介质
CN110222975A (zh) * 2019-05-31 2019-09-10 北京奇艺世纪科技有限公司 一种流失用户分析方法、装置、电子设备及存储介质
CN110322085A (zh) * 2018-03-29 2019-10-11 北京九章云极科技有限公司 一种客户流失预测方法和装置
CN110634018A (zh) * 2019-08-30 2019-12-31 阿里巴巴集团控股有限公司 一种流失用户的特征刻画方法、识别方法及相关装置
CN111178972A (zh) * 2019-12-30 2020-05-19 北京每日优鲜电子商务有限公司 消息推送方法、装置、存储介质及设备
CN111340265A (zh) * 2018-12-19 2020-06-26 北京嘀嘀无限科技发展有限公司 司机下线干预方法、装置、电子设备和计算机存储介质
CN111724185A (zh) * 2019-03-21 2020-09-29 北京沃东天骏信息技术有限公司 用户维护方法和装置
CN111833086A (zh) * 2019-04-22 2020-10-27 百度在线网络技术(北京)有限公司 账户分类模型训练方法及装置和账户分类方法及装置
CN112529236A (zh) * 2019-09-18 2021-03-19 泰康保险集团股份有限公司 目标对象识别方法、装置、电子设备及存储介质
CN112671573A (zh) * 2020-12-17 2021-04-16 北京神州泰岳软件股份有限公司 识别宽带业务中潜在离网用户的方法及装置
CN113222632A (zh) * 2020-02-04 2021-08-06 北京京东振世信息技术有限公司 对象挖掘的方法和装置
CN113240451A (zh) * 2021-04-12 2021-08-10 西南财经大学 一种用户流失的预测方法和装置
CN113391923A (zh) * 2021-06-18 2021-09-14 上海钧正网络科技有限公司 系统资源数据分配方法和装置
CN114742569A (zh) * 2021-01-08 2022-07-12 广州视源电子科技股份有限公司 用户生命阶段预测方法、装置、计算机设备及存储介质
CN114785627A (zh) * 2022-03-25 2022-07-22 中国联合网络通信集团有限公司 基于通信合约的资费处理方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050273430A1 (en) * 2004-06-02 2005-12-08 Pliha Robert K Systems and methods for scoring bank customers direct deposit account transaction activity to match financial behavior to specific acqusition, performance and risk events defined by the bank using a decision tree and stochastic process
CN104504460A (zh) * 2014-12-09 2015-04-08 北京嘀嘀无限科技发展有限公司 预测叫车平台的用户流失的方法和装置
CN105069534A (zh) * 2015-08-18 2015-11-18 广州华多网络科技有限公司 客户流失预测方法以及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050273430A1 (en) * 2004-06-02 2005-12-08 Pliha Robert K Systems and methods for scoring bank customers direct deposit account transaction activity to match financial behavior to specific acqusition, performance and risk events defined by the bank using a decision tree and stochastic process
CN104504460A (zh) * 2014-12-09 2015-04-08 北京嘀嘀无限科技发展有限公司 预测叫车平台的用户流失的方法和装置
CN105069534A (zh) * 2015-08-18 2015-11-18 广州华多网络科技有限公司 客户流失预测方法以及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈泽鹏等: "《新创小型企业间接融资的信用风险评价研究》", 30 September 2012, 华南理工大学出版社 *

Cited By (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108428138A (zh) * 2017-02-13 2018-08-21 北京京东尚科信息技术有限公司 一种基于客户分群的客户生存率分析装置及分析方法
CN108428138B (zh) * 2017-02-13 2021-07-20 北京京东尚科信息技术有限公司 一种基于客户分群的客户生存率分析装置及分析方法
CN108510096A (zh) * 2017-02-24 2018-09-07 百度在线网络技术(北京)有限公司 商户流失预测方法、装置、设备及存储介质
CN108510298B (zh) * 2017-02-28 2021-09-21 创新先进技术有限公司 目标用户的识别方法及装置
CN108510298A (zh) * 2017-02-28 2018-09-07 阿里巴巴集团控股有限公司 目标用户的识别方法及装置
CN107358247A (zh) * 2017-04-18 2017-11-17 阿里巴巴集团控股有限公司 一种确定流失用户的方法及装置
CN107358247B (zh) * 2017-04-18 2020-08-04 阿里巴巴集团控股有限公司 一种确定流失用户的方法及装置
CN108876394A (zh) * 2017-05-16 2018-11-23 北京京东尚科信息技术有限公司 识别电子商务平台潜在流失用户的方法和装置
CN109299961A (zh) * 2017-07-24 2019-02-01 北京嘀嘀无限科技发展有限公司 防止用户流失的方法及装置、设备和存储介质
CN107462330B (zh) * 2017-08-17 2024-04-19 深圳市比特原子科技有限公司 一种颜色识别方法和系统
CN107462330A (zh) * 2017-08-17 2017-12-12 深圳市比特原子科技有限公司 一种颜色识别方法和系统
CN107679686B (zh) * 2017-08-28 2024-03-29 创新先进技术有限公司 一种业务执行方法及装置
CN107679686A (zh) * 2017-08-28 2018-02-09 阿里巴巴集团控股有限公司 一种业务执行方法及装置
CN107507036A (zh) * 2017-08-28 2017-12-22 深圳市诚壹科技有限公司 一种数据预测的方法及终端
CN107609708B (zh) * 2017-09-25 2021-03-26 广州赫炎大数据科技有限公司 一种基于手机游戏商店的用户流失预测方法及系统
CN107609708A (zh) * 2017-09-25 2018-01-19 广州赫炎大数据科技有限公司 一种基于手机游戏商店的用户流失预测方法及系统
CN109558962A (zh) * 2017-09-26 2019-04-02 中国移动通信集团山西有限公司 预测电信用户流失的装置、方法和存储介质
CN107784390A (zh) * 2017-10-19 2018-03-09 北京京东尚科信息技术有限公司 用户生命周期的识别方法、装置、电子设备及存储介质
CN110020133A (zh) * 2017-11-07 2019-07-16 腾讯科技(深圳)有限公司 内容推荐处理方法和装置、计算机设备和存储介质
CN107832581B (zh) * 2017-12-15 2022-02-18 百度在线网络技术(北京)有限公司 状态预测方法和装置
CN107832581A (zh) * 2017-12-15 2018-03-23 百度在线网络技术(北京)有限公司 状态预测方法和装置
CN109962795A (zh) * 2017-12-22 2019-07-02 中国移动通信集团广东有限公司 一种基于多维组合变量的4g用户流失预警方法和系统
CN109993560A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 数据处理方法、系统及计算机可读介质
CN108322780A (zh) * 2018-01-24 2018-07-24 广州虎牙信息科技有限公司 平台用户行为的预测方法、存储介质和终端
CN108322780B (zh) * 2018-01-24 2020-12-25 广州虎牙信息科技有限公司 平台用户行为的预测方法、存储介质和终端
CN108108861A (zh) * 2018-03-06 2018-06-01 中国银行股份有限公司 一种潜在客户的预测方法及装置
CN110322085A (zh) * 2018-03-29 2019-10-11 北京九章云极科技有限公司 一种客户流失预测方法和装置
CN108537587A (zh) * 2018-04-03 2018-09-14 广州优视网络科技有限公司 流失用户预警方法、装置、计算机可读存储介质和服务器
CN108712279A (zh) * 2018-04-27 2018-10-26 中国联合网络通信集团有限公司 用户离网的预测方法及装置
CN108712279B (zh) * 2018-04-27 2021-08-17 中国联合网络通信集团有限公司 用户离网的预测方法及装置
CN108665321A (zh) * 2018-05-18 2018-10-16 广州虎牙信息科技有限公司 高粘性用户流失预测方法、装置及计算机可读存储介质
CN108683949A (zh) * 2018-05-18 2018-10-19 北京奇艺世纪科技有限公司 一种直播平台潜在用户的提取方法及装置
CN108830645A (zh) * 2018-05-31 2018-11-16 厦门快商通信息技术有限公司 一种访客流失预测方法及系统
CN109451449A (zh) * 2018-09-06 2019-03-08 广州瀚信通信科技股份有限公司 一种基于决策树算法的移动通信4g套餐降档预测方法
CN109451449B (zh) * 2018-09-06 2021-10-26 广州瀚信通信科技股份有限公司 一种基于决策树算法的移动通信4g套餐降档预测方法
CN109711860A (zh) * 2018-11-12 2019-05-03 平安科技(深圳)有限公司 用户行为的预测方法及装置、存储介质、计算机设备
CN109636443A (zh) * 2018-11-17 2019-04-16 南京中数媒介研究有限公司 客户流失预测的深度学习方法及装置
CN109508329A (zh) * 2018-12-07 2019-03-22 广州市诚毅科技软件开发有限公司 基于广电大数据的用户流失预警方法、系统及存储介质
CN109685255A (zh) * 2018-12-13 2019-04-26 麒麟合盛网络技术股份有限公司 一种预测用户流失的方法和装置
CN111340265A (zh) * 2018-12-19 2020-06-26 北京嘀嘀无限科技发展有限公司 司机下线干预方法、装置、电子设备和计算机存储介质
CN109451527A (zh) * 2018-12-21 2019-03-08 广东宜通世纪科技股份有限公司 一种移动通信用户流失日粒度预测方法及装置
CN109784993A (zh) * 2019-01-06 2019-05-21 广州银汉科技有限公司 一种基于大数据的用户轨迹智能精准预测系统
CN109740685A (zh) * 2019-01-08 2019-05-10 武汉斗鱼鱼乐网络科技有限公司 用户流失的特征分析方法、预测方法、装置、设备及介质
CN111724185A (zh) * 2019-03-21 2020-09-29 北京沃东天骏信息技术有限公司 用户维护方法和装置
CN111833086B (zh) * 2019-04-22 2024-04-23 百度在线网络技术(北京)有限公司 账户分类模型训练方法及装置和账户分类方法及装置
CN111833086A (zh) * 2019-04-22 2020-10-27 百度在线网络技术(北京)有限公司 账户分类模型训练方法及装置和账户分类方法及装置
CN110222975A (zh) * 2019-05-31 2019-09-10 北京奇艺世纪科技有限公司 一种流失用户分析方法、装置、电子设备及存储介质
CN110634018A (zh) * 2019-08-30 2019-12-31 阿里巴巴集团控股有限公司 一种流失用户的特征刻画方法、识别方法及相关装置
CN112529236A (zh) * 2019-09-18 2021-03-19 泰康保险集团股份有限公司 目标对象识别方法、装置、电子设备及存储介质
CN111178972A (zh) * 2019-12-30 2020-05-19 北京每日优鲜电子商务有限公司 消息推送方法、装置、存储介质及设备
CN113222632A (zh) * 2020-02-04 2021-08-06 北京京东振世信息技术有限公司 对象挖掘的方法和装置
CN112671573A (zh) * 2020-12-17 2021-04-16 北京神州泰岳软件股份有限公司 识别宽带业务中潜在离网用户的方法及装置
CN112671573B (zh) * 2020-12-17 2023-05-16 北京神州泰岳软件股份有限公司 识别宽带业务中潜在离网用户的方法及装置
CN114742569A (zh) * 2021-01-08 2022-07-12 广州视源电子科技股份有限公司 用户生命阶段预测方法、装置、计算机设备及存储介质
CN113240451A (zh) * 2021-04-12 2021-08-10 西南财经大学 一种用户流失的预测方法和装置
CN113391923A (zh) * 2021-06-18 2021-09-14 上海钧正网络科技有限公司 系统资源数据分配方法和装置
CN114785627A (zh) * 2022-03-25 2022-07-22 中国联合网络通信集团有限公司 基于通信合约的资费处理方法、装置、设备及存储介质
CN114785627B (zh) * 2022-03-25 2023-05-30 中国联合网络通信集团有限公司 基于通信合约的资费处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN106203679A (zh) 一种用户流失预测方法及系统
CN106886915B (zh) 一种基于时间衰减采样的广告点击预估方法
CN104679743B (zh) 一种确定用户的偏好模式的方法及装置
WO2018014610A1 (zh) 基于c4.5决策树算法的特定用户挖掘系统及其方法
CN104102875B (zh) 基于加权朴素贝叶斯分类器的软件服务质量监控方法及系统
CN110458195B (zh) 一种基于多判据融合的异常数据甄别方法
CN106326585B (zh) 基于贝叶斯网络推理的预测分析方法以及装置
CN108205766A (zh) 信息推送方法、装置及系统
CN108733966A (zh) 一种基于决策树群的多维电能表现场状态检验方法
CN111008337B (zh) 一种基于三元特征的深度注意力谣言鉴别方法及装置
CN108833139B (zh) 一种基于类别属性划分的ossec报警数据聚合方法
CN103647800A (zh) 推荐应用资源的方法及系统
CN106204106A (zh) 一种特定用户识别方法及系统
CN106371155A (zh) 基于大数据和分析场的气象预报方法及系统
CN107292249A (zh) 一种基于结构化分段网络的时间动作检测方法
CN105760649A (zh) 一种面向大数据的可信度量方法
CN112463859B (zh) 基于大数据和业务分析的用户数据处理方法及服务器
CN109359686A (zh) 一种基于校园网流量的用户画像方法及系统
CN112580902B (zh) 对象数据处理方法、装置、计算机设备和存储介质
CN106095939A (zh) 账户权限的获取方法和装置
CN105471647A (zh) 一种电力通信网故障定位方法
CN114638633A (zh) 异常流量检测的方法和装置、电子设备和存储介质
CN109921938A (zh) 一种云计算环境下故障检测方法
CN111510368A (zh) 家庭群组识别方法、装置、设备及计算机可读存储介质
CN106157616A (zh) 一种交通流量短时预测装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161207