CN108038711A - 用户流失预测方法、装置以及计算机设备 - Google Patents
用户流失预测方法、装置以及计算机设备 Download PDFInfo
- Publication number
- CN108038711A CN108038711A CN201711108489.4A CN201711108489A CN108038711A CN 108038711 A CN108038711 A CN 108038711A CN 201711108489 A CN201711108489 A CN 201711108489A CN 108038711 A CN108038711 A CN 108038711A
- Authority
- CN
- China
- Prior art keywords
- money
- date
- value
- supplement
- interval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种用户流失预测方法、装置以及计算机设备,所述方法包括步骤:获取系统当前日期以及设定用户在预设第一时间段内的充值数据;根据所述系统当前日期和各个充值日期,获得第一时间段内的充值日期间隔指标;将所述第一时间段内的充值日期间隔指标输入预设模型进行训练,获得用户流失预测模型;获取系统当前日期以及设定用户在第一时间段之后的预设第二时间段内的充值数据;根据所述系统当前日期和各个充值日期,获得第二时间段内的充值日期间隔指标;将第二时间段内的充值日期间隔指标输入所述用户流失预测模型,得到所述设定用户的流失概率。本发明使得模型计算简单快速高效。
Description
技术领域
本发明涉及数据处理技术领域,具体而言,本发明涉及一种用户流失预测方法、装置以及计算机设备。
背景技术
对于一个企业来说,付费用户就是生命线。然而由于各种各样的原因,每段时间总是会有付费用户流失,即付费用户不再在平台上进行充值,因而给企业造成极大的损失。如何进行数据挖掘,将充值流失的付费用户提前识别出来,给到运营部门去采取相应的措施,继而留住用户,减少付费用户的充值流失,对于一个企业来说显得至关重要。
然而,传统技术中的方案在进行用户流失预测时,为了达到较好的预测效果,需要较多的指标,比如:最近1、3、7、15、30天的活跃天数(充值金额、充值次数、留存率等等)等等,计算复杂且效率低。
发明内容
本发明针对现有方式的缺点,提出一种用户流失预测方法、装置以及计算机设备,用以解决现有技术中存在的计算复杂且效率低的问题,以使计算简单快速高效。
本发明的实施例根据第一个方面,提供了一种用户流失预测方法,包括步骤:
获取系统当前日期以及设定用户在预设第一时间段内的充值数据,其中,所述充值数据包括各个充值日期;根据所述系统当前日期和各个充值日期,获得第一时间段内的充值日期间隔指标;
将所述第一时间段内的充值日期间隔指标输入预设模型进行训练,获得用户流失预测模型,其中,所述用户流失预测模型用于表征所述充值日期间隔指标对应的流失概率;
获取系统当前日期以及设定用户在第一时间段之后的预设第二时间段内的充值数据;根据所述系统当前日期和各个充值日期,获得第二时间段内的充值日期间隔指标;
将第二时间段内的充值日期间隔指标输入所述用户流失预测模型,得到所述设定用户的流失概率。
在一个实施例中,所述得到所述设定用户的流失概率之后,还包括:
向流失概率大于等于阈值的设定用户,发送召回业务信息;或
获取流失概率大于等于阈值的设定用户的用户数据,根据用户数据分析用户特征;或
根据所述流失概率,分析各时间段的流失情况。
在一个实施例中,所述根据所述系统当前日期和各个充值日期,获得第一时间段内的充值日期间隔指标,包括:
将各个充值日期按照从小到大的顺序或者从大到小的顺序进行排序;
根据排序后的各个充值日期,得到每相邻两个充值日期之间的充值日期间隔;
根据各个充值日期间隔以及各自设定的权重,获得第一加权平均值,其中,所述权重随着充值日期间隔对应的日期的变大而增高;
根据所述系统当前日期和最后一次充值日期的差值,获得当前充值间隔;
根据所述第一加权平均值和所述当前充值间隔,获得第一时间段内的充值日期间隔指标。
在一个实施例中,所述根据所述系统当前日期和各个充值日期,获得第二时间段内的充值日期间隔指标,包括:
将各个充值日期按照从小到大的顺序或者从大到小的顺序进行排序;
根据排序后的各个充值日期,得到每相邻两个充值日期之间的充值日期间隔;
根据各个充值日期间隔以及各自设定的权重,获得第一加权平均值,其中,所述权重随着充值日期间隔对应的日期的变大而增高;
根据所述系统当前日期和最后一次充值日期的差值,获得当前充值间隔;
根据所述第一加权平均值和所述当前充值间隔,获得第二时间段内的充值日期间隔指标。
在一个实施例中,所述根据所述第一加权平均值和所述当前充值间隔,获得第一时间段内的充值日期间隔指标,包括:
若所述当前充值间隔小于等于预设的间隔最小值,将充值日期间隔指标的值设置为第一数值;
若所述当前充值间隔大于间隔最小值且小于等于所述第一加权平均值,将充值日期间隔指标的值设置为第二数值;
若所述当前充值间隔大于所述第一加权平均值且小于等于预设的间隔最大值,将充值日期间隔指标的值设置为第三数值;
若所述当前充值间隔大于所述间隔最大值,将充值日期间隔指标的值设置为第四数值;
其中,所述第一数值、所述第二数值、所述第三数值和所述第四数值各自所表征的流失概率依次增大。
在一个实施例中,所述根据所述第一加权平均值和所述当前充值间隔,获得第二时间段内的充值日期间隔指标,包括:
若所述当前充值间隔小于等于预设的间隔最小值,将充值日期间隔指标的值设置为第一数值;
若所述当前充值间隔大于间隔最小值且小于等于所述第一加权平均值,将充值日期间隔指标的值设置为第二数值;
若所述当前充值间隔大于所述第一加权平均值且小于等于预设的间隔最大值,将充值日期间隔指标的值设置为第三数值;
若所述当前充值间隔大于所述间隔最大值,将充值日期间隔指标的值设置为第四数值;
其中,所述第一数值、所述第二数值、所述第三数值和所述第四数值各自所表征的流失概率依次增大。
在一个实施例中,所述间隔最小值为从定义的初始间隔最小值以及各个充值日期间隔中选取的最小值,所述间隔最大值为从定义的初始间隔最大值以及各个充值日期间隔中选取的最大值。
在一个实施例中,所述充值数据还包括与各个充值日期对应的充值金额;
所述获得用户流失预测模型之前,还包括:根据所述系统当前日期、各个充值日期以及对应的充值金额,获得第一时间段内的充值金额间隔指标;
所述将第一时间段内的充值日期间隔指标输入预设模型进行训练,获得用户流失预测模型,包括:将第一时间段内的充值日期间隔指标和充值金额间隔指标输入预设模型进行训练,获得用户流失预测模型,其中,所述用户流失预测模型用于表征述充值日期间隔指标和所述充值金额间隔指标对应的流失概率;
所述得到所述设定用户的流失概率之前,还包括:根据所述系统当前日期、各个充值日期以及对应的充值金额,获得第二时间段内的充值金额间隔指标;
所述将第二时间段内的充值日期间隔指标输入所述用户流失预测模型,得到所述设定用户的流失概率,包括:将第二时间段内的充值日期间隔指标和充值金额间隔指标输入所述用户流失预测模型,得到所述设定用户的流失概率。
在一个实施例中,所述根据所述系统当前日期、各个充值日期以及对应的充值金额,获得第一时间段内的充值金额间隔指标,包括:
将各个充值日期按照从小到大的顺序或者从大到小的顺序进行排序;
根据排序后的各个充值日期,得到每相邻两个充值日期之间的充值日期间隔;
根据各个充值金额与对应的充值日期间隔的比值以及各自设置的权重,获得第二加权平均值,其中,所述权重随着充值日期间隔对应的日期的变大而增高;
根据所述系统当前日期与最后一次充值日期的差值,获得当前充值间隔;
根据所述当前充值间隔与所述第二加权平均值的乘积,获得当前消耗金额;
根据所述当前消耗金额和最后一次充值金额,获得第一时间段内的充值金额间隔指标。
在一个实施例中,所述根据所述系统当前日期、各个充值日期以及对应的充值金额,获得第二时间段内的充值金额间隔指标,包括:
将各个充值日期按照从小到大的顺序或者从大到小的顺序进行排序;
根据排序后的各个充值日期,得到每相邻两个充值日期之间的充值日期间隔;
根据各个充值金额与对应的充值日期间隔的比值以及各自设置的权重,获得第二加权平均值,其中,所述权重随着充值日期间隔对应的日期的变大而增高;
根据所述系统当前日期与最后一次充值日期的差值,获得当前充值间隔;
根据所述当前充值间隔与所述第二加权平均值的乘积,获得当前消耗金额;
根据所述当前消耗金额和最后一次充值金额,获得第二时间段内的充值金额间隔指标。
在一个实施例中,所述根据所述当前消耗金额和最后一次充值金额,获得第一时间段内的充值金额间隔指标,包括:
若最后一次充值金额小于等于预设的金额最小值,将充值金额间隔指标的值设置为第一数值;
若最后一次充值金额大于所述金额最小值且小于等于所述当前消耗金额,将充值金额间隔指标的值设置为第二数值;
若最后一次充值金额大于所述当前消耗金额且小于预设的金额最大值,将充值金额间隔指标的值设置为第三数值;
若最后一次充值金额大于所述金额最大值,将充值金额间隔指标的值设置为第四数值;
其中,所述第一数值、所述第二数值、所述第三数值和所述第四数值各自所表征的流失概率依次减小。
在一个实施例中,所述根据所述当前消耗金额和最后一次充值金额,获得第二时间段内的充值金额间隔指标,包括:
若最后一次充值金额小于等于预设的金额最小值,将充值金额间隔指标的值设置为第一数值;
若最后一次充值金额大于所述金额最小值且小于等于所述当前消耗金额,将充值金额间隔指标的值设置为第二数值;
若最后一次充值金额大于所述当前消耗金额且小于预设的金额最大值,将充值金额间隔指标的值设置为第三数值;
若最后一次充值金额大于所述金额最大值,将充值金额间隔指标的值设置为第四数值;
其中,所述第一数值、所述第二数值、所述第三数值和所述第四数值各自所表征的流失概率依次减小;所述金额最小值为所述当前消耗金额与第一设定值的乘积,所述金额最大值为所述当前消耗金额与第二设定值的乘积,其中,所述第一设定值小于所述第二设定值。
本发明的实施例根据第二个方面,还提供了一种用户流失预测装置,包括:
模型指标获得模块,用于获取系统当前日期以及设定用户在预设第一时间段内的充值数据,其中,所述充值数据包括各个充值日期;根据所述系统当前日期和各个充值日期,获得第一时间段内的充值日期间隔指标;
模型构建模块,用于将所述第一时间段内的充值日期间隔指标输入预设模型进行训练,获得用户流失预测模型,其中,所述用户流失预测模型用于表征所述充值日期间隔指标对应的流失概率;
预测指标获得模块,用于获取系统当前日期以及设定用户在第一时间段之后的预设第二时间段内的充值数据;根据所述系统当前日期和各个充值日期,获得第二时间段内的充值日期间隔指标;
流失概率预测模块,用于将第二时间段内的的充值日期间隔指标输入所述用户流失预测模型,得到所述设定用户的流失概率。
本发明的实施例根据第三个方面,还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例所述方法的步骤。
上述的用户流失预测方法、装置以及计算机设备,与现有技术相互比较时,具备以下优点:
1、本发明构建的用户流失预测模型只需要一个充值日期间隔指标就可准确分析出用户的流失概率,准确率能达到72%,使得模型计算简单快速高效;
2、进一步的,本发明构建的用户流失预测模型只需要再输入一个充值金额间隔指标就可以进一步提高用户流失预测的准确率,准确率能达到77%,同时,还能保证模型的简单快速高效。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明一个实施例的用户流失预测方法的流程示意图;
图2为本发明一个实施例的用户流失预测装置的结构示意图;
图3为本发明一个实施例的计算机设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
有必要先对本发明的应用场景和原理进行如下的先导性说明。
本发明的方案可以应用于游戏平台、观看视频节目的播放平台以及其它需要充值的平台中,主要是判别付费用户是否从平台中流失,而不关心用户是从平台中的哪个项目中流失的,因为只要用户没有在平台流失,终归是会进入他所喜欢的项目,例如,用户从一个游戏进入另一个游戏。
在进行大数据开发时,一般是将大数据存储在Hadoop(Hadoop Distributed FileSystem,海杜普)集群,利用Hive编写SQL(Structured Query Language,结构化查询语言)来计算出用户相关的特征数据,核心在于深入分析用户行为所计算出来的特征数据,刻画用户当前的状态,继而再用应用模型,例如,朴素贝叶斯模型等。相较于现有技术,本发明的优点是用了极少数的指标(基于深入研究之后,较优为采用2个指标:充值日期间隔指标和充值金额间隔指标)就能达到77%的准确率,使模型计算简单快速高效。
下面结合附图对本发明的具体实施方式进行详细描述。
如图1所示,在一个实施例中,一种用户流失预测方法,包括步骤:
S110、获取系统当前日期以及设定用户在预设第一时间段内的充值数据,其中,所述充值数据包括各个充值日期;根据所述系统当前日期和各个充值日期,获得第一时间段内的充值日期间隔指标。
充值数据一般是以数据表等形式进行存储,在一个实施例中,充值数据包括各个充值日期以及与各个充值日期对应的充值金额,在某些实际的应用场景中,充值数据还可能包括其它字段,例如,游戏、服务器等等。由于本发明探讨的是平台的充值流失,仅涉及用户的各个充值日期以及对应的充值金额,所以不再对充值数据所包含的其它字段进行详述。
如下表1所示,为用户充值类的数据表的一个具体实施例,该表1仅示例出三个字段:dt、passport以及duowanb,每个字段均定义了相应的类型,例如,dt数据类型为Date,passport数据类型为String,duowanb数据类型为String。数据表的具体结构并不影响本发明方案的实施,因此,本发明并不对数据表的具体结构进行限定。
表1数据表user_pay_log的字段信息
字段 | 类型 | 备注 |
dt | Date | 日期 |
passport | String | 用户 |
duowanb | String | 用户在该天的充值总金额 |
假设系统当前日期为curDt,那么通常情况下充值数据,也即是数据表user_pay_log的数据,在curDt这天是不全的,只有curDt-1(天)及之前的数据是完整的,因此在进行用户流失预测时,还需要获取系统当前日期。系统当前日期可以是从服务器中读取的日期,也可以是用户手动输入的日期。其中,假如curDt是2013-01-31,则curDt-1那就是2013-01-30,其他的类似。
由于本发明主要研究的是平台上的付费用户的充值流失,即付费用户在最近的一段时间内不再继续在平台充值,所以设定用户一般指的是付费用户,即在预设时间内有充值的用户群。需要说明的是,本发明本质是要训练出需要较少输入指标的用户流失预测模型进行用户流失概率的预测,因此并不对设定用户的类型进行限定,设定用户也可以包含在预设时间段内未有充值的用户。
预设时间段可以根据用户需要进行设置,由于离系统当前日期很久的充值数据参考意义不大,因此预设时间段一般选择近期,例如,可选的,预设时间段为curDt-90(天)至curDt-31(天)。
由于充值日期的数据太少时,无法有效判断付费用户是否有充值流失,所以,可选的,各个充值日期的数量一般需要在3天或者以上。根据系统当前日期以及各个充值日期,生成一个标签数据,也就是充值日期间隔指标,标签取值的不同,代表其流失概率的高低。
S120、将所述第一时间段内的充值日期间隔指标输入预设模型进行训练,获得用户流失预测模型,其中,所述用户流失预测模型用于表征所述充值日期间隔指标对应的流失概率。
定义指标日期跨度以及流失日期跨度:
指标日期跨度:curDt-第一设定天数至curDt-第二设定天数,其中第一设定天数大于第二设定天数,例如,curDt-90至curDt-31(日期跨度60天)
流失日期跨度:curDt-第二设定天数+1至curDt-第三设定天数,可选的,第三设定天数为1等,例如,curDt-30至curDt-1(日期跨度30天)
那么,流失的定义是:用户在[指标日期跨度]内有充值,但是在[流失日期跨度]内没有充值。
预设模型可以采用现有技术中已有的模型,例如,朴素贝叶斯模型(NaiveBayesian Model)。朴素贝叶斯模型是发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率,基于贝叶斯定理与特征条件独立假设的分类模型。需要说明的是,本发明并不对预设模型的类型进行限定,用户还可以采用现有技术中其它合适的模型进行训练,以获得用户流失预测模型。
将每个设定用户的充值日期间隔指标作为预设模型的输入数据,对预设模型进行训练。在进行训练时,一般是从输入数据中选取一部分数据用于训练,剩下一部分数据用于测试,例如,一般情况下,输入数据的60%用于训练,40%的数据用于测试。训练即调用预设模型(例如朴素贝叶斯模型等)来计算出充值日期间隔指标取什么样的数值时代表多大的流失概率,测试即利用训练的结果数据,来判断剩下用户的流失情况,再与这批用户的真实流失状态做一个比较,从而计算出训练的模型的准确率。
S130、获取系统当前日期以及设定用户在第一时间段之后的预设第二时间段内的充值数据;根据所述系统当前日期和各个充值日期,获得第二时间段内的充值日期间隔指标。
预设第二时间段可以根据实际需要进行设定,例如,预设第二时间段为curDt-30至curDt-1。采用与上述步骤相同的方式提取出待测试的设定用户的充值日期间隔指标。
S140、将第二时间段内的充值日期间隔指标输入所述用户流失预测模型,输出得到所述设定用户的流失概率。
将待测试的该充值日期间隔指标输入训练好的用户流失预测模型中,就可以得到设定用户的流失概率。根据该流失概率就可以确定用户的类标号(若有充值,则是未流失,否则是流失),例如流失概率大于一定的阈值时就判定用户流失,否则判定用户未流失。
在一个实施例中,所述根据所述系统当前日期和各个充值日期,获得第一时间段内的充值日期间隔指标,包括:
S1101、将各个充值日期按照从小到大的顺序或者从大到小的顺序进行排序。
越靠近现在的充值日期越大,越远离现在的充值日期越小。为了后续计算充值日期间隔,需要对各个充值日期进行按照一定的顺序进行排序。如果数据表中存储的各个充值日期本身已经是按照从小到大的顺序依次排列的,则只需要依照次序一一读出各个充值日期即可。
S1102、根据排序后的各个充值日期,得到每相邻两个充值日期之间的充值日期间隔。
连续充值日期的间隔是衡量用户是否充值流失的重要指标。各个充值日期按照从小到大的顺序或者从大到小的顺序排列后,就可以将相邻的两个充值日期中较大的充值日期减去较小的充值日期,从而得到连续的充值日期间隔。
S1103、根据各个充值日期间隔以及各自设定的权重,获得第一加权平均值,其中,所述权重随着充值日期间隔对应的日期的变大而增高。
越是靠近现在的数据的含金量越高,因此需要进行加权处理。如果充值日期间隔由较为靠近现在的充值日期计算出,则权重较大,如果充值日期间隔由较为远离现在的充值日期计算出,则权重较小,即对于越是靠近现在的数据赋予的权重越高。权重具体的数值可以根据用户需要进行设置,例如,第一个充值日期间隔的权重为1,第二个充值日期间隔的权重为2,第三个充值日期间隔的权重为3,等等。
加权平均值=(第一充值日期间隔*第一权重+第二充值日期间隔*第二权重……)/(第一权重+第二权重……),根据该式即可以求得第一加权平均值。
例如,各个充值日期有2013-10-1、2013-10-13以及2013-10-30,则充值日期间隔有12和17,12对应的权重为1,17对应的权重为2,则加权平均值为(12*1+17*2)/(1+2)。
S1104、根据所述系统当前日期和最后一次充值日期的差值,获得当前充值间隔。
最后一次充值日期为获取的各个充值日期中最靠近系统当前日期的充值日期,也即是各个充值日期中最大的充值日期。令当前充值间隔=系统当前日期-最后一次充值日期,就可以得到距离上次最后一次充值的日期天数。
S1105、根据所述第一加权平均值和所述当前充值间隔,获得第一时间段内的充值日期间隔指标。
将该第一加权平均值跟当前充值间隔做比较,通过比较的结果产生标签数据,即充值日期间隔指标,该充值日期间隔指标代表流失概率的高低。可选的,标签的取值越小(字典顺序)则流失概率越小,因此在表征流失概率大时可以将充值日期间隔指标的值设置为较大值,在表征流失概率小时可以将充值日期间隔指标的值设置为较小值。
在一个实施例中,所述根据所述系统当前日期和各个充值日期,获得第二时间段内的充值日期间隔指标,包括:
S1301、将各个充值日期按照从小到大的顺序或者从大到小的顺序进行排序。
此步骤中的各个充值日期指的是获取的第二时间段内的各个充值日期,越靠近现在的充值日期越大,越远离现在的充值日期越小。为了后续计算充值日期间隔,需要对各个充值日期进行按照一定的顺序进行排序。如果数据表中存储的各个充值日期本身已经是按照从小到大的顺序依次排列的,则只需要依照次序一一读出各个充值日期即可。
S1302、根据排序后的各个充值日期,得到每相邻两个充值日期之间的充值日期间隔。
连续充值日期的间隔是衡量用户是否充值流失的重要指标。各个充值日期按照从小到大的顺序或者从大到小的顺序排列后,就可以将相邻的两个充值日期中较大的充值日期减去较小的充值日期,从而得到连续的充值日期间隔。
S1303、根据各个充值日期间隔以及各自设定的权重,获得第一加权平均值,其中,所述权重随着充值日期间隔对应的日期的变大而增高。
越是靠近现在的数据的含金量越高,因此需要进行加权处理。如果充值日期间隔由较为靠近现在的充值日期计算出,则权重较大,如果充值日期间隔由较为远离现在的充值日期计算出,则权重较小,即对于越是靠近现在的数据赋予的权重越高。权重具体的数值可以根据用户需要进行设置,例如,第一个充值日期间隔的权重为1,第二个充值日期间隔的权重为2,第三个充值日期间隔的权重为3,等等。
加权平均值=(第一充值日期间隔*第一权重+第二充值日期间隔*第二权重……)/(第一权重+第二权重……),根据该式即可以求得第一加权平均值。
例如,各个充值日期有2013-10-1、2013-10-13以及2013-10-30,则充值日期间隔有12和17,12对应的权重为1,17对应的权重为2,则加权平均值为(12*1+17*2)/(1+2)。
S1304、根据所述系统当前日期和最后一次充值日期的差值,获得当前充值间隔。
最后一次充值日期为获取的各个充值日期中最靠近系统当前日期的充值日期,也即是各个充值日期中最大的充值日期。令当前充值间隔=系统当前日期-最后一次充值日期,就可以得到距离上次最后一次充值的日期天数。
S1305、根据所述第一加权平均值和所述当前充值间隔,获得第二时间段内的充值日期间隔指标。
将该第一加权平均值跟当前充值间隔做比较,通过比较的结果产生标签数据,即充值日期间隔指标,该充值日期间隔指标代表流失概率的高低。可选的,标签的取值越小(字典顺序)则流失概率越小,因此在表征流失概率大时可以将充值日期间隔指标的值设置为较大值,在表征流失概率小时可以将充值日期间隔指标的值设置为较小值。
根据所述第一加权平均值和所述当前充值间隔,获得第一时间段内的充值日期间隔指标,有多种实现方式,下面结合两个具体实施例进行详细介绍。
在一个实施例中,如果当前充值间隔比第一加权平均值大比较多,说明用户很久未充值,则意味着流失概率高,则可以将充值日期间隔指标的值设置为表征流失概率高的值。可以设置阈值,如果当前充值间隔与第一加权平均值的差值大于该阈值,则意味着用户很久未充值,流失概率高,否则意味着用户流失概率低。
在另一实施例中,所述根据所述第一加权平均值和所述当前充值间隔,获得第一时间段内的充值日期间隔指标,包括:
S1105a、若所述当前充值间隔小于等于预设的间隔最小值,将充值日期间隔指标的值设置为第一数值。
预设的间隔最小值可以根据实际需要进行设置,例如,在一个实施例中,所述间隔最小值为从定义的初始间隔最小值以及各个充值日期间隔中选取的最小值。可选的,定义的额间隔最小值为Integer.MAX_VALUE。此时用户的流失概率较小,因此第一数值可以设置为较小值。
S1105b、若所述当前充值间隔大于间隔最小值且小于等于所述第一加权平均值,将充值日期间隔指标的值设置为第二数值。
相较于步骤S1105a,该种情况下用户的流失概率增大,因此可以将第二数值设置为大于第一数值的值。
S1105c、若所述当前充值间隔大于所述第一加权平均值且小于等于预设的间隔最大值,将充值日期间隔指标的值设置为第三数值。
间隔最大值可以根据实际需要进行确定,例如,在一个实施例中,所述间隔最大值为从定义的初始间隔最大值以及各个充值日期间隔中选取的最大值。可选的,初始间隔最大值为0。相较于步骤S1105b,该种情况下用户的流失概率进一步增大,因此可以将第三数值设置为大于第二数值的值。
S1105d、若所述当前充值间隔大于所述间隔最大值,将充值日期间隔指标的值设置为第四数值。
其中,所述第一数值、所述第二数值、所述第三数值和所述第四数值各自所表征的流失概率依次增大。
相较于步骤S1105c,该种情况下用户的流失概率进一步增大,因此可以将第四数值设置为大于第三数值的值。
根据所述第一加权平均值和所述当前充值间隔,获得第二时间段内的充值日期间隔指标,有多种实现方式,下面结合两个具体实施例进行详细介绍。
在一个实施例中,如果当前充值间隔比第一加权平均值大比较多,说明用户很久未充值,则意味着流失概率高,则可以将充值日期间隔指标的值设置为表征流失概率高的值。可以设置阈值,如果当前充值间隔与第一加权平均值的差值大于该阈值,则意味着用户很久未充值,流失概率高,否则意味着用户流失概率低。
在另一实施例中,所述根据所述第一加权平均值和所述当前充值间隔,获得第二时间段内的充值日期间隔指标,包括:
S1305a、若所述当前充值间隔小于等于预设的间隔最小值,将充值日期间隔指标的值设置为第一数值。
预设的间隔最小值可以根据实际需要进行设置,例如,在一个实施例中,所述间隔最小值为从定义的初始间隔最小值以及各个充值日期间隔中选取的最小值。可选的,定义的额间隔最小值为Integer.MAX_VALUE。此时用户的流失概率较小,因此第一数值可以设置为较小值。
S1305b、若所述当前充值间隔大于间隔最小值且小于等于所述第一加权平均值,将充值日期间隔指标的值设置为第二数值。
相较于步骤S1305a,该种情况下用户的流失概率增大,因此可以将第二数值设置为大于第一数值的值。
S1305c、若所述当前充值间隔大于所述第一加权平均值且小于等于预设的间隔最大值,将充值日期间隔指标的值设置为第三数值。
间隔最大值可以根据实际需要进行确定,例如,在一个实施例中,所述间隔最大值为从定义的初始间隔最大值以及各个充值日期间隔中选取的最大值。可选的,初始间隔最大值为0。相较于步骤S1305b,该种情况下用户的流失概率进一步增大,因此可以将第三数值设置为大于第二数值的值。
S1305d、若所述当前充值间隔大于所述间隔最大值,将充值日期间隔指标的值设置为第四数值。
其中,所述第一数值、所述第二数值、所述第三数值和所述第四数值各自所表征的流失概率依次增大。
相较于步骤S1305c,该种情况下用户的流失概率进一步增大,因此可以将第四数值设置为大于第三数值的值。
通过一个充值日期间隔指标,就能获得比较好的预测效果,准确率能达到72%,使得模型简单快速高效。在保证模型简单快速高效的前提下,为了进一步提高准确率,在一个实施例中,所述获得用户流失预测模型之前,还包括步骤S150:根据所述系统当前日期、各个充值日期以及对应的充值金额,获得第一时间段内的充值金额间隔指标。所述将第一时间段内的充值日期间隔指标输入预设模型进行训练,获得用户流失预测模型,包括:将第一时间段内的充值日期间隔指标和充值金额间隔指标输入预设模型进行训练,获得用户流失预测模型,其中,所述用户流失预测模型用于表征述充值日期间隔指标和所述充值金额间隔指标对应的流失概率。
所述得到所述设定用户的流失概率之前,还包括步骤S160:根据所述系统当前日期、各个充值日期以及对应的充值金额,获得第二时间段内的充值金额间隔指标,这里的各个充值日期和对应的充值金额均是第二时间段内的充值数据所包含的内容;所述将第二时间段内的充值日期间隔指标输入所述用户流失预测模型,得到所述设定用户的流失概率,包括:将第二时间段内的充值日期间隔指标和充值金额间隔指标输入所述用户流失预测模型,得到所述设定用户的流失概率。
通过两个指标:充值日期间隔指标和充值金额间隔指标,对预设模型进行训练,从而得到更为准确的用户流失预测模型,该用户流失预测模型用于表征充值日期间隔指标和充值金额间隔指标所对应的流失概率,准确率可以达到77%,有利于预测出更能反映客户真实情况的流失概率。那么,在进行用户流失预测时,将在第二时间段获得的所述设定用户的充值日期间隔指标和充值金额间隔指标同时输入所述用户流失预测模型,输出得到所述设定用户的流失概率,能够更加准确反映客户的真实情况。
在一个实施例中,所述根据所述系统当前日期、各个充值日期以及对应的充值金额,获得第一时间段内的充值金额间隔指标,包括:
S1501、将各个充值日期按照从小到大的顺序或者从大到小的顺序进行排序。
越靠近现在的充值日期越大,越远离现在的充值日期越小。为了后续计算充值日期间隔,需要对各个充值日期进行按照一定的顺序进行排序。如果数据表中存储的各个充值日期本身已经是按照从小到大的顺序依次排列的,则只需要依照次序一一读出各个充值日期即可。
S1502、根据排序后的各个充值日期,得到每相邻两个充值日期之间的充值日期间隔。
连续充值日期的间隔是衡量用户是否充值流失的重要指标。各个充值日期按照从小到大的顺序或者从大到小的顺序排列后,就可以将相邻的两个充值日期中较大的充值日期减去较小的充值日期,从而得到连续的充值日期间隔。
S1503、根据各个充值金额与对应的充值日期间隔的比值以及各自设置的权重,获得第二加权平均值,其中,所述权重随着充值日期间隔对应的日期的变大而增高。
越是靠近现在的数据的含金量越高,因此需要进行加权处理。如果充值日期间隔由较为靠近现在的充值日期计算出,则权重较大,如果充值日期间隔由较为远离现在的充值日期计算出,则权重较小,即对于越是靠近现在的数据赋予的权重越高。即权重具体的数值可以根据用户需要进行设置,例如,第一个充值日期间隔的权重为1,第二个充值日期间隔的权重为2,第三个充值日期间隔的权重为3,等等。
充值金额为用户所支付的货币,例如游戏里面的金币等。假设用户在某一天a进行第一次充值,充值金额为A,在某一天b进行第二次充值,充值金额为B,则充值金额A所对应的充值日期间隔为(b-a),依次类推,就可以求得各个充值金额对应的充值日期间隔,进而计算出比值。
加权平均值=(第一比值*第一权重+第二比值*第二权重……)/(第一权重+第二权重……),根据该式即可以求得第二加权平均值,第二加权平均值也即是日均金额消耗,假设用户充值的为金币,则第二加权平均值也即是日均金币消耗。
S1504、根据所述系统当前日期与最后一次充值日期的差值,获得当前充值间隔。
最后一次充值日期为获取的各个充值日期中最靠近系统当前日期的充值日期,也即是各个充值日期中最大的充值日期。令当前充值间隔=系统当前日期-最后一次充值日期,就可以得到距离上次最后一次充值的日期天数。
S1505、根据所述当前充值间隔与所述第二加权平均值的乘积,获得当前消耗金额。
将当前充值间隔与日均金额消耗(也即是第二加权平均值)相乘,则可以得到用户上次最后一次充值至今的金额消耗数据,也即是当前消耗金额。
S1506、根据所述当前消耗金额和最后一次充值金额,获得第一时间段内的充值金额间隔指标。
将该当前消耗金额跟最后一次充值金额做比较,通过比较的结果产生标签数据,即充值金额间隔指标,该充值金额间隔指标代表流失概率的高低。可选的,该标签的取值越小(字典顺序)则流失概率越大,因此在表征流失概率大时可以将充值金额间隔指标的值设置为较小值,在表征流失概率小时可以将充值金额间隔指标的值设置为较大值。
在一个实施例中,所述根据所述系统当前日期、各个充值日期以及对应的充值金额,获得第二时间段内的充值金额间隔指标,包括:
S1601、将各个充值日期按照从小到大的顺序或者从大到小的顺序进行排序。
越靠近现在的充值日期越大,越远离现在的充值日期越小。为了后续计算充值日期间隔,需要对各个充值日期进行按照一定的顺序进行排序。如果数据表中存储的各个充值日期本身已经是按照从小到大的顺序依次排列的,则只需要依照次序一一读出各个充值日期即可。
S1602、根据排序后的各个充值日期,得到每相邻两个充值日期之间的充值日期间隔。
连续充值日期的间隔是衡量用户是否充值流失的重要指标。各个充值日期按照从小到大的顺序或者从大到小的顺序排列后,就可以将相邻的两个充值日期中较大的充值日期减去较小的充值日期,从而得到连续的充值日期间隔。
S1603、根据各个充值金额与对应的充值日期间隔的比值以及各自设置的权重,获得第二加权平均值,其中,所述权重随着充值日期间隔对应的日期的变大而增高。
越是靠近现在的数据的含金量越高,因此需要进行加权处理。如果充值日期间隔由较为靠近现在的充值日期计算出,则权重较大,如果充值日期间隔由较为远离现在的充值日期计算出,则权重较小,即对于越是靠近现在的数据赋予的权重越高。即权重具体的数值可以根据用户需要进行设置,例如,第一个充值日期间隔的权重为1,第二个充值日期间隔的权重为2,第三个充值日期间隔的权重为3,等等。
充值金额为用户所支付的货币,例如游戏里面的金币等。假设用户在某一天a进行第一次充值,充值金额为A,在某一天b进行第二次充值,充值金额为B,则充值金额A所对应的充值日期间隔为(b-a),依次类推,就可以求得各个充值金额对应的充值日期间隔,进而计算出比值。
加权平均值=(第一比值*第一权重+第二比值*第二权重……)/(第一权重+第二权重……),根据该式即可以求得第二加权平均值,第二加权平均值也即是日均金额消耗,假设用户充值的为金币,则第二加权平均值也即是日均金币消耗。
S1604、根据所述系统当前日期与最后一次充值日期的差值,获得当前充值间隔。
最后一次充值日期为获取的各个充值日期中最靠近系统当前日期的充值日期,也即是各个充值日期中最大的充值日期。令当前充值间隔=系统当前日期-最后一次充值日期,就可以得到距离上次最后一次充值的日期天数。
S1605、根据所述当前充值间隔与所述第二加权平均值的乘积,获得当前消耗金额。
将当前充值间隔与日均金额消耗(也即是第二加权平均值)相乘,则可以得到用户上次最后一次充值至今的金额消耗数据,也即是当前消耗金额。
S1606、根据所述当前消耗金额和最后一次充值金额,获得第二时间段内的充值金额间隔指标。
将该当前消耗金额跟最后一次充值金额做比较,通过比较的结果产生标签数据,即充值金额间隔指标,该充值金额间隔指标代表流失概率的高低。可选的,该标签的取值越小(字典顺序)则流失概率越大,因此在表征流失概率大时可以将充值金额间隔指标的值设置为较小值,在表征流失概率小时可以将充值金额间隔指标的值设置为较大值。
根据所述当前消耗金额和最后一次充值金额,获得第一时间段内的充值金额间隔指标,有多种实现方式,下面结合两个实施例进行详细介绍。
在一个实施例中,如果当前消耗金额比最后一次充值金额大的比较多,说明用户之前充的金额早就被用完了(流失概率高),则将充值金额间隔指标的值设置为表征流失概率高的值。可以设置阈值,如果当前消耗金额与最后一次充值金额的差值大于该阈值,则意味着流失概率高,否则意味着用户流失概率低。
在另一实施例中,所述根据所述当前消耗金额和最后一次充值金额,获得第一时间段内的充值金额间隔指标,包括:
S1506a、若最后一次充值金额小于等于预设的金额最小值,将充值金额间隔指标的值设置为第一数值。
预设的金额最小值可以根据实际需要进行设置,例如,在一个实施例中,所述金额最小值为所述当前消耗金额与第一设定值的乘积。可选的,第一设定值为0.7。此时用户的流失概率较大,因此第一数值可以设置为较小值。
S1506b、若最后一次充值金额大于所述金额最小值且小于等于所述当前消耗金额,将充值金额间隔指标的值设置为第二数值。
相较于步骤S1506a,该种情况下用户的流失概率减小,因此可以将第二数值设置为大于第一数值的值。
S1506c、若最后一次充值金额大于所述当前消耗金额且小于预设的金额最大值,将充值金额间隔指标的值设置为第三数值。
金额最大值可以根据实际需要进行确定,例如,在一个实施例中,所述金额最大值为所述当前消耗金额与第二设定值的乘积,其中,所述第一设定值小于所述第二设定值。可选的,第二设定值为1.3。相较于步骤S1506b,该种情况下用户的流失概率进一步减少,因此可以将第三数值设置为大于第二数值的值。
S1506d、若最后一次充值金额大于所述金额最大值,将充值金额间隔指标的值设置为第四数值。
其中,所述第一数值、所述第二数值、所述第三数值和所述第四数值各自所表征的流失概率依次减小。
相较于步骤S1506c,该种情况下用户的流失概率进一步减少,因此可以将第四数值设置为大于第三数值的值。
根据所述当前消耗金额和最后一次充值金额,获得第二时间段内的充值金额间隔指标,有多种实现方式,下面结合两个实施例进行详细介绍。
在一个实施例中,如果当前消耗金额比最后一次充值金额大的比较多,说明用户之前充的金额早就被用完了(流失概率高),则将充值金额间隔指标的值设置为表征流失概率高的值。可以设置阈值,如果当前消耗金额与最后一次充值金额的差值大于该阈值,则意味着流失概率高,否则意味着用户流失概率低。
在另一实施例中,所述根据所述当前消耗金额和最后一次充值金额,获得第二时间段内的充值金额间隔指标,包括:
S1606a、若最后一次充值金额小于等于预设的金额最小值,将充值金额间隔指标的值设置为第一数值。
预设的金额最小值可以根据实际需要进行设置,例如,在一个实施例中,所述金额最小值为所述当前消耗金额与第一设定值的乘积。可选的,第一设定值为0.7。此时用户的流失概率较大,因此第一数值可以设置为较小值。
S1606b、若最后一次充值金额大于所述金额最小值且小于等于所述当前消耗金额,将充值金额间隔指标的值设置为第二数值。
相较于步骤S1606a,该种情况下用户的流失概率减小,因此可以将第二数值设置为大于第一数值的值。
S1606c、若最后一次充值金额大于所述当前消耗金额且小于预设的金额最大值,将充值金额间隔指标的值设置为第三数值。
金额最大值可以根据实际需要进行确定,例如,在一个实施例中,所述金额最大值为所述当前消耗金额与第二设定值的乘积,其中,所述第一设定值小于所述第二设定值。可选的,第二设定值为1.3。相较于步骤S1606b,该种情况下用户的流失概率进一步减少,因此可以将第三数值设置为大于第二数值的值。
S1606d、若最后一次充值金额大于所述金额最大值,将充值金额间隔指标的值设置为第四数值。
其中,所述第一数值、所述第二数值、所述第三数值和所述第四数值各自所表征的流失概率依次减小。
相较于步骤S1606c,该种情况下用户的流失概率进一步减少,因此可以将第四数值设置为大于第三数值的值。
采用本发明方法获得设定用户的流失概率后,就可以根据用户的流失概率进行后续的分析处理,例如,在一个实施例中,所述得到所述设定用户的流失概率之后,还包括:
向流失概率大于等于阈值的设定用户,发送召回业务信息,例如提供优惠或者感兴趣的内容等等;或
获取流失概率大于等于阈值的设定用户的用户数据,根据用户数据分析用户特征,例如分析出哪一个年龄段或者性别的用户流失概率较大,从而针对该年龄段或者性别的用户采取针对性的措施;或
根据所述流失概率,分析各时间段的流失情况,从而针对流失概率较大的时间段增加优惠活动或者采取其他召回用户的措施。
需要说明的是,本发明并不对采用本发明方式得到用户流失概率后执行的措施进行限定,只要涉及基于用户流失概率分析数据的行为均可以采用本发明所提供的方案。
为了更好的理解充值日期间隔指标和充值金额间隔指标的计算方法,下面给出具体的代码程序。
输入数据:
系统当前日期,记为:curDt:Date
充值数据,记为:data:Map<充值日期:Date,充值金额:Double>,非空
阈值,记为:delta:double
输出数据:
diffOfPayDt是充值日期间隔指标
diffOfPayDwb是充值金额间隔指标
操作说明:
如果data中日期天数<=2,则:diffOfPayDt=1_2,diffOfPayDwb=1_2,并返回//1_2表示用户的充值行为的天数只有1天或2天,数据太少,无法进行判断,所以需要先忽略掉
令充值日期列表payDts=data.keySet(),并按从小到大的顺序排序
令充值日期列表payDwbs=[];
调用形式:
result=计算间隔指标(集合data)
通过这样调用获取结果:result.diffOfPayDt,result.diffOfPayDwb
其中:|payDtDiffs|表示payDtDiffs中记录条数、多少行记录
基于同一发明构思,本发明还提供一种用户流失预测装置,下面结合附图对本发明装置的具体实施方式进行详细描述。
如图2所示,在一个实施例中,一种用户流失预测装置,包括:
模型指标获得模块110,用于获取系统当前日期以及设定用户在预设第一时间段内的充值数据,其中,所述充值数据包括各个充值日期;根据所述系统当前日期和各个充值日期,获得第一时间段内的充值日期间隔指标。
充值数据一般是以数据表等形式进行存储,在一个实施例中,充值数据包括各个充值日期以及与各个充值日期对应的充值金额,在某些实际的应用场景中,充值数据还可能包括其它字段,例如,游戏、服务器等等。由于本发明探讨的是平台的充值流失,仅涉及用户的各个充值日期以及对应的充值金额,所以不再对充值数据所包含的其它字段进行详述。
假设系统当前日期为curDt,那么通常情况下充值数据,也即是数据表user_pay_log的数据,在curDt这天是不全的,只有curDt-1(天)及之前的数据是完整的,因此在进行用户流失预测时,还需要获取系统当前日期。系统当前日期可以是从服务器中读取的日期,也可以是用户手动输入的日期。其中,假如curDt是2013-01-31,则curDt-1那就是2013-01-30,其他的类似。
由于本发明主要研究的是平台上的付费用户的充值流失,即付费用户在最近的一段时间内不再继续在平台充值,所以设定用户一般指的是付费用户,即在预设时间内有充值的用户群。需要说明的是,本发明本质是要训练出需要较少输入指标的用户流失预测模型进行用户流失概率的预测,因此并不对设定用户的类型进行限定,设定用户也可以包含在预设时间段内未有充值的用户。
预设时间段可以根据用户需要进行设置,由于离系统当前日期很久的充值数据参考意义不大,因此预设时间段一般选择近期,例如,可选的,预设时间段为curDt-90(天)至curDt-31(天)。
由于充值日期的数据太少时,无法有效判断付费用户是否有充值流失,所以,可选的,各个充值日期的数量一般需要在3天或者以上。根据系统当前日期以及各个充值日期,生成一个标签数据,也就是充值日期间隔指标,标签取值的不同,代表其流失概率的高低。
模型构建模块120,用于将所述第一时间段内的充值日期间隔指标输入预设模型进行训练,获得用户流失预测模型,其中,所述用户流失预测模型用于表征所述充值日期间隔指标对应的流失概率。
预设模型可以采用现有技术中已有的模型,例如,朴素贝叶斯模型(NaiveBayesian Model)。朴素贝叶斯模型是发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率,基于贝叶斯定理与特征条件独立假设的分类模型。需要说明的是,本发明并不对预设模型的类型进行限定,用户还可以采用现有技术中其它合适的模型进行训练,以获得用户流失预测模型。
将每个设定用户的充值日期间隔指标作为预设模型的输入数据,对预设模型进行训练。在进行训练时,一般是从输入数据中选取一部分数据用于训练,剩下一部分数据用于测试,例如,一般情况下,输入数据的60%用于训练,40%的数据用于测试。训练即调用预设模型(例如朴素贝叶斯模型等)来计算出充值日期间隔指标取什么样的数值时代表多大的流失概率,测试即利用训练的结果数据,来判断剩下用户的流失情况,再与这批用户的真实流失状态做一个比较,从而计算出训练的模型的准确率。
预测指标获得模块130,用于获取系统当前日期以及设定用户在第一时间段之后的预设第二时间段内的充值数据;根据所述系统当前日期和各个充值日期,获得第二时间段内的充值日期间隔指标。
预设第二时间段可以根据实际需要进行设定,例如,预设第二时间段为curDt-30至curDt-1。采用与上述步骤相同的方式提取出待测试的设定用户的充值日期间隔指标。
流失概率预测模块140,用于将第二时间段内的的充值日期间隔指标输入所述用户流失预测模型,得到所述设定用户的流失概率。
将待测试的充值日期间隔指标输入训练好的用户流失预测模型中,就可以得到设定用户的流失概率。根据该流失概率就可以确定用户的类标号(若有充值,则是未流失,否则是流失),例如流失概率大于一定的阈值时就判定用户流失,否则判定用户未流失。
在一个实施例中,所述模型指标获得模块110包括:
排序单元1101,用于将各个充值日期按照从小到大的顺序或者从大到小的顺序进行排序。
越靠近现在的充值日期越大,越远离现在的充值日期越小。为了后续计算充值日期间隔,需要对各个充值日期进行按照一定的顺序进行排序。如果数据表中存储的各个充值日期本身已经是按照从小到大的顺序依次排列的,则只需要依照次序一一读出各个充值日期即可。
充值日期间隔获得单元1102,用于根据排序后的各个充值日期,得到每相邻两个充值日期之间的充值日期间隔。
连续充值日期的间隔是衡量用户是否充值流失的重要指标。各个充值日期按照从小到大的顺序或者从大到小的顺序排列后,就可以将相邻的两个充值日期中较大的充值日期减去较小的充值日期,从而得到连续的充值日期间隔。
第一加权平均值获得单元1103,用于根据各个充值日期间隔以及各自设定的权重,获得第一加权平均值,其中,所述权重随着充值日期间隔对应的日期的变大而增高。
越是靠近现在的数据的含金量越高,因此需要进行加权处理。如果充值日期间隔由较为靠近现在的充值日期计算出,则权重较大,如果充值日期间隔由较为远离现在的充值日期计算出,则权重较小,即对于越是靠近现在的数据赋予的权重越高。权重具体的数值可以根据用户需要进行设置。
加权平均值=(第一充值日期间隔*第一权重+第二充值日期间隔*第二权重……)/(第一权重+第二权重……),根据该式即可以求得第一加权平均值。
当前充值间隔获得单元1104,用于根据所述系统当前日期和最后一次充值日期的差值,获得当前充值间隔。
最后一次充值日期为获取的各个充值日期中最靠近系统当前日期的充值日期,也即是各个充值日期中最大的充值日期。令当前充值间隔=系统当前日期-最后一次充值日期,就可以得到距离上次最后一次充值的日期天数。
充值日期间隔指标获得单元1105,用于根据所述第一加权平均值和所述当前充值间隔,获得第一时间段内充值日期间隔指标。
将该第一加权平均值跟当前充值间隔做比较,通过比较的结果产生标签数据,即充值日期间隔指标,该充值日期间隔指标代表流失概率的高低。可选的,标签的取值越小(字典顺序)则流失概率越小,因此在表征流失概率大时可以将充值日期间隔指标的值设置为较大值,在表征流失概率小时可以将充值日期间隔指标的值设置为较小值。
在一个实施例中,所述预测指标获得模块130包括:
排序单元1301,用于将各个充值日期按照从小到大的顺序或者从大到小的顺序进行排序。
越靠近现在的充值日期越大,越远离现在的充值日期越小。为了后续计算充值日期间隔,需要对各个充值日期进行按照一定的顺序进行排序。如果数据表中存储的各个充值日期本身已经是按照从小到大的顺序依次排列的,则只需要依照次序一一读出各个充值日期即可。
充值日期间隔获得单元1302,用于根据排序后的各个充值日期,得到每相邻两个充值日期之间的充值日期间隔。
连续充值日期的间隔是衡量用户是否充值流失的重要指标。各个充值日期按照从小到大的顺序或者从大到小的顺序排列后,就可以将相邻的两个充值日期中较大的充值日期减去较小的充值日期,从而得到连续的充值日期间隔。
第一加权平均值获得单元1303,用于根据各个充值日期间隔以及各自设定的权重,获得第一加权平均值,其中,所述权重随着充值日期间隔对应的日期的变大而增高。
越是靠近现在的数据的含金量越高,因此需要进行加权处理。如果充值日期间隔由较为靠近现在的充值日期计算出,则权重较大,如果充值日期间隔由较为远离现在的充值日期计算出,则权重较小,即对于越是靠近现在的数据赋予的权重越高。权重具体的数值可以根据用户需要进行设置。
加权平均值=(第一充值日期间隔*第一权重+第二充值日期间隔*第二权重……)/(第一权重+第二权重……),根据该式即可以求得第一加权平均值。
当前充值间隔获得单元1304,用于根据所述系统当前日期和最后一次充值日期的差值,获得当前充值间隔。
最后一次充值日期为获取的各个充值日期中最靠近系统当前日期的充值日期,也即是各个充值日期中最大的充值日期。令当前充值间隔=系统当前日期-最后一次充值日期,就可以得到距离上次最后一次充值的日期天数。
充值日期间隔指标获得单元1305,用于根据所述第一加权平均值和所述当前充值间隔,获得第二时间段内充值日期间隔指标。
将该第一加权平均值跟当前充值间隔做比较,通过比较的结果产生标签数据,即充值日期间隔指标,该充值日期间隔指标代表流失概率的高低。可选的,标签的取值越小(字典顺序)则流失概率越小,因此在表征流失概率大时可以将充值日期间隔指标的值设置为较大值,在表征流失概率小时可以将充值日期间隔指标的值设置为较小值。
充值日期间隔指标获得单元1105根据所述第一加权平均值和所述当前充值间隔,获得第一时间段内的充值日期间隔指标,有多种实现方式,下面结合两个具体实施例进行详细介绍。
在一个实施例中,充值日期间隔指标获得单元1105在当前充值间隔比第一加权平均值大比较多时,将充值日期间隔指标的值设置为表征流失概率高的值。可以设置阈值,如果当前充值间隔与第一加权平均值的差值大于该阈值,则意味着用户很久未充值,流失概率高,否则意味着用户流失概率低。
在另一实施例中,充值日期间隔指标获得单元1105包括:
第一数值设置子单元1105a,用于在所述当前充值间隔小于等于预设的间隔最小值时,将充值日期间隔指标的值设置为第一数值。
预设的间隔最小值可以根据实际需要进行设置,例如,在一个实施例中,所述间隔最小值为从定义的初始间隔最小值以及各个充值日期间隔中选取的最小值。可选的,定义的额间隔最小值为Integer.MAX_VALUE。此时用户的流失概率较小,因此第一数值可以设置为较小值。
第二数值设置子单元1105b,用于在所述当前充值间隔大于间隔最小值且小于等于所述第一加权平均值时,将充值日期间隔指标的值设置为第二数值。
该种情况下用户的流失概率增大,因此可以将第二数值设置为大于第一数值的值。
第三数值设置子单元1105c,用于在所述当前充值间隔大于所述第一加权平均值且小于等于预设的间隔最大值时,将充值日期间隔指标的值设置为第三数值。
间隔最大值可以根据实际需要进行确定,例如,在一个实施例中,所述间隔最大值为从定义的初始间隔最大值以及各个充值日期间隔中选取的最大值。可选的,初始间隔最大值为0。该种情况下用户的流失概率进一步增大,因此可以将第三数值设置为大于第二数值的值。
第四数值设置子单元1105d,用于在所述当前充值间隔大于所述间隔最大值时,将充值日期间隔指标的值设置为第四数值。
其中,所述第一数值、所述第二数值、所述第三数值和所述第四数值各自所表征的流失概率依次增大。
该种情况下用户的流失概率进一步增大,因此可以将第四数值设置为大于第三数值的值。
充值日期间隔指标获得单元1305根据所述第一加权平均值和所述当前充值间隔,获得第二时间段内的充值日期间隔指标,有多种实现方式,下面结合两个具体实施例进行详细介绍。
在一个实施例中,充值日期间隔指标获得单元1305在当前充值间隔比第一加权平均值大比较多时,将充值日期间隔指标的值设置为表征流失概率高的值。可以设置阈值,如果当前充值间隔与第一加权平均值的差值大于该阈值,则意味着用户很久未充值,流失概率高,否则意味着用户流失概率低。
在另一实施例中,充值日期间隔指标获得单元1305包括:
第一数值设置子单元1305a,用于在所述当前充值间隔小于等于预设的间隔最小值时,将充值日期间隔指标的值设置为第一数值。
预设的间隔最小值可以根据实际需要进行设置,例如,在一个实施例中,所述间隔最小值为从定义的初始间隔最小值以及各个充值日期间隔中选取的最小值。可选的,定义的额间隔最小值为Integer.MAX_VALUE。此时用户的流失概率较小,因此第一数值可以设置为较小值。
第二数值设置子单元1305b,用于在所述当前充值间隔大于间隔最小值且小于等于所述第一加权平均值时,将充值日期间隔指标的值设置为第二数值。
该种情况下用户的流失概率增大,因此可以将第二数值设置为大于第一数值的值。
第三数值设置子单元1305c,用于在所述当前充值间隔大于所述第一加权平均值且小于等于预设的间隔最大值时,将充值日期间隔指标的值设置为第三数值。
间隔最大值可以根据实际需要进行确定,例如,在一个实施例中,所述间隔最大值为从定义的初始间隔最大值以及各个充值日期间隔中选取的最大值。可选的,初始间隔最大值为0。该种情况下用户的流失概率进一步增大,因此可以将第三数值设置为大于第二数值的值。
第四数值设置子单元1305d,用于在所述当前充值间隔大于所述间隔最大值时,将充值日期间隔指标的值设置为第四数值。
其中,所述第一数值、所述第二数值、所述第三数值和所述第四数值各自所表征的流失概率依次增大。
该种情况下用户的流失概率进一步增大,因此可以将第四数值设置为大于第三数值的值。
通过一个充值日期间隔指标,就能获得比较好的预测效果,准确率能达到72%,使得模型简单快速高效。在保证模型简单快速高效的前提下,为了进一步提高准确率,在一个实施例中,所述模型指标获得模块110还用于根据所述系统当前日期、各个充值日期以及对应的充值金额,获得第一时间段内的充值金额间隔指标。所述模型构建模块120将第一时间段内的充值日期间隔指标和充值金额间隔指标输入预设模型进行训练,获得用户流失预测模型,其中,所述用户流失预测模型用于表征述充值日期间隔指标和所述充值金额间隔指标对应的流失概率。
所述预测指标获得模块130根据所述系统当前日期、各个充值日期以及对应的充值金额,获得第二时间段内的充值金额间隔指标;所述流失概率预测模块140还用于将第二时间段内的充值日期间隔指标和充值金额间隔指标输入所述用户流失预测模型,得到所述设定用户的流失概率。
通过两个指标:充值日期间隔指标和充值金额间隔指标,所述模型构建模块120对预设模型进行训练,从而得到更为准确的用户流失预测模型,该用户流失预测模型用于表征充值日期间隔指标和充值金额间隔指标所对应的流失概率,准确率可以达到77%,有利于预测出更能反映客户真实情况的流失概率。那么,在进行用户流失预测时,流失概率预测模块140将在第二时间段获得的所述设定用户的充值日期间隔指标和充值金额间隔指标同时输入所述用户流失预测模型,输出得到所述设定用户的流失概率,能够更加准确反映客户的真实情况。
在一个实施例中,所述模型指标获得模块110包括:
排序单元110-1,用于将各个充值日期按照从小到大的顺序或者从大到小的顺序进行排序。
越靠近现在的充值日期越大,越远离现在的充值日期越小。为了后续计算充值日期间隔,需要对各个充值日期进行按照一定的顺序进行排序。如果数据表中存储的各个充值日期本身已经是按照从小到大的顺序依次排列的,则只需要依照次序一一读出各个充值日期即可。
充值日期间隔获得单元110-2,用于根据排序后的各个充值日期,得到每相邻两个充值日期之间的充值日期间隔。
连续充值日期的间隔是衡量用户是否充值流失的重要指标。各个充值日期按照从小到大的顺序或者从大到小的顺序排列后,就可以将相邻的两个充值日期中较大的充值日期减去较小的充值日期,从而得到连续的充值日期间隔。
第二加权平均值获得单元110-3,用于根据各个充值金额与对应的充值日期间隔的比值以及各自设置的权重,获得第二加权平均值,其中,所述权重随着充值日期间隔对应的日期的变大而增高。
越是靠近现在的数据的含金量越高,因此需要进行加权处理。如果充值日期间隔由较为靠近现在的充值日期计算出,则权重较大,如果充值日期间隔由较为远离现在的充值日期计算出,则权重较小,即对于越是靠近现在的数据赋予的权重越高。即权重具体的数值可以根据用户需要进行设置。
充值金额为用户所支付的货币,例如游戏里面的金币等。假设用户在某一天a进行第一次充值,充值金额为A,在某一天b进行第二次充值,充值金额为B,则充值金额A所对应的充值日期间隔为(b-a),依次类推,就可以求得各个充值金额对应的充值日期间隔,进而计算出比值。
加权平均值=(第一比值*第一权重+第二比值*第二权重……)/(第一权重+第二权重……),根据该式即可以求得第二加权平均值,第二加权平均值也即是日均金额消耗,假设用户充值的为金币,则第二加权平均值也即是日均金币消耗。
当前充值间隔获得单元110-4,用于根据所述系统当前日期与最后一次充值日期的差值,获得当前充值间隔。
最后一次充值日期为获取的各个充值日期中最靠近系统当前日期的充值日期,也即是各个充值日期中最大的充值日期。令当前充值间隔=系统当前日期-最后一次充值日期,就可以得到距离上次最后一次充值的日期天数。
当前消耗金额获得单元110-5,用于根据所述当前充值间隔与所述第二加权平均值的乘积,获得当前消耗金额。
将当前充值间隔与日均金额消耗(也即是第二加权平均值)相乘,则可以得到用户上次最后一次充值至今的金额消耗数据,也即是当前消耗金额。
充值金额间隔指标获得单元110-6,用于根据所述当前消耗金额和最后一次充值金额,获得第一时间段内的充值金额间隔指标。
将该当前消耗金额跟最后一次充值金额做比较,通过比较的结果产生标签数据,即充值金额间隔指标,该充值金额间隔指标代表流失概率的高低。可选的,该标签的取值越小(字典顺序)则流失概率越大,因此在表征流失概率大时可以将充值金额间隔指标的值设置为较小值,在表征流失概率小时可以将充值金额间隔指标的值设置为较大值。
在一个实施例中,所述预测指标获得模块130包括:
排序单元130-1,用于将各个充值日期按照从小到大的顺序或者从大到小的顺序进行排序。
越靠近现在的充值日期越大,越远离现在的充值日期越小。为了后续计算充值日期间隔,需要对各个充值日期进行按照一定的顺序进行排序。如果数据表中存储的各个充值日期本身已经是按照从小到大的顺序依次排列的,则只需要依照次序一一读出各个充值日期即可。
充值日期间隔获得单元130-2,用于根据排序后的各个充值日期,得到每相邻两个充值日期之间的充值日期间隔。
连续充值日期的间隔是衡量用户是否充值流失的重要指标。各个充值日期按照从小到大的顺序或者从大到小的顺序排列后,就可以将相邻的两个充值日期中较大的充值日期减去较小的充值日期,从而得到连续的充值日期间隔。
第二加权平均值获得单元130-3,用于根据各个充值金额与对应的充值日期间隔的比值以及各自设置的权重,获得第二加权平均值,其中,所述权重随着充值日期间隔对应的日期的变大而增高。
越是靠近现在的数据的含金量越高,因此需要进行加权处理。如果充值日期间隔由较为靠近现在的充值日期计算出,则权重较大,如果充值日期间隔由较为远离现在的充值日期计算出,则权重较小,即对于越是靠近现在的数据赋予的权重越高。即权重具体的数值可以根据用户需要进行设置。
充值金额为用户所支付的货币,例如游戏里面的金币等。假设用户在某一天a进行第一次充值,充值金额为A,在某一天b进行第二次充值,充值金额为B,则充值金额A所对应的充值日期间隔为(b-a),依次类推,就可以求得各个充值金额对应的充值日期间隔,进而计算出比值。
加权平均值=(第一比值*第一权重+第二比值*第二权重……)/(第一权重+第二权重……),根据该式即可以求得第二加权平均值,第二加权平均值也即是日均金额消耗,假设用户充值的为金币,则第二加权平均值也即是日均金币消耗。
当前充值间隔获得单元130-4,用于根据所述系统当前日期与最后一次充值日期的差值,获得当前充值间隔。
最后一次充值日期为获取的各个充值日期中最靠近系统当前日期的充值日期,也即是各个充值日期中最大的充值日期。令当前充值间隔=系统当前日期-最后一次充值日期,就可以得到距离上次最后一次充值的日期天数。
当前消耗金额获得单元130-5,用于根据所述当前充值间隔与所述第二加权平均值的乘积,获得当前消耗金额。
将当前充值间隔与日均金额消耗(也即是第二加权平均值)相乘,则可以得到用户上次最后一次充值至今的金额消耗数据,也即是当前消耗金额。
充值金额间隔指标获得单元130-6,用于根据所述当前消耗金额和最后一次充值金额,获得第二时间段内的充值金额间隔指标。
将该当前消耗金额跟最后一次充值金额做比较,通过比较的结果产生标签数据,即充值金额间隔指标,该充值金额间隔指标代表流失概率的高低。可选的,该标签的取值越小(字典顺序)则流失概率越大,因此在表征流失概率大时可以将充值金额间隔指标的值设置为较小值,在表征流失概率小时可以将充值金额间隔指标的值设置为较大值。
充值金额间隔指标获得单元110-6根据所述当前消耗金额和最后一次充值金额,获得充值金额间隔指标,有多种实现方式,下面结合两个实施例进行详细介绍。
在一个实施例中,如果当前消耗金额比最后一次充值金额大的比较多,充值金额间隔指标获得单元110-6将充值金额间隔指标设置为表征流失概率高的数值。可以设置阈值,如果当前消耗金额与最后一次充值金额的差值大于该阈值,则意味着流失概率高,否则意味着用户流失概率低。
在另一实施例中,所述充值金额间隔指标获得单元110-6包括:
第一数值设置子单元110-6a,用于在最后一次充值金额小于等于预设的金额最小值时,将充值金额间隔指标的值设置为第一数值。
预设的金额最小值可以根据实际需要进行设置,例如,在一个实施例中,所述金额最小值为所述当前消耗金额与第一设定值的乘积。可选的,第一设定值为0.7。此时用户的流失概率较大,因此第一数值可以设置为较小值。
第二数值设置子单元110-6b,用于在最后一次充值金额大于所述金额最小值且小于等于所述当前消耗金额时,将充值金额间隔指标的值设置为第二数值。
该种情况下用户的流失概率减小,因此可以将第二数值设置为大于第一数值的值。
第三数值设置子单元110-6c,用于在最后一次充值金额大于所述当前消耗金额且小于预设的金额最大值时,将充值金额间隔指标的值设置为第三数值。
金额最大值可以根据实际需要进行确定,例如,在一个实施例中,所述金额最大值为所述当前消耗金额与第二设定值的乘积,其中,所述第一设定值小于所述第二设定值。可选的,第二设定值为1.3。该种情况下用户的流失概率进一步减少,因此可以将第三数值设置为大于第二数值的值。
第四数值设置子单元110-6d,用于在最后一次充值金额大于所述金额最大值时,将充值金额间隔指标的值设置为第四数值。
其中,所述第一数值、所述第二数值、所述第三数值和所述第四数值各自所表征的流失概率依次减小。
该种情况下用户的流失概率进一步减少,因此可以将第四数值设置为大于第三数值的值。
充值金额间隔指标获得单元130-6根据所述当前消耗金额和最后一次充值金额,获得充值金额间隔指标,有多种实现方式,下面结合两个实施例进行详细介绍。
在一个实施例中,如果当前消耗金额比最后一次充值金额大的比较多,充值金额间隔指标获得单元130-6将充值金额间隔指标设置为表征流失概率高的数值。可以设置阈值,如果当前消耗金额与最后一次充值金额的差值大于该阈值,则意味着流失概率高,否则意味着用户流失概率低。
在另一实施例中,所述充值金额间隔指标获得单元130-6包括:
第一数值设置子单元130-6a,用于在最后一次充值金额小于等于预设的金额最小值时,将充值金额间隔指标的值设置为第一数值。
预设的金额最小值可以根据实际需要进行设置,例如,在一个实施例中,所述金额最小值为所述当前消耗金额与第一设定值的乘积。可选的,第一设定值为0.7。此时用户的流失概率较大,因此第一数值可以设置为较小值。
第二数值设置子单元130-6b,用于在最后一次充值金额大于所述金额最小值且小于等于所述当前消耗金额时,将充值金额间隔指标的值设置为第二数值。
该种情况下用户的流失概率减小,因此可以将第二数值设置为大于第一数值的值。
第三数值设置子单元130-6c,用于在最后一次充值金额大于所述当前消耗金额且小于预设的金额最大值时,将充值金额间隔指标的值设置为第三数值。
金额最大值可以根据实际需要进行确定,例如,在一个实施例中,所述金额最大值为所述当前消耗金额与第二设定值的乘积,其中,所述第一设定值小于所述第二设定值。可选的,第二设定值为1.3。该种情况下用户的流失概率进一步减少,因此可以将第三数值设置为大于第二数值的值。
第四数值设置子单元130-6d,用于在最后一次充值金额大于所述金额最大值时,将充值金额间隔指标的值设置为第四数值。
其中,所述第一数值、所述第二数值、所述第三数值和所述第四数值各自所表征的流失概率依次减小。
该种情况下用户的流失概率进一步减少,因此可以将第四数值设置为大于第三数值的值。
在一个实施例中,还包括与所述流失概率预测模块140相连的分析模块150,所述分析模块150还用于向流失概率大于等于阈值的设定用户,发送召回业务信息,例如提供优惠或者感兴趣的内容等等;或
获取流失概率大于等于阈值的设定用户的用户数据,根据用户数据分析用户特征,例如分析出哪一个年龄段或者性别的用户流失概率较大,从而针对该年龄段或者性别的用户采取针对性的措施;或
根据所述流失概率,分析各时间段的流失情况,从而针对流失概率较大的时间段增加优惠活动或者采取其他召回用户的措施。
需要说明的是,本发明并不对采用本发明方式得到用户流失概率后执行的措施进行限定,只要涉及基于用户流失概率分析数据的行为均可以采用本发明所提供的方案。
本发明还提出一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任意一项所述方法的步骤。
如图3所示为本发明计算机设备的部分结构框图,为了便于说明,仅示出了与本发明实施例相关的部分。所述计算机设备可以为包括手机、平板电脑、笔记本电脑、台式电脑等可观看视频、收听FM或音乐、玩游戏、看新闻或小说的终端设备。下面以台式电脑为例:
参考图3,台式电脑包括处理器、存储器、输入单元、显示单元等部件。本领域技术人员可以理解,图3中示出的台式电脑结构并不构成对所有台式电脑的限定,可以包括比图示更多或更少的部件,或者组合某些部件。存储器可用于存储计算机程序以及各功能模块,处理器通过运行存储在存储器的计算机程序,从而执行台式电脑的各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如YY游戏程序)等;存储数据区可存储根据台式电脑的使用所创建的数据(比如充值数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其它易失性固态存储器件。
输入单元可用于接收用户输入的充值数据,以及产生与台式电脑的用户设置以及功能控制有关的信号输入。具体地,输入单元可包括触控面板以及其它输入设备。触控面板可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并根据预先设定的程序驱动相应的连接装置;其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元可用于显示用户输入的信息或提供给用户的信息以及台式电脑的各种菜单。显示单元可采用液晶显示器、有机发光二极管等形式。处理器是台式电脑的控制中心,利用各种接口和线路连接整个电脑的各个部分,通过运行或执行存储在存储器内的软件程序和/或模块,以及调用存储在存储器内的数据,执行各种功能和处理数据。
为了更好的理解本发明用户流失预测方法、装置以及计算机设备,下面结合具体实例进行简单介绍。
如表2所示,为获取的某个用户的充值数据的具体实例,从该表可以看出,该用户进行了四次充值,每次充值的金额越来越大。
表2样例数据
充值日期 | 充值金额 |
2013-01-01 | 12 |
2013-01-05 | 20 |
2013-01-12 | 80 |
2013-01-28 | 120 |
如表3所示,为在进行指标计算时所产生的中间数据,从该表可以看出,有四个充值日期间隔,每个充值日期间隔所对应的权重逐渐增大。
表3中间的数据结果
序号 | payDtDiffs | payDwbs | weight |
0 | 4 | 12 | 1 |
1 | 7 | 20 | 2 |
2 | 16 | 80 | 3 |
3 | 3 | 120 |
如表4所示,为计算的两个指标以及中间数据,其中,充值日期间隔指标diffOfPayDt的标签值为n_0,充值金额间隔指标diffOfPayDwb的标签值为n_3。
表4中间的数据结果以及指标值
下面再来检验模型的效果,在[4月1日,6月30日]内有充值的用户为用户群,计算用户群在该时间段内的模型输入数据,即充值日期间隔指标和充值金额间隔指标,其中,输入数据的60%用于训练,40%的数据用于测试。再根据训练好的模型计算用户群在[7月1日,7月30日]内的类标号(若有充值,则是未流失,否则是流失)。
如表5所示,为模型测试效果数据,根据该数据,可以计算出本模型的准确率=(25068+18603)/(25068+18603+5264+7839)=77%
表5模型测试效果数据
上述的用户流失预测方法、装置以及计算机设备,构建的用户流失预测模型只需要一个充值日期间隔指标就可准确分析出用户的流失概率,准确率能达到72%,使得模型计算简单快速高效;进一步的,构建的用户流失预测模型只需要再输入一个充值金额间隔指标就可以进一步提高用户流失预测的准确率,准确率能达到77%,同时,还能保证模型的简单快速高效。
在本发明各实施例中的各功能单元可集成在一个处理模块中,也可以各个单元单独物理存在,也可以两个或两个以上单元集成于一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取的存储介质中。所述存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random AcceSS Memory,随即存储器)、EPROM(EraSable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically EraSable Programmable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,存储介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。可以是只读存储器,磁盘或光盘等。
本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种用户流失预测方法,其特征在于,包括步骤:
获取系统当前日期以及设定用户在预设第一时间段内的充值数据,其中,所述充值数据包括各个充值日期;根据所述系统当前日期和各个充值日期,获得第一时间段内的充值日期间隔指标;
将所述第一时间段内的充值日期间隔指标输入预设模型进行训练,获得用户流失预测模型,其中,所述用户流失预测模型用于表征所述充值日期间隔指标对应的流失概率;
获取系统当前日期以及设定用户在第一时间段之后的预设第二时间段内的充值数据;根据所述系统当前日期和各个充值日期,获得第二时间段内的充值日期间隔指标;
将第二时间段内的充值日期间隔指标输入所述用户流失预测模型,得到所述设定用户的流失概率。
2.根据权利要求1所述的用户流失预测方法,其特征在于,所述得到所述设定用户的流失概率之后,还包括:
向流失概率大于等于阈值的设定用户,发送召回业务信息;或
获取流失概率大于等于阈值的设定用户的用户数据,根据用户数据分析用户特征;或
根据所述流失概率,分析各时间段的流失情况。
3.根据权利要求1所述的用户流失预测方法,其特征在于,
所述根据所述系统当前日期和各个充值日期,获得第一时间段内的充值日期间隔指标,包括:
将各个充值日期按照从小到大的顺序或者从大到小的顺序进行排序;
根据排序后的各个充值日期,得到每相邻两个充值日期之间的充值日期间隔;
根据各个充值日期间隔以及各自设定的权重,获得第一加权平均值,其中,所述权重随着充值日期间隔对应的日期的变大而增高;
根据所述系统当前日期和最后一次充值日期的差值,获得当前充值间隔;
根据所述第一加权平均值和所述当前充值间隔,获得第一时间段内的充值日期间隔指标;
所述根据所述系统当前日期和各个充值日期,获得第二时间段内的充值日期间隔指标,包括:
将各个充值日期按照从小到大的顺序或者从大到小的顺序进行排序;
根据排序后的各个充值日期,得到每相邻两个充值日期之间的充值日期间隔;
根据各个充值日期间隔以及各自设定的权重,获得第一加权平均值,其中,所述权重随着充值日期间隔对应的日期的变大而增高;
根据所述系统当前日期和最后一次充值日期的差值,获得当前充值间隔;
根据所述第一加权平均值和所述当前充值间隔,获得第二时间段内的充值日期间隔指标。
4.根据权利要求3所述的用户流失预测方法,其特征在于,
所述根据所述第一加权平均值和所述当前充值间隔,获得第一时间段内的充值日期间隔指标,包括:
若所述当前充值间隔小于等于预设的间隔最小值,将充值日期间隔指标的值设置为第一数值;
若所述当前充值间隔大于间隔最小值且小于等于所述第一加权平均值,将充值日期间隔指标的值设置为第二数值;
若所述当前充值间隔大于所述第一加权平均值且小于等于预设的间隔最大值,将充值日期间隔指标的值设置为第三数值;
若所述当前充值间隔大于所述间隔最大值,将充值日期间隔指标的值设置为第四数值;
其中,所述第一数值、所述第二数值、所述第三数值和所述第四数值各自所表征的流失概率依次增大;
所述根据所述第一加权平均值和所述当前充值间隔,获得第二时间段内的充值日期间隔指标,包括:
若所述当前充值间隔小于等于预设的间隔最小值,将充值日期间隔指标的值设置为第一数值;
若所述当前充值间隔大于间隔最小值且小于等于所述第一加权平均值,将充值日期间隔指标的值设置为第二数值;
若所述当前充值间隔大于所述第一加权平均值且小于等于预设的间隔最大值,将充值日期间隔指标的值设置为第三数值;
若所述当前充值间隔大于所述间隔最大值,将充值日期间隔指标的值设置为第四数值;
其中,所述第一数值、所述第二数值、所述第三数值和所述第四数值各自所表征的流失概率依次增大。
5.根据权利要求4所述的用户流失预测方法,其特征在于,所述间隔最小值为从定义的初始间隔最小值以及各个充值日期间隔中选取的最小值,所述间隔最大值为从定义的初始间隔最大值以及各个充值日期间隔中选取的最大值。
6.根据权利要求1所述的用户流失预测方法,其特征在于,所述充值数据还包括与各个充值日期对应的充值金额;
所述获得用户流失预测模型之前,还包括:根据所述系统当前日期、各个充值日期以及对应的充值金额,获得第一时间段内的充值金额间隔指标;
所述将第一时间段内的充值日期间隔指标输入预设模型进行训练,获得用户流失预测模型,包括:将第一时间段内的充值日期间隔指标和充值金额间隔指标输入预设模型进行训练,获得用户流失预测模型,其中,所述用户流失预测模型用于表征述充值日期间隔指标和所述充值金额间隔指标对应的流失概率;
所述得到所述设定用户的流失概率之前,还包括:根据所述系统当前日期、各个充值日期以及对应的充值金额,获得第二时间段内的充值金额间隔指标;
所述将第二时间段内的充值日期间隔指标输入所述用户流失预测模型,得到所述设定用户的流失概率,包括:将第二时间段内的充值日期间隔指标和充值金额间隔指标输入所述用户流失预测模型,得到所述设定用户的流失概率。
7.根据权利要求6所述的用户流失预测方法,其特征在于,
所述根据所述系统当前日期、各个充值日期以及对应的充值金额,获得第一时间段内的充值金额间隔指标,包括:
将各个充值日期按照从小到大的顺序或者从大到小的顺序进行排序;
根据排序后的各个充值日期,得到每相邻两个充值日期之间的充值日期间隔;
根据各个充值金额与对应的充值日期间隔的比值以及各自设置的权重,获得第二加权平均值,其中,所述权重随着充值日期间隔对应的日期的变大而增高;
根据所述系统当前日期与最后一次充值日期的差值,获得当前充值间隔;
根据所述当前充值间隔与所述第二加权平均值的乘积,获得当前消耗金额;
根据所述当前消耗金额和最后一次充值金额,获得第一时间段内的充值金额间隔指标;
所述根据所述系统当前日期、各个充值日期以及对应的充值金额,获得第二时间段内的充值金额间隔指标,包括:
将各个充值日期按照从小到大的顺序或者从大到小的顺序进行排序;
根据排序后的各个充值日期,得到每相邻两个充值日期之间的充值日期间隔;
根据各个充值金额与对应的充值日期间隔的比值以及各自设置的权重,获得第二加权平均值,其中,所述权重随着充值日期间隔对应的日期的变大而增高;
根据所述系统当前日期与最后一次充值日期的差值,获得当前充值间隔;
根据所述当前充值间隔与所述第二加权平均值的乘积,获得当前消耗金额;
根据所述当前消耗金额和最后一次充值金额,获得第二时间段内的充值金额间隔指标。
8.根据权利要求7所述的用户流失预测方法,其特征在于,
所述根据所述当前消耗金额和最后一次充值金额,获得第一时间段内的充值金额间隔指标,包括:
若最后一次充值金额小于等于预设的金额最小值,将充值金额间隔指标的值设置为第一数值;
若最后一次充值金额大于所述金额最小值且小于等于所述当前消耗金额,将充值金额间隔指标的值设置为第二数值;
若最后一次充值金额大于所述当前消耗金额且小于预设的金额最大值,将充值金额间隔指标的值设置为第三数值;
若最后一次充值金额大于所述金额最大值,将充值金额间隔指标的值设置为第四数值;
其中,所述第一数值、所述第二数值、所述第三数值和所述第四数值各自所表征的流失概率依次减小;所述金额最小值为所述当前消耗金额与第一设定值的乘积,所述金额最大值为所述当前消耗金额与第二设定值的乘积,其中,所述第一设定值小于所述第二设定值;
所述根据所述当前消耗金额和最后一次充值金额,获得第二时间段内的充值金额间隔指标,包括:
若最后一次充值金额小于等于预设的金额最小值,将充值金额间隔指标的值设置为第一数值;
若最后一次充值金额大于所述金额最小值且小于等于所述当前消耗金额,将充值金额间隔指标的值设置为第二数值;
若最后一次充值金额大于所述当前消耗金额且小于预设的金额最大值,将充值金额间隔指标的值设置为第三数值;
若最后一次充值金额大于所述金额最大值,将充值金额间隔指标的值设置为第四数值;
其中,所述第一数值、所述第二数值、所述第三数值和所述第四数值各自所表征的流失概率依次减小;所述金额最小值为所述当前消耗金额与第一设定值的乘积,所述金额最大值为所述当前消耗金额与第二设定值的乘积,其中,所述第一设定值小于所述第二设定值。
9.一种用户流失预测装置,其特征在于,包括:
模型指标获得模块,用于获取系统当前日期以及设定用户在预设第一时间段内的充值数据,其中,所述充值数据包括各个充值日期;根据所述系统当前日期和各个充值日期,获得第一时间段内的充值日期间隔指标;
模型构建模块,用于将所述第一时间段内的充值日期间隔指标输入预设模型进行训练,获得用户流失预测模型,其中,所述用户流失预测模型用于表征所述充值日期间隔指标对应的流失概率;
预测指标获得模块,用于获取系统当前日期以及设定用户在第一时间段之后的预设第二时间段内的充值数据;根据所述系统当前日期和各个充值日期,获得第二时间段内的充值日期间隔指标;
流失概率预测模块,用于将第二时间段内的的充值日期间隔指标输入所述用户流失预测模型,得到所述设定用户的流失概率。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-8中任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711108489.4A CN108038711B (zh) | 2017-11-09 | 2017-11-09 | 用户流失预测方法、装置以及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711108489.4A CN108038711B (zh) | 2017-11-09 | 2017-11-09 | 用户流失预测方法、装置以及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108038711A true CN108038711A (zh) | 2018-05-15 |
CN108038711B CN108038711B (zh) | 2021-03-23 |
Family
ID=62093956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711108489.4A Active CN108038711B (zh) | 2017-11-09 | 2017-11-09 | 用户流失预测方法、装置以及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108038711B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109451527A (zh) * | 2018-12-21 | 2019-03-08 | 广东宜通世纪科技股份有限公司 | 一种移动通信用户流失日粒度预测方法及装置 |
CN109461023A (zh) * | 2018-10-12 | 2019-03-12 | 中国平安人寿保险股份有限公司 | 流失用户挽回方法及装置、电子设备、存储介质 |
CN111803957A (zh) * | 2020-07-17 | 2020-10-23 | 网易(杭州)网络有限公司 | 一种网络游戏的玩家预测方法、装置、计算机设备和介质 |
CN112465544A (zh) * | 2020-11-25 | 2021-03-09 | 北京深演智能科技股份有限公司 | 用户流失预警的方法和装置 |
CN112686448A (zh) * | 2020-12-31 | 2021-04-20 | 重庆富民银行股份有限公司 | 基于属性数据的流失预警方法及系统 |
CN113082725A (zh) * | 2021-03-08 | 2021-07-09 | 杭州电魂网络科技股份有限公司 | 游戏用户分群方法、装置、电子设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090276289A1 (en) * | 2000-12-20 | 2009-11-05 | Jonathan Dickinson | System and Method for Predicting Likelihood of Customer Attrition and Retention Measures |
KR20130123581A (ko) * | 2012-05-03 | 2013-11-13 | (주)네오위즈게임즈 | 장애 발생에 대한 손실 예측 방법 및 서버 |
CN103854065A (zh) * | 2012-11-30 | 2014-06-11 | 西门子公司 | 一种用于客户流失预测的方法和装置 |
CN104504460A (zh) * | 2014-12-09 | 2015-04-08 | 北京嘀嘀无限科技发展有限公司 | 预测叫车平台的用户流失的方法和装置 |
CN105069534A (zh) * | 2015-08-18 | 2015-11-18 | 广州华多网络科技有限公司 | 客户流失预测方法以及装置 |
CN105786885A (zh) * | 2014-12-24 | 2016-07-20 | 北京奇虎科技有限公司 | 消息通知的生成方法和系统、及电子设备 |
-
2017
- 2017-11-09 CN CN201711108489.4A patent/CN108038711B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090276289A1 (en) * | 2000-12-20 | 2009-11-05 | Jonathan Dickinson | System and Method for Predicting Likelihood of Customer Attrition and Retention Measures |
KR20130123581A (ko) * | 2012-05-03 | 2013-11-13 | (주)네오위즈게임즈 | 장애 발생에 대한 손실 예측 방법 및 서버 |
CN103854065A (zh) * | 2012-11-30 | 2014-06-11 | 西门子公司 | 一种用于客户流失预测的方法和装置 |
CN104504460A (zh) * | 2014-12-09 | 2015-04-08 | 北京嘀嘀无限科技发展有限公司 | 预测叫车平台的用户流失的方法和装置 |
CN105786885A (zh) * | 2014-12-24 | 2016-07-20 | 北京奇虎科技有限公司 | 消息通知的生成方法和系统、及电子设备 |
CN105069534A (zh) * | 2015-08-18 | 2015-11-18 | 广州华多网络科技有限公司 | 客户流失预测方法以及装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109461023A (zh) * | 2018-10-12 | 2019-03-12 | 中国平安人寿保险股份有限公司 | 流失用户挽回方法及装置、电子设备、存储介质 |
CN109461023B (zh) * | 2018-10-12 | 2023-10-24 | 中国平安人寿保险股份有限公司 | 流失用户挽回方法及装置、电子设备、存储介质 |
CN109451527A (zh) * | 2018-12-21 | 2019-03-08 | 广东宜通世纪科技股份有限公司 | 一种移动通信用户流失日粒度预测方法及装置 |
CN109451527B (zh) * | 2018-12-21 | 2019-09-20 | 宜通世纪科技股份有限公司 | 一种移动通信用户流失日粒度预测方法及装置 |
CN111803957A (zh) * | 2020-07-17 | 2020-10-23 | 网易(杭州)网络有限公司 | 一种网络游戏的玩家预测方法、装置、计算机设备和介质 |
CN111803957B (zh) * | 2020-07-17 | 2024-02-09 | 网易(杭州)网络有限公司 | 一种网络游戏的玩家预测方法、装置、计算机设备和介质 |
CN112465544A (zh) * | 2020-11-25 | 2021-03-09 | 北京深演智能科技股份有限公司 | 用户流失预警的方法和装置 |
CN112686448A (zh) * | 2020-12-31 | 2021-04-20 | 重庆富民银行股份有限公司 | 基于属性数据的流失预警方法及系统 |
CN112686448B (zh) * | 2020-12-31 | 2024-02-13 | 重庆富民银行股份有限公司 | 基于属性数据的流失预警方法及系统 |
CN113082725A (zh) * | 2021-03-08 | 2021-07-09 | 杭州电魂网络科技股份有限公司 | 游戏用户分群方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108038711B (zh) | 2021-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108038711A (zh) | 用户流失预测方法、装置以及计算机设备 | |
Bloom et al. | The diffusion of disruptive technologies | |
Cole | Synergy and congestion in the tourist destination life cycle | |
Garber et al. | From density to destiny: Using spatial dimension of sales data for early prediction of new product success | |
Radicchi et al. | Diffusion of scientific credits and the ranking of scientists | |
Briggs et al. | Thinking outside the box: recent advances in the analysis and presentation of uncertainty in cost-effectiveness studies | |
Srdjevic | Linking analytic hierarchy process and social choice methods to support group decision-making in water management | |
US8782045B1 (en) | Evaluating techniques for clustering geographic entities | |
Cheng et al. | Fuzzy importance-performance analysis of visitor satisfaction for theme park: The case of Fantawild Adventure in Taiwan, China | |
CN105183870B (zh) | 一种利用微博位置信息的城市功能区探测方法及系统 | |
Luo et al. | Integrating supplier selection in optimal product family design | |
CN105493057B (zh) | 利用精确性控制的内容选择 | |
Park et al. | A Bayesian network approach to examining key success factors of mobile games | |
CN107710249A (zh) | 个性化预测模型 | |
CN109784959B (zh) | 一种目标用户预测方法、装置、后台服务器及存储介质 | |
CN107230381A (zh) | 一种停车位推荐方法、服务器以及客户端 | |
Grisolía et al. | Social engagement and regional theatre: patterns of theatre attendance | |
CN110162359A (zh) | 新手引导信息的推送方法、装置及系统 | |
Nwakanma et al. | Factors influencing telecommunication subscribers’ decision to port among network providers in Nigeria | |
Lerch | Fertility and union formation during crisis and societal consolidation in the Western Balkans | |
lo Storto | Performance evaluation of social service provision in Italian major municipalities using Network Data Envelopment Analysis | |
Scarf et al. | On skill and chance in sport | |
Zhan et al. | Analysis of collective action propagation with multiple recurrences | |
Park et al. | Moderating effects of recreation specialization on the quality-value-loyalty chain: A case of the Taroko Gorge Marathon | |
CN112395499A (zh) | 信息推荐方法及装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |