CN108364195A

CN108364195A - 用户留存概率预测方法、装置、预测服务器及存储介质

Info

Publication number: CN108364195A
Application number: CN201810135677.4A
Authority: CN
Inventors: 钟子宏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-02-09
Filing date: 2018-02-09
Publication date: 2018-08-03
Anticipated expiration: 2038-02-09
Also published as: CN108364195B

Abstract

本发明提供一种用户留存概率预测方法、装置、预测服务器及存储介质，该方法包括：获取目标业务在至少两个历史周期的用户流失数据；根据所述至少两个历史周期的用户流失数据，确定目标业务的用户流失速率；根据所述用户流失速率，预估在时间影响下，目标业务在未来的目标周期的用户基准留存概率；获取目标用户的留存概率调整参数；根据所述目标用户的留存概率调整参数，以及目标业务在所述目标周期的用户基准留存概率，预测目标用户在所述目标周期的留存概率。本发明从时间序列的角度考虑，融合了在时间上会对预测结果产生影响的用户流失速率，显著提高了用户留存概率的预测准确性，提高了预测效果。

Description

用户留存概率预测方法、装置、预测服务器及存储介质

技术领域

本发明涉及信息处理领域，更具体的说，涉及一种用户留存概率预测方法、装置、预测服务器及存储介质。

背景技术

用户留存概率是针对业务(业务如游戏、社交软件等应用程序，又如提供服务的网站等)的具体注册用户而言，指的是业务的某一注册用户在未来留存下来的概率；为指导业务运营策略的制定、调整，对业务的具体注册用户在未来的留存概率进行预测(即进行用户留存概率预测)，显得尤为必要。

在进行用户在业务的未来的留存概率预测时，传统的用户留存概率预测方式主要是利用机器学习模型，建立未来单个周期的用户特征与用户留存概率之间的关联关系，并对业务的具体注册用户在该未来单个周期的留存概率进行预测。可以看出，传统的用户留存概率预测方式是基于用户在业务的单个周期的用户特征数据进行，所得到的留存概率预测的结果往往较为片面，预测结果的准确率并不高，并无法为业务的运营策略的制定、调整提供有效指导。因此，目前迫切需要一种能够有效提高预测准确率的用户留存概率预测方法。

发明内容

有鉴于此，本发明实施例提供一种用户留存概率预测方法、装置、预测服务器及存储介质，以解决预测准确率较低的问题。

为实现上述目的，本发明实施例提供如下技术方案：

一种用户留存概率预测方法，包括：

获取目标业务在至少两个历史周期的用户流失数据；

根据所述至少两个历史周期的用户流失数据，确定目标业务的用户流失速率；

根据所述用户流失速率，预估在时间影响下，目标业务在未来的目标周期的用户基准留存概率；

获取目标用户的留存概率调整参数；

根据所述目标用户的留存概率调整参数，以及目标业务在所述目标周期的用户基准留存概率，预测目标用户在所述目标周期的留存概率。

本发明实施例还提供一种用户留存概率预测装置，包括：

用户流失数据获取模块，用于获取目标业务在至少两个历史周期的用户流失数据；

用户流失速率确定模块，用于根据所述至少两个历史周期的用户流失数据，确定目标业务的用户流失速率；

目标周期基准留存概率确定模块，用于根据所述用户流失速率，预估在时间影响下，目标业务在未来的目标周期的用户基准留存概率；

留存概率调整参数获取模块，用于获取目标用户的留存概率调整参数；

留存概率预测模块，用于根据所述目标用户的留存概率调整参数，以及目标业务在所述目标周期的用户基准留存概率，预测目标用户在所述目标周期的留存概率。

本发明实施例还提供一种预测服务器，包括：至少一个存储器和至少一个处理器；所述存储器存储有适于所述处理器执行的程序，以实现上述所述的用户留存概率预测方法的步骤。

本发明实施例还提一种存储介质，所述存储介质存储有适于所述处理器执行的程序，以实现上述所述的用户留存概率预测方法的步骤。

基于上述技术方案，本发明根据至少两个历史周期的用户流失数据，确定目标业务的用户流失速率，预估在时间影响下，目标业务在未来的目标周期的用户基准留存概率，并结合目标用户的留存概率调整参数，共同预测出目标用户在所述目标周期的留存概率。本发明从时间序列的角度考虑，融合了在时间上会对预测结果产生影响的用户流失速率，显著提高了用户留存概率的预测准确性，提高了预测效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的用户留存概率预测系统的架构示意图；

图2为本发明实施例提供的用户留存概率预测方法的流程图；

图3为本发明实施例提供的用户留存概率预测方法的另一流程图；

图4为本发明实施例提供的确定目标用户的留存概率调整参数的流程图；

图5为本发明实施例提供的确定特征权重的方法流程图；

图6为本发明实施例提供的确定特征权重的另一方法流程图；

图7为本发明实施例提供的用户留存概率预测方法的流程过程示例图；

图8为本发明实施例提供的用户留存概率预测装置的结构框图；

图9为本发明实施例提供的用户留存概率预测装置的另一结构框图；

图10为本发明实施例提供的预测服务器的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的用户留存概率预测方法可针对游戏、社交、电子商务等类型的业务，进行具体用户在业务的未来周期的留存概率的预测；作为一种可选示例，本发明实施例提供的用户留存概率预测方法可针对游戏业务，进行具体用户在游戏业务的未来周期的留存概率的预测，图1示出了本发明实施例提供的用户留存概率预测系统的架构示意图，参照图1，该系统可以包括：游戏数据库10和预测服务器11。

其中，游戏数据库10是存储游戏业务的用户游戏数据的数据库，游戏数据可存储游戏业务中与用户相关的各类数据；具体的，作为一种示例，游戏数据库可针对每一用户存储如下数据：

用户基础数据：性别、年龄、职业、学历等；

用户登录数据：登录时长、登录次数、登录天数、登陆频率等；

用户充值数据：充值金额、账户余额、充值次数、ARPU等；

用户表现数据：角色等级、装备信息、组队频次、杀怪数量等。

在本发明实施例中，游戏数据库10还可用于记录游戏在各历史周期的用户流失数据与各历史周期的活跃用户数据。其中，一个周期可以是指一天、一周、一个月、一个季度等，也可以是指预设的其他时间范围，如五天、十天、两个月等。

预测服务器11为用于本发明实施例预测用户在游戏业务的未来周期的留存概率的服务设备，其功能可以由游戏服务器来实现，也可以由单独设置的服务器来实现。其中，游戏服务器是为用户提供游戏服务的服务设备，能够与用户的游戏终端进行交换，实现游戏的登录、退出、游戏逻辑处理等功能。

在本发明实施例中，预测服务器11可与游戏数据库10相配合，对游戏业务的任一具体用户在未来周期的留存概率进行预测。其中，游戏数据库10可为用户在未来周期的留存概率的预测提供数据支持，预测服务器11可根据游戏数据库10中的用户数据来预测用户在游戏业务未来周期的留存概率。

需要说明的是，图1所示游戏数据库和预测服务器仅为业务在游戏类型下的一种系统架构示例；在任一类型的业务下，本发明实施例可提供业务数据库和预测服务器的系统架构来实现用户留存概率预测，业务数据库可以是存储用户业务数据的数据库(图1所示游戏数据库仅是业务数据库在游戏业务情境下的一种表现形式)；预测服务器可以是提供业务服务的业务服务器(如图1所示预测服务器可以由游戏服务器实现)，也可以是专门设置的用于进行用户留存概率预测的服务设备。

显然，图1所示的游戏数据库也可以是设置于游戏服务器中的数据存储单元，即业务数据库可以是业务服务器中的数据存储单元。

作为用户留存概率预测的可选实现，结合图1所示系统，图2示出了本发明实施例提供的用户留存概率预测方法的一种可选流程，该方法流程可应用于预测服务器，参照图2，该方法流程可以包括：

步骤S100：获取目标游戏在至少两个历史周期的用户流失数据。

本发明实施例以业务的类型为游戏，进行用户留存概率预测的实现说明；目标游戏可以是需预测具体用户在未来的留存概率的游戏，可以是目标业务(需预测具体用户在未来的留存概率的业务)在游戏情境下的一种表现形式，下文针对目标游戏所展开的说明可通用至针对目标业务的描述。当然，本发明实施例所描述的用户留存概率预测方案，还可适用于其他类型的业务，比如社交网络类型业务、电子商务网站类型业务等。

可选的，历史周期可以是相对于当前周期已发生的周期，其中，周期可以采用星期、月度、季度等时间周期，也可以采用预设的时间周期，如5天、10天、2个月等；本发明实施例可获取目标游戏在至少两个已发生的历史周期的用户流失数据。一历史周期的用户流失数据可以至少包括该历史周期的流失用户数，以及该历史周期的使用用户数(使用用户可以认为是在该历史周期还使用目标游戏的用户)；

可选的，流失用户是指曾经使用过业务，并由于对该业务失去兴趣等种种原因，不再使用该业务的用户。相应的，目标游戏一历史周期的流失用户可以是上一历史周期还使用目标游戏，而在本历史周期不使用目标游戏的用户。

可选的，在目标游戏的运营过程中，本发明实施例可通过不断统计目标游戏在每一历史周期的用户流失数据(如每一历史周期的使用用户数与流失用户数)，并从中采集至少两个历史周期的用户流失数据；可选的，该至少两个历史周期可以是时序上连续的历史周期。

步骤S110：根据所述至少两个历史周期的用户流失数据，确定目标游戏的用户流失速率。

用户流失速率是指随着时间周期的推移，目标游戏的用户流失的速度。在本发明实施例中，目标游戏的用户流失速率涉及到所述至少两个历史周期的用户流失数据，因此用户流失速率能够从时间序列的角度来反映目标游戏的用户流失情况。

可选的，作为一种示例，本发明实施例可根据时序连续的所述至少两个历史周期中，各历史周期的用户流失率，来衡量目标游戏的用户流失的速度，确定出目标游戏的用户流失速率。

步骤S120：根据所述用户流失速率，预估在时间影响下，目标游戏在未来的目标周期的用户基准留存概率。

可选的，本发明实施例可以目标周期的上一周期的用户基准留存概率为基础，结合用户流失速率，预估出在时间影响下，目标游戏在未来的目标周期的用户基准留存概率。

目标游戏在一周期的用户基准留存概率，可以是反映目标游戏在一周期下，整体用户的留存情况。其中，留存用户是指在某段时间内开始使用业务，经过一段时间后，仍然继续使用该业务的用户；示例的，目标游戏在一周期的留存用户可以是上一周期使用目标游戏，且本周期仍使用目标游戏的用户。

可选的，以未来的目标周期为当前周期的下一周期为例，则本发明实施例可以目标游戏在当前周期的用户基准留存概率为基础，结合用户流失速率，预估出在时间影响下，目标游戏在未来的下一周期(未来的目标周期的一种可选形式)的用户基准留存概率；示例的，可设用户流失速为β，目标游戏在当前周期的用户基准留存概率为S₀(T)，从而根据β和S₀(T)预估出目标游戏在当前周期的下一周期(即T+1周期)的用户基准留存概率S₀(T+1)；

显然，在预测出未来某一周期的用户基准留存概率后，本发明实施例也可以目标游戏在该未来某一周期的用户基准留存概率为基础，结合用户流失速率，预估出目标游戏在该未来某一周期的下一周期的用户基准留存概率；示例的，可设预测出的未来某一周期的用户基准留存概率为S₀(T+n'-1)，T+n'-1为当前周期T之后的任一未来周期，从而根据β和S₀(T+n'-1)预估出目标游戏在T+n'周期的用户基准留存概率S₀(T+n')。

步骤S130：获取目标用户的留存概率调整参数。

目标用户是指待预测留存概率的用户，可以是目标游戏的任一注册用户。目标用户的留存概率调整参数，可根据目标用户的各标准化用户特征，及各标准化用户特征相应的特征权重来确定，能够从一定程度上影响目标用户在未来的目标周期的留存概率预测结果。

可选的，标准化用户特征可以是原始用户特征的标准化处理结果；原始用户特征可以如目标游戏中，与用户相关的且会影响用户在未来周期的留存概率的影响因素，例如，用户的年龄、用户的性别、用户的职业、用户的兴趣爱好、用户登陆时长、用户账户余额等。

可选的，目标用户的留存概率调整参数可以预先确定，并在进行用户留存概率预测时调用。

步骤S140：根据所述目标用户的留存概率调整参数，以及目标游戏在所述目标周期的用户基准留存概率，预测目标用户在所述目标周期的留存概率。

可选的，本发明实施例可采用目标用户的留存概率调整参数，对目标游戏在所述目标周期的用户基准留存概率进行调整，从而得到目标用户在所述目标周期的留存概率，得到预测结果。

其中，所述目标用户的留存概率调整参数，能够使所预测的目标用户在所述目标周期的留存概率，以目标游戏在所述目标周期的用户基准留存概率为基准，在有限的范围内上下浮动。

进一步地，本发明实施例还可根据所预测的目标用户在所述目标周期的留存概率进行目标用户的分类；具体的，可设定概率阈值，若所预测的目标用户在所述目标周期的留存概率不低于设定概率阈值，标记所述目标用户为在所述目标周期的非流失用户(可选的，可具体标记为1；显然具体标记的数值可根据实际情况设定)；若所预测的目标用户在所述目标周期的留存概率低于设定概率阈值，可标记所述目标用户为在所述目标周期的流失用户(可具体标记为0；显然具体标记的数值可根据实际情况设定)。作为一种可选示例，设定概率阈值优选为50％，也可以为60％、70％等其他概率值，具体可根据实际情况设定。

本实施例提供的用户留存概率预测方法，根据至少两个历史周期的用户流失数据，确定目标业务的用户流失速率，预估在时间影响下，目标业务在未来的目标周期的用户基准留存概率，并结合目标用户的留存概率调整参数，共同预测出目标用户在所述目标周期的留存概率。本实施例从时间序列的角度考虑，融合了在时间上会对预测结果产生影响的用户流失速率，显著提高了用户留存概率的预测准确性，提高了预测效果。

可选的，在确定目标游戏的用户流失速率时，本发明实施例可根据目标游戏各历史周期的用户流失率确定；相应的，图3示出了本发明实施例提供的用户留存概率预测方法的另一种可选流程，该方法流程可应用于预测服务器，参照图3，该方法流程可以包括：

步骤S200：获取目标游戏在相对于当前周期已发生的各历史周期的用户流失数据。

例如，可设当前周期为T，且已发生了n个周期(n为不小于1的整数)，则可获取目标游戏在第T-n期、第T-n+1期、…、第T-1期的用户流失数据。可选的，所获取的目标游戏一历史周期的用户流失数据可以包括：目标游戏在该历史周期的流失用户数和使用用户数。

步骤S210：根据目标游戏在各历史周期的用户流失数据，确定目标游戏在各历史周期的用户流失率。

目标游戏任一周期的用户流失率为：目标游戏在该周期的流失用户数，除以，目标游戏在该周期的使用用户数；可选的，目标游戏一周期的流失用户数可以是上一周期还使用目标游戏，而在本周期不使用目标游戏的用户；

可选的，作为一种示例，第T-1期的用户流失率等于第T-1期的流失用户数与第T-1期的使用用户数的比值，即，P_T-1＝M_T-1/N_T-1，其中，P_T-1为第T-1期的用户流失率，M_T-1为第T-1期的流失用户数，N_T-1为第T-1期的使用用户数；其他历史周期的用户流失率同理确定。

步骤S220：根据目标游戏在各历史周期的用户流失率，确定目标游戏的用户流失速率。

可选的，本发明实施例可确定各相邻历史周期的用户流失率的差值，将各相邻历史周期的用户流失率的差值的均值确定为，目标游戏的用户流失速率。

示例的，可确定T-n+1期的用户流失率与T-n期的用户流失率的差值Δn，即Δn＝(T-n+1)期的用户流失率-(T-n)期的用户流失率；同理确定当前周期的用户流失率与当前周期的上一周期的用户流失率的差值Δ1，即Δ1＝(T)期的用户流失率-(T-1)期的用户流失率；从而以此方式得出各相邻历史周期的用户流失率的差值，Δn、…，Δ1；取各相邻历史周期的用户流失率的差值的均值，作为目标游戏的用户流失速率。可选的，若设目标游戏的用户流失速率为β，则β＝ΣΔi/n，其中，i属于1至n的整数。

步骤S230：确定所述目标周期的上一周期的用户基准留存概率。

可选的，未来的目标周期可以是当前周期T的下一周期T+1，则本发明实施例可确定当前周期T的用户基准留存概率，从而可在后续以当前周期T的用户基准留存概率为基础，结合用户流失速率，预估下一周期T+1的用户基准留存概率；当然，在预测出当前周期的下一周期T+1的用户基准留存概率后，目标周期也可以是当前周期T的下第二个周期T+2，从而可在后续以T+1周期的用户基准留存概率为基础，结合用户流失速率，预估T+2周期的用户基准留存概率。在本发明实施例中，所述目标周期可以是当前周期的下一周期，也可以是当前周期之后的任一周期。

步骤S240：根据所述用户流失速率，确定所述目标周期的上一周期的用户基准留存概率，在一周期的时间影响下调整后的用户基准留存概率，得到目标业务在所述目标周期的用户基准留存概率。

当所述目标周期为当前周期的下一周期时，根据所述用户流失速率可以确定出当前周期的用户基准留存概率在一周期的时间影响下调整后的用户基准留存概率，进而得到目标业务在当前周期的下一周期(所述目标周期的一种可选形式)的用户基准留存概率。

可选的，采用极大似然估计方法，并利用以下公式来确定目标业务在所述目标周期的用户基准留存概率S(T+1)：

其中，T为当前周期，T+1为目标周期，S(T)为当前周期的用户基准留存概率，S(T+1)为目标业务在所述目标周期的用户基准留存概率，s表示时间的积分因子，β为用户流失速率。

当所述目标周期为当前周期之后的任一周期(T+n')时，可以当前周期的用户基准留存概率S(T)为基础，采用以上公式计算第T+1期的用户基准留存概率S(T+1)；然后以第T+1期的用户基准留存概率S(T+1)为基础，采用以上公式计算第T+2期的用户基准留存概率S(T+2)；以此类推，通过迭代计算的方式，最终计算出目标业务在目标周期的上一周期(即第T+n'-1期)的用户基准留存概率S(T+n'-1)，从而根据β和S(T+n'-1)，预测出(T+n')周期的用户基准留存概率。

需要说明的是，传统的基于机器学习模型的用户留存概率预测方法，基于用户在业务的单个周期的用户特征数据，将特征权重的计算作为重点研究对象，而忽视了在业务中时间序列对用户留存概率的影响，这是导致传统的用户留存概率预测方案的预测结果的准确率较低的原因之一。

相较于传统的基于机器学习模型的用户留存概率预测方法，本发明实施例提供的用户留存概率预测方法，基于目标业务在所述目标周期的用户基准留存概率来预测目标用户在所述目标周期的留存概率，融合了在时间序列上会对预测结果产生影响的影响因素，分析过程更加全面，从而有效提高了用户留存概率的预测准确性，提升了预测效果。

步骤S250、获取目标用户的留存概率调整参数。

目标用户的留存概率调整参数，可以根据目标用户的各标准化用户特征，及各标准化用户特征相应的特征权重来确定，能够从一定程度上影响目标用户在未来周期的留存概率预测结果。目标用户的留存概率调整参数可以预先确定，并在进行目标用户在所述目标周期的留存概率预测时调用。

步骤S260：根据所述目标用户的留存概率调整参数，以及目标游戏在所述目标周期的用户基准留存概率，预测目标用户在所述目标周期的留存概率。

基于目标游戏在所述目标周期的用户基准留存概率，采用目标用户的留存概率调整参数对所述用户基准留存概率进行调整，从而得到目标用户在所述目标周期的留存概率。

可选的，目标用户在所述目标周期的留存概率S_m(T+n')可通过以下公式计算得到：

S_m(T+n')＝a_mS(T+n')

其中，S(T+n')为目标业务在所述目标周期的用户基准留存概率。

a_m是目标用户的留存概率调整参数，可使目标用户在所述目标周期的留存概率S_m(T+n')，以目标游戏在所述目标周期的用户基准留存概率S(T+n')为基准，在有限的范围内上下浮动，例如，a_m∈(0～2.7)。

本实施例提供的用户留存概率预测方法，根据目标游戏在各历史周期的用户流失数据，确定目标游戏在各历史周期的用户流失率，进而确定目标游戏的用户流失速率，再根据所述用户流失速率，确定目标业务在所述目标周期的用户基准留存概率，并获取目标用户的留存概率调整参数；根据所述目标用户的留存概率调整参数，以及目标业务在所述目标周期的用户基准留存概率，预测目标用户在所述目标周期的留存概率。本实施例可从时间序列的角度考虑，兼顾了会对预测结果产生影响的时间序列因素以及用户特征因素，共同来确定预测结果，显著提高了用户留存概率的预测准确性，提高了预测效果。

需要说明的是，上述步骤S200至步骤S220仅是本发明实施例根据目标业务在至少两个历史周期的用户流失数据，确定目标业务的用户流失速率的一种可选方式；在本发明实施例中，用户流失速率可以由至少两个历史周期的用户流失率来确定。可选的，至少两个历史周期可以是指至少两个连续的历史周期。

可选的，当确定出来的是两个连续的历史周期的用户流失率时，用两个连续的历史周期中后一历史周期的用户流失率减去前一历史周期的用户流失率，可得到目标游戏的用户流失速率；当确定出来的是至少三个连续的历史周期的用户流失率时，在所述至少三个连续的历史周期中，依次用两个相邻历史周期中后一历史周期的用户流失率减去前一历史周期的用户流失率，从而得到各相邻历史周期的用户流失率的差值，然后对各个相邻历史周期的用户流失率的差值求均值，可得到目标游戏的用户流失速率。

例如，在确定出第T-n期、第T-n+1期、…、第T-1期的用户流失率K_T-n、K_T-n+1、…、K_T-1后，可采用以下公式来计算目标游戏的用户流失速率β：

Δ_i＝K_T-i+1-K_T-i，1≤i≤n

β＝(∑Δ_i)/n

其中，K_T-i为第T-i期的用户流失率，Δ_i为第T-i期到第T-i+1期的用户流失率的差值，n为获取到的历史周期的总数。

可选的，除了上述计算目标游戏的用户流失速率的方式外，还可以根据各历史周期的时序，修正各历史周期的用户流失率，再根据修正后的各历史周期的用户流失率，确定目标游戏的用户流失速率。

其中，时间越靠后的历史周期，所修正后的用户流失率对所述用户流失速率的影响越大，根据修正后的各历史周期的用户流失率，确定各相邻历史周期的用户流失率的差值，然后取均值，确定出目标游戏的用户流失速率。

在实际情况中，随着时间的推移，越是最新的数据，其时效性越强，对未来周期预测结果的影响力越强，所以，考虑到时间序列对预测结果的影响，可以为各历史周期分别设定相应的用户流失权重。其中，距离当前周期越远的历史周期的用户流失权重越小，距离当前周期越近的历史周期的用户流失权重越大。可采用各历史周期的用户流失权重，对各历史周期的用户流失率进行加权计算，得到修正后的各历史周期的用户流失率。其中，加权计算可以是各历史周期的用户流失率分别乘以各自的用户流失权重，也可以是其他计算方式。

可选的，在进行目标用户的留存概率调整参数的获取时，目标用户的留存概率调整参数可以预先计算得到；图4示出了目标用户的留存概率调整参数的确定流程，该流程可应用于预测服务器，参照图4，该流程可以包括：

步骤S251：确定各标准化用户特征的特征权重。

每个用户都具有与其相对应的原始用户特征，一用户所具有的原始用户特征的内容例如：用户的性别、年龄等用户基础特征；登录时长、登录次数、登录天数等用户登录特征；充值金额、账户余额、充值次数、ARPU等用户充值特征；角色等级、角色装备、组队频次、杀怪数量等游戏表现特征等。

对各用户的各原始用户特征进行标准化处理，以去除量纲影响，进而得到各用户的各标准化用户特征。

在得到各用户的各标准化用户特征后，本发明实施例可从整体角度确定出各标准化用户特征的特征权重，以表示出各标准化用户特征对用户的留存概率的影响程度；即一标准化用户特征的特征权重表示该标准化用户特征对用户的留存概率的影响程度。

步骤S252：获取目标用户的各标准化用户特征。

目标用户的各标准化用户特征，是通过获取目标用户的各原始用户特征(具体内容可如步骤S251部分所示)，再对目标用户的各原始用户特征进行标准化处理，以去除目标用户的各原始用户特征的量纲影响后得到的。

其中，标准化处理可以采用Min-max标准化方法来进行，也可以采用Z-score标准化方法来进行，还可以采用其他能够去除量纲影响的标准化方法来进行。例如，采用标准正态方法，利用以下公式，对获取到的目标用户的各原始用户特征进行标准化处理：

Y_ij＝(X_ij－X_i)/S_i

其中，X_ij为第i个用户的第j个原始用户特征，X_i为第i个用户的原始用户特征平均值，S_i为第i个用户的原始用户特征标准差，Y_ij为第i个用户的第j个标准化用户特征。

步骤S253：将目标用户的各标准化用户特征分别与相应的特征权重相结合，并根据结合结果确定目标用户的留存概率调整参数。

在一种可选示例中，可利用以下公式确定目标用户的留存概率调整参数a_m：

其中，w_mi为目标用户m的第i个标准化用户特征的特征权重，Y_mi为目标用户m的第i个标准化用户特征。

可选的，各标准化用户特征的特征权重，可利用方差分析的方法来计算，而无需通过前期大量的机器训练过程，能够降低资源的损耗，可适用于业务处于运营初期时，或仅需要对新用户进行留存概率预测的情况，但同样也可以用于业务运营的任一时期。

图5示出了本发明实施例提供的确定特征权重的方法的可选流程，该方法流程也可应用于预测服务器，参照图5，该方法流程可以包括：

步骤S300：获取多个用户的各标准化用户特征。

步骤S310：针对所述多个用户，分别计算各标准化用户特征的标准差。

步骤S320：将各标准化用户特征的标准差，分别除以所有标准化用户特征的标准差的和，得到各标准化用户特征的特征权重。

传统的基于机器学习模型的权重确定方法，在建模过程中，需要进行大量的数据采集，并对采集到的大量数据进行数据清洗处理、数据标准化处理、数据降维处理、数据去相关处理、数据缺失值处理等诸多前期数据处理工序，导致建模过程十分复杂繁琐，且，并不能带来更优的预测效果。并且，特征权重的训练需要的时间与模型的复杂度、用户特征数量成正比，加之预测分类等处理流程，使整个过程需要耗费大量的时间成本，占用大量的计算资源，且大量的特征数据会占用较多的存储空间。

本发明实施例利用方差分析的方法，直接利用各标准化用户特征的标准差来确定各标准化用户特征的特征权重，而不需要进行模型训练，也就不需要进行大量的数据采集等诸多前期数据处理工序，也不需要进行复杂的建模过程，从而降低了数据处理过程的复杂度，节省了大量的时间成本与计算资源，同时避免了对大量存储空间的占用。

可选的，各标准化用户特征的特征权重，也可以采用有监督学习的方式，采用机器学习的方式来获取。其中，有监督学习的方式，不仅适用于业务上线后已经超过两个运营周期的情况下的用户的留存概率的预测，而且还适用于新用户以及活跃用户的留存概率的预测，应用面更广。

图6示出了本发明实施例提供的有监督学习模式下各标准化用户特征的特征权重的确定方法的一种可选流程，该方法流程也可应用于预测服务器，参照图6，该方法流程可以包括：

步骤S400：获取各样本用户的标准化特征集。

所述标准化特征集包括：各标准化用户特征。

其中，样本用户预先标记有流失与否标签，具体可以将流失用户的流失与否标签标记为1，将非流失用户的流失与否标签标记为0。当然，也可以采取其他标识来标记，只要能够区分出流失用户与非流失用户即可。

步骤S410：将各样本用户的标准化特征集，依次输入机器学习模型。

其中，机器学习模型可以采用LR(logisTic regression)、XgboosT、DT、F、KNN等各种机器模型中的任一种，在此不做具体限定。

步骤S420：根据各样本用户预先标记的流失与否标签，以机器学习模型迭代计算各标准化用户特征的权重，直至得到各标准化用户特征收敛时相应的特征权重。

可选的，所述各样本用户的标准化特征集可作为训练样本集用于对机器学习模型进行训练，同时还可设置测试样本集用于对训练后的机器学习模型进行测试，以分析训练后的机器学习模型的优劣性。当测试结果表征训练后的机器学习模型准确率较低时，可以调整训练样本集，并重新对机器学习模型进行训练，提高机器学习模型的准确性。

本实施例提供的特征权重的确定方法，是基于有监督学习方法的机器模型来进行的，获取各样本用户的标准化特征集，将各样本用户的标准化特征集，依次输入机器学习模型，根据各样本用户预先标记的流失与否标签，以机器学习模型迭代计算各标准化用户特征的权重，直至得到各标准化用户特征收敛时相应的特征权重，以用于计算目标用户的留存概率调整因子。

在传统的技术方案中，通常是基于单独的机器学习模型来预测目标用户在所述目标周期的留存概率；而本发明通过本实施例的技术方案，利用机器学习模型来获取目标用户的各标准化用户特征收敛时相应的特征权重，据此获取目标用户的留存概率调整因子，并从时间序列的角度考虑时间因素对目标用户在所述目标周期的留存概率的影响，融合了在时间上会对预测结果产生影响的用户流失速率，确定了目标游戏在所述目标周期的用户基准留存概率，最后将目标用户的留存概率调整因子与目标游戏在所述目标周期的用户基准留存概率相结合，共同预测出目标用户在所述目标周期的留存概率。本发明基于机器学习模型与生存分析方法相结合来实现的用户留存概率预测方案，相较于基于单独的机器学习模型来预测的传统技术方案，具有更高的查全率与查准率。

以预测目标用户在目标业务的当前周期的下一周期的留存概率为例，一种较优的实现方式可如图7所示，如图7所示，目标用户在目标业务的下一周期的留存概率预测主要分为如下三个过程：一、目标用户的留存概率调整参数确定过程；二、目标业务在下一周期的用户基准留存概率的确定过程；三、以目标用户的留存概率调整参数和目标业务在所述目标周期的用户基准留存概率，预测目标用户在所述下一周期的留存概率的过程；

具体的，如图7所示，在确定目标业务在下一周期(T+1)的用户基准留存概率时，本发明实施例可从数据源获取目标业务在第T-n期～第T-1期的用户流失率，并根据第T-n期～第T-1期的用户流失率，确定目标业务的用户流失速率；并且，从数据源获取第T期的活跃用户信息与第T+1期的活跃用户信息(可选的，第T+1期的活跃用户信息可进行预估)，根据第T期的活跃用户信息与第T+1期的活跃用户信息，确定目标业务在第T期的用户基准留存概率；然后，根据目标业务的用户流失速率，及目标业务在第T期的用户基准留存概率，确定目标业务在第T+1期的用户基准留存概率。

在确定目标用户的留存概率调整参数时，本发明实施例可利用机器模型学习方法，获取第T期的各样本用户特征(形式为标准化用户特征的形式)，作为训练样本，将训练样本依次输入机器学习模型，根据第T期的各样本用户预先标记的分类标签(流失与否标签)，以机器学习模型迭代计算各样本用户特征的权重，直至得到各样本用户特征收敛时相应的特征权重，得到各标准化用户特征的特征权重；然后，获取第T+1期的目标用户的标准化用户特征，将目标用户的各标准化用户特征分别与相应的特征权重相结合，并根据结合结果确定目标用户的留存概率调整参数。

从而，将目标用户的留存概率调整参数，和目标业务在第T+1期的用户基准留存概率相结合，利用目标用户的留存概率调整参数，调整目标业务在第T+1期的用户基准留存概率，进而预测出目标用户在第T+1期的留存概率

可选的，目标用户在第T+1的留存概率S_m(T+1)可通过以下公式计算得到：

S_m(T+1)＝a_mS(T+1)

其中，S(T+1)为目标业务在第T+1期的用户基准留存概率，a_m为目标用户的留存概率调整参数，S_m(T+1)为目标用户在第T+1期的留存概率。

若所预测出来的目标用户在第T+1期的留存概率不低于50％，标记所述目标用户为第T+1期的非流失用户(具体标记为1)；若所预测出来的目标用户在第T+1期的留存概率低于50％，可标记所述目标用户为第T+1期的流失用户(具体标记为0)。

将本发明实施例提供的用户留存概率预测方法与传统方案进行效果对比；以同一游戏应用场景为例，分别采用基于单独的机器学习模型来预测用户留存概率的传统技术方案，与本发明基于机器学习模型与生存分析方法相结合来预测用户留存概率的技术方案，来对目标用户在所述目标周期的留存概率的预测，预测效果如下：

仍以游戏应用场景为例，根据预测得到的目标用户在所述目标周期的留存概率，可以适当调整游戏的运营策略，以提高目标用户在所述目标周期的留存概率。

以游戏运营初期为例，当目标用户在所述目标周期的留存概率小于用户留存概率阈值时，可以采取为目标用户增发一些新手大礼包、增设连续登陆奖励、登陆时长奖励等措施，以提高目标用户对游戏的喜好程度与依赖程度，提高目标用户在所述目标周期的留存概率，改善游戏运营效果。

以游戏运营中后期为例，目标用户大多数为老用户，更偏重的游戏的深度体验，当目标用户在所述目标周期的留存概率小于用户留存概率阈值时，可以采取更新游戏关卡、增加游戏副本、开发新的游戏功能等等措施，以提高游戏的新鲜感与趣味性，避免老用户对游戏感到乏味，提高老用户在目标周期的留存概率，改善游戏运营效果；在游戏运营中后期，也会不断增加一些新用户，当新用户在目标周期的留存概率小于用户留存概率阈值时，可以采取类似于游戏运营初期采取的错误，提高新用户对游戏的喜好程度与依赖程度，进而提高新用户在目标周期的留存概率，改善游戏运营效果。

本发明实施例提供的用户留存概率预测方法及装置，不仅可以用于游戏业务场景中的用户留存概率预测，还可以用于多媒体资源业务、社交网络业务、咨询服务业务等各种业务场景中的用户留存概率预测。在其他业务场景中，预测服务器为用于根据业务在历史周期的用户数据来预测用户在未来周期的留存概率的服务器，具体可以由已有的业务服务器(如游戏场景下的游戏服务器)来实现，也可以由单独设置的服务器来实现。

下面对本发明实施例提供的用户留存概率预测装置进行介绍，下文描述的用户留存概率预测装置可以认为是预测服务器，为实现本发明实施例提供的用户留存概率预测方法，所需设置的程序模块。下文描述的用户留存概率预测装置内容，可与上文描述的用户留存概率预测方法内容相互对应参照。

图8为本发明实施例提供的用户留存概率预测装置的结构框图，该用户留存概率预测装置可应用于预测服务器，参照图8，该用户留存概率预测装置可以包括：

用户流失数据获取模块100，用于获取目标业务在至少两个历史周期的用户流失数据；

用户流失速率确定模块200，用于根据所述至少两个历史周期的用户流失数据，确定目标业务的用户流失速率；

目标周期基准留存概率确定模块300，用于根据所述用户流失速率，预估在时间影响下，目标业务在未来的目标周期的用户基准留存概率；

留存概率调整参数获取模块400，用于获取目标用户的留存概率调整参数；

留存概率预测模块500，用于根据所述目标用户的留存概率调整参数，以及目标业务在所述目标周期的用户基准留存概率，预测目标用户在所述目标周期的留存概率。

可选的，用户流失数据获取模块100，用于获取目标业务在至少两个历史周期的用户流失数据，具体包括：

获取目标业务在相对于当前周期已发生的各历史周期的用户流失数据。

可选的，用户流失速率确定模块200，用于根据所述至少两个历史周期的用户流失数据，确定目标业务的用户流失速率，具体包括：

根据目标业务在各历史周期的用户流失数据，确定目标业务在各历史周期的用户流失率；

根据目标业务在各历史周期的用户流失率，确定目标业务的用户流失速率。

可选的，用户流失速率确定模块200，用于根据目标业务在各历史周期的用户流失率，确定目标业务的用户流失速率，具体包括：

确定各相邻历史周期的用户流失率的差值，将各相邻历史周期的用户流失率的差值的均值确定为，目标业务的用户流失速率；

或，根据各历史周期的时序，修正各历史周期的用户流失率，其中，时间越靠后的历史周期，所修正后的用户流失率对所述用户流失速率的影响越大，根据修正后的各历史周期的用户流失率，确定目标业务的用户流失速率。

可选的，目标周期基准留存概率确定模块300，用于根据所述用户流失速率，预估在时间影响下，目标业务在未来的目标周期的用户基准留存概率，具体包括：

确定所述目标周期的上一周期的用户基准留存概率；

根据所述用户流失速率，确定所述目标周期的上一周期的用户基准留存概率，在一周期的时间影响下调整后的用户基准留存概率，得到目标业务在所述目标周期的用户基准留存概率。

可选的，留存概率调整参数获取模块400，用于获取目标用户的留存概率调整参数，具体包括：

确定各标准化用户特征的特征权重，一标准化用户特征的特征权重表示该标准化用户特征对用户的留存概率的影响程度；

获取目标用户的各标准化用户特征；

将目标用户的各标准化用户特征分别与相应的特征权重相结合，并根据结合结果确定目标用户的留存概率调整参数。

可选的，留存概率调整参数获取模块400，用于确定各标准化用户特征的特征权重，具体包括：

获取各样本用户的标准化特征集，所述标准化特征集包括：各标准化用户特征；其中，样本用户预先标记有流失与否标签；

将各样本用户的标准化特征集，依次输入机器学习模型；

根据各样本用户预先标记的流失与否标签，以机器学习模型迭代计算各标准化用户特征的权重，直至得到各标准化用户特征收敛时相应的特征权重。

获取多个用户的各标准化用户特征；

针对所述多个用户，分别计算各标准化用户特征的标准差；

将各标准化用户特征的标准差，分别除以所有标准化用户特征的标准差的和，得到各标准化用户特征的特征权重。

可选的，留存概率调整参数获取模块400，用于获取目标用户的各标准化用户特征，具体包括：

获取目标用户的各原始用户特征；

对目标用户的各原始用户特征进行标准化处理，以去除目标用户的各原始用户特征的量纲影响，得到目标用户的各标准化用户特征。

可选的，图9示出了本发明实施例提供的用户留存概率预测装置的另一结构框图，该用户留存概率预测装置还可以包括：

标记模块600，用于若所预测的目标用户在所述目标周期的留存概率低于设定概率阈值，标记所述目标用户为在所述目标周期的流失用户；若所预测的目标用户在所述目标周期的留存概率不低于设定概率阈值，标记所述目标用户为在所述目标周期的非流失用户。

本实施例提供的用户留存概率预测装置，根据至少两个历史周期的用户流失数据，确定目标业务的用户流失速率，预估在时间影响下，目标业务在未来的目标周期的用户基准留存概率，并结合目标用户的留存概率调整参数，共同预测出目标用户在所述目标周期的留存概率。本实施例从时间序列的角度考虑，融合了在时间上会对预测结果产生影响的用户流失速率，显著提高了用户留存概率的预测准确性，提高了预测效果。

本发明实施例提供的用户留存概率预测方法可应用于预测服务器，预测服务器的一种可选硬件结构框图可如图10所示，包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本发明实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

可选的，处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

其中，存储器3存储有程序，处理器1调用存储3所存储的程序，以实现本发明前述实施例中所述的用户留存概率预测方法的步骤。

本发明实施例还提供了一种存储介质，所述存储介质存储有适于所述处理器执行的程序，以实现本发明前述实施例中所述的用户留存概率预测方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的核心思想或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种用户留存概率预测方法，其特征在于，包括：

获取目标业务在至少两个历史周期的用户流失数据；

获取目标用户的留存概率调整参数；

2.根据权利要求1所述的用户留存概率预测方法，其特征在于，所述获取目标业务在至少两个历史周期的用户流失数据包括：

获取目标业务在相对于当前周期已发生的各历史周期的用户流失数据；

所述根据所述至少两个历史周期的用户流失数据，确定目标业务的用户流失速率包括：

3.根据权利要求2所述的用户留存概率预测方法，其特征在于，所述根据目标业务在各历史周期的用户流失率，确定目标业务的用户流失速率包括：

4.根据权利要求1所述的用户留存概率预测方法，其特征在于，所述根据所述用户流失速率，预估在时间影响下，目标业务在未来的目标周期的用户基准留存概率包括：

确定所述目标周期的上一周期的用户基准留存概率；

5.根据权利要求1-4任一项所述的用户留存概率预测方法，其特征在于，所述获取目标用户的留存概率调整参数包括：

获取目标用户的各标准化用户特征；

6.根据权利要求5所述的用户留存概率预测方法，其特征在于，所述确定各标准化用户特征的特征权重包括：

将各样本用户的标准化特征集，依次输入机器学习模型；

7.根据权利要求5所述的用户留存概率预测方法，其特征在于，所述确定各标准化用户特征的特征权重包括：

获取多个用户的各标准化用户特征；

针对所述多个用户，分别计算各标准化用户特征的标准差；

8.根据权利要求5所述的用户留存概率预测方法，其特征在于，所述获取目标用户的各标准化用户特征包括：

获取目标用户的各原始用户特征；

9.根据权利要求1所述的用户留存概率预测方法，其特征在于，还包括：

若所预测的目标用户在所述目标周期的留存概率低于设定概率阈值，标记所述目标用户为在所述目标周期的流失用户；

若所预测的目标用户在所述目标周期的留存概率不低于设定概率阈值，标记所述目标用户为在所述目标周期的非流失用户。

10.一种用户留存概率预测装置，其特征在于，包括：

11.根据权利要求10所述的用户留存概率预测装置，其特征在于，所述用户流失速率确定模块，用于根据所述至少两个历史周期的用户流失数据，确定目标业务的用户流失速率，具体包括：

12.根据权利要求10所述的用户留存概率预测装置，其特征在于，所述留存概率调整参数获取模块，用于获取目标用户的留存概率调整参数，具体包括：

获取目标用户的各标准化用户特征；

13.根据权利要求12所述的用户留存概率预测装置，其特征在于，所述留存概率调整参数获取模块，用于确定各标准化用户特征的特征权重，具体包括：

将各样本用户的标准化特征集，依次输入机器学习模型；

14.一种预测服务器，其特征在于，包括：至少一个存储器和至少一个处理器；所述存储器存储有适于所述处理器执行的程序，以实现权利要求1-9任一项所述的用户留存概率预测方法的步骤。

15.一种存储介质，其特征在于，所述存储介质存储有适于所述处理器执行的程序，以实现权利要求1-9任一项所述的用户留存概率预测方法的步骤。