CN111339163A

CN111339163A - 获取用户流失状态的方法、装置、计算机设备和存储介质

Info

Publication number: CN111339163A
Application number: CN202010124345.3A
Authority: CN
Inventors: 丁家文; 余加腾; 邓琛; 梁鹰; 王刚; 赵子颖; 黄毓铭
Original assignee: 21cn Corp ltd
Current assignee: Tianyi Digital Life Technology Co Ltd
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2020-06-26
Anticipated expiration: 2040-02-27
Also published as: CN111339163B

Abstract

本申请涉及一种获取用户流失状态的方法、装置、计算机设备和存储介质。包括：获取与多种不同维度的用户行为特征对应的样本用户行为数据，以及样本用户的用户流失状态标签；样本用户行为数据为样本用户的用户行为数据；用户流失状态标签用于标识用户流失状态；对样本用户行为数据进行量化编码，获取样本用户编码数据；基于用户流失状态标签，利用样本用户编码数据训练得到用户流失模型；获取与多种不同维度的用户行为特征对应的待分析用户行为数据；待分析用户行为数据为待分析用户的用户行为数据；将待分析用户行为数据输入用户流失模型，得到待分析用户的用户流失状态。本方法能够提升用户流失模型合理性，从而提升获取用户流失状态准确率。

Description

获取用户流失状态的方法、装置、计算机设备和存储介质

技术领域

本申请涉及数据处理技术领域，特别是涉及一种获取用户流失状态的方法、装置、计算机设备和存储介质。

背景技术

随着大数据技术的发展，越来越多的网络应用涌入市场，同时也产生了各种各样的用户数据，为了进一步保持网络应用对用户的吸引力，例如可以通过用户登录某项网络应用的登录频率这一用户行为数据，得知该用户是否会逐渐停止使用该应用，进入流失状态从而成为流失用户，进而运营商则可以根据流失用户的特点对网络应用进行相关改良，从而提高网络应用的产品体验。

然而，相关技术中由于构建的用户流失行为标准维度离散，导致获取的用户流失状态准确率低。

发明内容

基于此，有必要针对上述技术问题，提供一种获取用户流失状态的方法、装置、计算机设备和存储介质。

一种获取用户流失状态的方法，所述方法包括：

确定多种不同维度的用户行为特征；

获取与所述多种不同维度的用户行为特征对应的样本用户行为数据，以及样本用户的用户流失状态标签；所述样本用户行为数据为样本用户的用户行为数据；所述用户流失状态标签用于标识用户流失状态；

对所述样本用户行为数据进行量化编码，获取样本用户编码数据；

基于所述用户流失状态标签，利用所述样本用户编码数据训练得到用户流失模型；

获取与所述多种不同维度的用户行为特征对应的待分析用户行为数据；所述待分析用户行为数据为待分析用户的用户行为数据；

将所述待分析用户行为数据输入所述用户流失模型，得到所述待分析用户的用户流失状态。

在一个实施例中，所述基于所述用户流失状态标签，利用所述样本用户编码数据训练得到用户流失模型，包括：基于所述用户流失状态标签，利用所述样本用户编码数据对训练模型进行训练，获取所述训练模型的第一预测准确率；若所述第一预测准确率大于第一准确率阈值，则将所述训练模型作为所述用户流失模型。

在一个实施例中，所述获取所述训练模型的第一预测准确率之后，还包括：若所述第一预测准确率小于所述第一准确率阈值，并且大于第二准确率阈值，则对所述训练模型的训练参数进行更新；其中，所述第二准确率阈值小于所述第一准确率阈值；基于所述用户流失状态标签，利用所述样本用户编码数据对所述训练参数更新后的所述训练模型进行训练，获取所述训练模型的第二预测准确率；若所述第二预测准确率大于所述第一准确率阈值，则将所述训练参数更新后的所述训练模型作为所述用户流失模型。

在一个实施例中，所述获取所述训练模型的第一预测准确率之后，还包括：若所述第一预测准确率小于第二准确率阈值，则对所述多种不同维度的用户行为特征进行更新；其中，所述第二准确率阈值小于所述第一准确率阈值。

在一个实施例中，所述对所述样本用户行为数据进行量化编码，获取样本用户编码数据，包括：从预设的量化编码表中获取与所述用户行为特征相对应的量化编码规则；所述量化编码表中存储有用户行为特征与量化编码规则的对应关系；基于所述量化编码规则，对所述样本用户行为数据进行量化编码，获取所述样本用户编码数据。

在一个实施例中，所述获取所述样本用户编码数据之后，还包括：对所述样本用户编码数据进行归一化处理；对归一化处理后的所述样本用户编码数据进行池化，得到用户编码池化数据；所述基于所述用户流失状态标签，利用所述样本用户编码数据训练得到用户流失模型，包括：基于所述用户流失状态标签，利用所述用户编码池化数据训练得到所述用户流失模型。

在一个实施例中，获取用户流失状态的方法，还包括：获取所述待分析用户的用户编码；根据所述用户编码，从预存有所述待分析用户的用户流失状态的用户数据库中获取与所述用户编码对应的所述待分析用户的用户流失状态。

一种获取用户流失状态的装置，所述装置包括：

行为特征确定模块，用于确定多种不同维度的用户行为特征；

样本数据获取模块，用于获取与所述多种不同维度的用户行为特征对应的样本用户行为数据，以及样本用户的用户流失状态标签；所述样本用户行为数据为样本用户的用户行为数据；所述用户流失状态标签用于标识用户流失状态；

编码数据获取模块，用于对所述样本用户行为数据进行量化编码，获取样本用户编码数据；

流失模型训练模块，用于基于所述用户流失状态标签，利用所述样本用户编码数据训练得到用户流失模型；

待分析数据获取模块，用于获取与所述多种不同维度的用户行为特征对应的待分析用户行为数据；所述待分析用户行为数据为待分析用户的用户行为数据；

流失状态获取模块，用于将所述待分析用户行为数据输入所述用户流失模型，得到所述待分析用户的用户流失状态。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：确定多种不同维度的用户行为特征；获取与多种不同维度的用户行为特征对应的样本用户行为数据，以及样本用户的用户流失状态标签；样本用户行为数据为样本用户的用户行为数据；用户流失状态标签用于标识用户流失状态；对样本用户行为数据进行量化编码，获取样本用户编码数据；基于用户流失状态标签，利用样本用户编码数据训练得到用户流失模型；获取与多种不同维度的用户行为特征对应的待分析用户行为数据；待分析用户行为数据为待分析用户的用户行为数据；将待分析用户行为数据输入用户流失模型，得到待分析用户的用户流失状态。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：确定多种不同维度的用户行为特征；获取与多种不同维度的用户行为特征对应的样本用户行为数据，以及样本用户的用户流失状态标签；样本用户行为数据为样本用户的用户行为数据；用户流失状态标签用于标识用户流失状态；对样本用户行为数据进行量化编码，获取样本用户编码数据；基于用户流失状态标签，利用样本用户编码数据训练得到用户流失模型；获取与多种不同维度的用户行为特征对应的待分析用户行为数据；待分析用户行为数据为待分析用户的用户行为数据；将待分析用户行为数据输入用户流失模型，得到待分析用户的用户流失状态。

上述获取用户流失状态的方法、装置、计算机设备和存储介质，获取与多种不同维度的用户行为特征对应的样本用户行为数据，以及样本用户的用户流失状态标签；样本用户行为数据为样本用户的用户行为数据；用户流失状态标签用于标识用户流失状态；对样本用户行为数据进行量化编码，获取样本用户编码数据；基于用户流失状态标签，利用样本用户编码数据训练得到用户流失模型；获取与多种不同维度的用户行为特征对应的待分析用户行为数据；待分析用户行为数据为待分析用户的用户行为数据；将待分析用户行为数据输入用户流失模型，得到待分析用户的用户流失状态。本申请通过对多种不同维度的用户行为特征对应的样本用户行为数据进行量化编码，得到样本用户编码数据并利用样本用户编码数据进行训练，得到用户流失模型，实现了利用多种维度的用户行为数据整体量化用户流失状态，提升用户流失模型的合理性，从而提升获取的用户流失状态准确率。

附图说明

图1为一个实施例中获取用户流失状态的方法的流程示意图；

图2为一个实施例中获取用户流失模型的流程示意图；

图3为一个实施例中获取用户流失状态的方法的流程示意图；

图4为一个应用示例中获取用户流失状态的方法的流程示意图；

图5为一个应用示例中用户流失建模用户量化编码示例图；

图6为一个应用示例中用户流失建模用户量化编码策略示例图；

图7为一个实施例中获取用户流失状态的装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种获取用户流失状态的方法，本实施例以该方法应用于终端进行举例说明，该可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤S101，终端确定多种不同维度的用户行为特征。

其中，用户行为特征指的是用户的某项行为，可以用来获取用户的流失状态。例如可以通过获取某个用户登录某个应用程序的登陆频率，来判断该用户的流失状态，那么此时登录频率就是一种用户行为特征。而多种不同维度的用户行为特征，则是表示获取用户流失状态所采用的用户行为特征可以是很多种，并且可以来自不同的维度，例如：在登录频率的基础上，也可以根据某用户是否存在后续行为，即首次登陆后后续有没有其他的用户行为，判断该用户的流失状态。那么此时用户行为特征包括了登录频率以及登录是否存在后续行为两种，用户的登录频率以实际数值进行数据收集，而登录是否存在后续行为则是通过存在后续行为以及不存在后续行为的数据形式进行相关记录，因此登录频率以及登录是否存在后续行为这两种用户行为特征分别代表不同的维度，属于多种不同维度的用户行为特征。多种不同维度的用户行为特征的确定可以通过EDA探索分析形成，例如分析用户行为特征的离散型、缺失情况、趋势等。

步骤S102，终端获取与多种不同维度的用户行为特征对应的样本用户行为数据，以及样本用户的用户流失状态标签；样本用户行为数据为样本用户的用户行为数据；用户流失状态标签用于标识用户流失状态。

其中，样本用户指的是预先完成数据采集的用户，用户的数量可以是很多个，样本用户行为数据则是样本用户的用户行为数据，与步骤S101的用户行为特征相适应，而样本用户流失状态标签则是用于标识样本用户的用户流失状态，例如样本用户确定为流失状态时，那么对应的流失状态标签则输出为1，而如果该样本用户不是流失状态，那么此时对应的流失状态标签则输出为0。具体地，以通过用户登录频率获取该用户的流失状态为例，可以预先采集多个样本用户的用户登录频率作为样本用户行为数据，例如A用户的登陆频率为每个月登录2次，B用户的登录频率为每个月登录5次，C用户的登录频率为每个月登录10次，那么此时2次、5次和10次就是3个样本用户数据，同时，还收集有A用户、B用户以及C用户的用户流失状态标签，例如A用户的流失状态为流失，那么此时A用户的用户流失状态标签可以设置为1，而B用户以及C用户的流失状态为未流失，那么B用户以及C用户的则可以设置为0，反之也可以，例如将A用户的用户流失状态标签设置为0代表A用户流失，同时将B用户以及C用户的用户流失状态标签设置为1代表B用户以及C用户未流失。

步骤S103，终端对样本用户行为数据进行量化编码，获取样本用户编码数据。

其中，样本用户编码数据为对样本用户行为数据进行量化编码后得到的数据，由于步骤S102采集到的样本用户行为数据由用户产生，因此可能过于离散，而且每个用户行为特征代表的纬度也并不相同，因此可以通过量化编码的方式实现维度特征统一化。例如：可以通过用户登录时间获取用户的流失状态，而用户的登录时间非常离散，例如某用户登陆时间为20:01，另外一个用户登录事件为20:05，那么此时虽然登陆时间有所差异，但该差异对流失状态的获取过程基本没有影响，因此可以用下班期作为该时间段的概括，同时用相对应的编码数字进行替代，上班期为1，下班期为2，深夜为3等等，那么此时上述用户的样本用户编码数据都为1，从而有利于将大量的，纷繁复杂，离散的数据进行聚合，提高各维度的聚合程度。

步骤S104，终端基于用户流失状态标签，利用样本用户编码数据训练得到用户流失模型。

具体地，在步骤S103得到样本用户编码数据，该终端可以将样本用户编码数据以及样本用户的用户流失标签作为输入，对模型进行训练，从而得到用户流失模型。

步骤S105，终端获取与多种不同维度的用户行为特征对应的待分析用户行为数据；待分析用户行为数据为待分析用户的用户行为数据；

步骤S106，终端将待分析用户行为数据输入用户流失模型，得到待分析用户的用户流失状态。

具体地，在步骤S104得到用户流失模型后，可以根据多种不同维度的用户行为特征采集相应的待分析用户的用户行为数据，并将上述数据输入用户流失模型，从而得到待分析用户的用户流失状态。例如：得到用于根据登陆频率获取用户流失状态的用户流失模型后，可以收集待分析用户D的登陆频率，并将待分析用户D的登陆频率输入上述用户流失模型，从而对待分析用户D的用户流失状态进行预测。

上述获取用户流失状态的方法中，获取与多种不同维度的用户行为特征对应的样本用户行为数据，以及样本用户的用户流失状态标签；样本用户行为数据为样本用户的用户行为数据；用户流失状态标签用于标识用户流失状态；对样本用户行为数据进行量化编码，获取样本用户编码数据；基于用户流失状态标签，利用样本用户编码数据训练得到用户流失模型；获取与多种不同维度的用户行为特征对应的待分析用户行为数据；待分析用户行为数据为待分析用户的用户行为数据；将待分析用户行为数据输入用户流失模型，得到待分析用户的用户流失状态。本申请通过对多种不同维度的用户行为特征对应的样本用户行为数据进行量化编码，得到样本用户编码数据并利用样本用户编码数据进行训练，得到用户流失模型，实现了利用多种维度的用户行为数据整体量化用户流失状态，提升用户流失模型的合理性，从而提升获取的用户流失状态准确率。

在一个实施例中，步骤S104可以包括：基于用户流失状态标签，终端利用样本用户编码数据对训练模型进行训练，获取训练模型的第一预测准确率；若第一预测准确率大于第一准确率阈值，则将训练模型作为用户流失模型。

其中，第一预测准确率由样本用户编码数据对训练模型进行训练后输出得到，用于表征根据该模型输出得到的样本用户的用户流失状态与实际的用户流失状态的匹配率，当第一预测准确率大于第一准确率阈值时，终端则将该训练模型作为用户流失模型，其中，第一准确率阈值可以根据实际需要进行设定。例如：如果需要得到的用户流失模型对用户流失状态预测的准确率达到90％，可以设定第一准确率阈值为90％，那么只有当训练模型输出得到的第一预测准确率为90％以上的情况，才会将该训练模型作为用户流失模型。

进一步地，终端获取训练模型的第一预测准确率之后，如图2所示，还可以包括：

步骤S201，若第一预测准确率小于第一准确率阈值，并且大于第二准确率阈值，终端则对训练模型的训练参数进行更新；其中，第二准确率阈值小于第一准确率阈值。

其中，第二预测准确率阈值也可以根据实际需要进行设定，并且小于第一准确率阈值。具体地，终端对训练模型进行训练并输出得到该训练模型的第一预测准确率之后，如果第一预测准确率小于预先设定的第一准确率阈值，即该训练模型的准确率并未达到目标准确率，此时可以比对第一预测准确率是否大于第二准确率阈值，如果满足第一预测准确率，则可以通过调节模型参数的方法，例如：可以调节训练模型的训练步长，或者迭代次数，也可以调整模型的最大深度以及最大特征数等方式，对训练模型进行更新。

步骤S202，基于用户流失状态标签，终端利用样本用户编码数据对训练参数更新后的训练模型进行训练，获取训练模型的第二预测准确率；

步骤S203，若第二预测准确率大于第一准确率阈值，终端则将训练参数更新后的训练模型作为用户流失模型。

具体地，步骤S201完成模型参数的更新后，终端可以再次基于样本用户的用户流失状态标签，利用样本用户编码数据对训练参数更新后的训练模型进行训练，并得出训练参数更新后的训练模型的预测准确率，作为第二预测准确率，并再次与预先设定的第一准确率阈值进行比对，如果输出得到的第二预测准确率大于第一准确率阈值，则可以将训练参数更新后的所述训练模型作为所述用户流失模型。而如果得到的第二预测准确率阈值仍然小于第一准确率阈值，则可以重复步骤S201到步骤S203，终端再次对模型参数进行更新并对更新参数后的训练模型进行训练，直到满足训练模型输出的第二预测准确率大于第一准确率阈值。

另外，终端获取训练模型的第一预测准确率之后，还包括：若第一预测准确率小于第二准确率阈值，终端则对多种不同维度的用户行为特征进行更新；其中，第二准确率阈值小于第一准确率阈值。

而如果训练模型得到的第一预测准确率比第二准确率阈值还要小，那么此时终端就不会对模型参数进行更新，而是直接返回步骤S101，重新确定多种不同维度的用户行为特征，对用户行为特征进行更新，例如：可以从原先确定的用户行为特征中删除某些特征，也可以是增加某些特征，或者对某些特征进行替换等，从而完成用户行为特征的更新，并利用更新后的用户行为特征，重新对训练模型进行训练。

例如：如果预先设定的第一准确率阈值为90％，并且第二准确率阈值设定为70％，而如果训练模型经过训练后输出得到的第一预测准确率为80％，满足小于第一准确率阈值但大于第二准确率阈值的条件时，此时终端可以对训练模型参数进行更新，并重新对训练参数更新后的训练模型进行训练，并得到第二预测准确率，例如可以是95％，那么此时大于第一准确率阈值，那么就将训练参数更新后的训练模型作为用户流失模型，而如果得到的第二预测准确率为85％仍然小于第一准确率阈值，则再次对模型参数进行更新，并重复训练过程直到预测准确率达到90％以上。

另外，如果训练模型经过训练后输出得到的第一预测准确率只有50％，比第二准确率阈值还要小，则可能是开始确定的用户行为特征无法准确预测用户的流失状态导致，这种情况难以通过调节模型参数的方式满足大于第一准确率阈值的目标，因此需要对用户行为特征进行更新，并再次对训练模型进行训练得到新的第一预测准确率，直到满足第一预测准确率大于70％。

上述实施例通过设定第一准确率阈值的方式，只有训练模型的输出得到的预测准确率大于该阈值，终端才将该训练模型确定为用户流失模型，保证了用户流失模型的准确性，同时，在小于第一准确率阈值的时候，通过设定第二准确率阈值的方式，可以采用不同的训练模型更新方式，在保证了用户流失模型输出的准确率的同时，还可以进一步提高模型训练的效率。

在一个实施例中，步骤S103可以包括：终端从预设的量化编码表中获取与用户行为特征相对应的量化编码规则；量化编码表中存储有用户行为特征与量化编码规则的对应关系；基于量化编码规则，对样本用户行为数据进行量化编码，获取样本用户编码数据。

其中，量化编码规则可以是根据实际需要进行设定，可以是根据不同的用户行为特征，采取不同的量化编码规则，例如：可以设定用户行为特征为登录频率，采用的量化编码规则可以是原始值编码，即直接将收集到的登录频率的实际数值，作为编码数据，例如用户A登录频率为每周5次，则将5这个数值直接作为样本用户编码数据。对某些用户行为特征也可以采用二进制编码的形式，例如是否有后续登陆行为，则可以设定存在后续登陆行为的编码数据为1，不存在则设定为0。而对于类似用户登录时间以及用户登录地区这种过于离散的用户行为特征，可以采取区间划分偏好编码的方式，首先设定多个区间，可以设定6:00-17:00为上班期，17:00到23：00为下班期，23:00以后为深夜的方式，先确定该特征满足的区间，再对区间进行编码，上班期为1，下班期为2，深夜为3等等的方式，设定量化编码规则与用户行为特征的对应关系。

完成量化编码规则与用户行为特征的对应关系之后，终端可以将所有的对应关系进行汇总，并存储于量化编码表中，在步骤S102得到样本用户行为数据之后，可以先确定收集到的样本用户行为数据对应用户行为特征，并根据用户行为特征查询量化编码表，找出对应的量化编码规则，并基于量化编码规则，对样本用户行为数据进行量化编码，得到样本用户编码数据。

进一步地，由于用户行为特征经过量化编码后，特征维度会变得非常庞大，会导致模型训练时间大幅度增加，为了减少特征维度，在一个实施例中，步骤S103之后，还可以包括：终端对样本用户编码数据进行归一化处理；对归一化处理后的样本用户编码数据进行池化，得到用户编码池化数据；步骤S104可以进一步包括：基于用户流失状态标签，利用用户编码池化数据训练得到用户流失模型。

具体地，首先将所有特征数据进行归一化处理。对于N维特征向量，将一维向量转化为m*m维特征矩阵，其中，m是比N大的最小可开二次方根的数字M，而m则是M的正根。之后，采用重叠方式转化为矩阵，即将原始向量补充到M长度，补充部分用向量前(M-N)部分填充。之后将向量按照矩阵维度截断成m段，然后再移加到矩阵中，之后分别对矩阵进行最大值池化，将池化后的矩阵再重新展开为一维特征向量，并输出。最后可以利用池化后用户编码数据对训练模型进行训练，进而得到用户流失模型。

上述实施例通过设定量化编码表，终端对样本用户行为数据进行量化编码，可以将大量的，纷繁复杂，离散的数据根据不同的数据组成进行不同的编码，将所有特征进行量化，提高各维度的聚合程度并且加速模型收敛，另外对样本用户行为数据进行量化编码，还通过池化的方式，降低特征维度，进而减少模型训练时间，提高模型泛化能力。

在一个实施例中，获取用户流失状态的方法，还可以包括：终端获取待分析用户的用户编码；根据用户编码，从预存有待分析用户的用户流失状态的用户数据库中获取与用户编码对应的待分析用户的用户流失状态。

具体地，可以将待分析用户的用户流失状态存储入用户数据库中，其中，用户数据库存储有多个用户编码，用户编码用于标识不同的待分析用户，可以通过将用户编码输入用户数据库的方式，从用户数据库中查询与用户编码相对应的待分析用户的用户流失状态。

上述实施例，实现通过用户编码查询待分析用户的用户流失状态，可以用于迅速查询待分析用户的用户流失状态，进而提高获取用户流失状态的方法的实用性。

在一个实施例中，如图3所示，提供了一种获取用户流失状态的方法，该方法可以包括如下步骤：

步骤S301，终端确定多种不同维度的用户行为特征；

步骤S302，终端获取与多种不同维度的用户行为特征对应的样本用户行为数据，以及样本用户的用户流失状态标签；样本用户行为数据为样本用户的用户行为数据；用户流失状态标签用于标识用户流失状态；

步骤S303，终端从预设的量化编码表中获取与用户行为特征相对应的量化编码规则；量化编码表中存储有用户行为特征与量化编码规则的对应关系；

步骤S304，终端基于量化编码规则，对样本用户行为数据进行量化编码，获取样本用户编码数据；

步骤S305，终端对样本用户编码数据进行归一化处理；对归一化处理后的样本用户编码数据进行池化，得到用户编码池化数据；

步骤S306，终端基于用户流失状态标签，利用用户编码池化数据对训练模型进行训练，获取训练模型的第一预测准确率；

步骤S307，终端若第一预测准确率大于第一准确率阈值，则将训练模型作为用户流失模型；

步骤S308，若第一预测准确率小于第一准确率阈值，并且大于第二准确率阈值，则终端对训练模型的训练参数进行更新；其中，第二准确率阈值小于第一准确率阈值；基于用户流失状态标签，利用样本用户编码数据对训练参数更新后的训练模型进行训练，获取训练模型的第二预测准确率；若第二预测准确率大于第一准确率阈值，则将训练参数更新后的训练模型作为用户流失模型；

步骤S309，若第一预测准确率小于第二准确率阈值，则终端对多种不同维度的用户行为特征进行更新；其中，第二准确率阈值小于第一准确率阈值；

步骤S310，终端获取与多种不同维度的用户行为特征对应的待分析用户行为数据；待分析用户行为数据为待分析用户的用户行为数据；将待分析用户行为数据输入用户流失模型，得到待分析用户的用户流失状态。

上述实施例提供的获取用户流失状态的方法，可以提高得到的用户流失状态的准确率，同时，还提高不同维度的用户行为特征的聚合程度并且降低各用户行为特征的维度，保证得到的用户流失状态的准确率的同时减少训练时间。

以下通过一个应用示例来说明获取用户流失状态的方法，参考图4，可以包括如下步骤：

步骤1，数据预处理及初始数据入库。

由于产品方提供的数据会有重复、错误、非法等异常数据。因此在数据入库前使用Impala对日志数据进行了预处理。这里选择Impala是由于该阶段计算逻辑简单，在该场景Impala可以较好的表现其高效性。在其他特征分析及数据建模采用的Spark Sql执行，该引擎可以高效的支持用户的自定义函数且数据中间结果可以被Spark ml框架直接利用。写入Hive表中的数据是清洗后的日志数据用于数据建模开发。一些配置资源数据写入MySQL中，主要包含标签映射、行为编码与其名称等映射数据。其中写入Hbase与Elasticsearch的数据主要是用于开发微服务输出，在后续流程说明。

步骤2，对行为数据的EDA探索分析形成合理的特征数据输出。

在日志数据中，产品方会提供的指标很多，但并不是每个指标都是有效的。但为保证数据体系的健全需要对数据指标进行探索性分析。比如指标的离散型、缺失情况、趋势等。本申请在构建用户特征时是经过探索性分析后产生的，保证了特征数据的合理性。

步骤3，对用户特征数据进行编码形成量化编码特征。

由于特征数据的原始值是用户产生的，每个用户的行为习惯都是不同的，因此很多指标的数据结果会过于离散，这会在分析用户群体特征时带来麻烦，不仅模型难于收敛且用户特征解释繁琐。常见的用户标签编码体系有：

小时划分为：深夜、上班期、下班期、晚间黄金期。

一周：工作日及非工作日。

城市：一线、新一线、二线等。

本申请中对用户的行为数据中部分采用原始值，部分采用了标签编码量化数据，参考图5，图5为一个应用示例中用户流失建模用户量化编码示例图，选择策略是基于模型的评估结果进行多次调优产生的。

步骤4，特征编码的池化。

特征在经过编码之后，其维度将变得特别庞大。为了在保留数据主要特征的情况下，降低特征维度，以便于降低模型训练时间和增强模型泛化能力，在模型训练前加了一层特征池化。

(1)将所有特征数据进行归一化处理。

(2)对于N维特征向量，将一维向量转化为m*m维特征矩阵，其中，m是比N大的最小可开二次方根的数字M，而m则是M的正根。之后，采用重叠方式转化为矩阵，即将原始向量补充到M长度，补充部分用向量前(M-N)部分填充。之后将向量按照矩阵维度截断成m段，然后再移加到矩阵中。

(3)之后分别对矩阵进行最大值池化

(4)将池化后的矩阵再重新展开为一维特征向量，并输出。

步骤5，用户流失模型的训练。

(1)指标维度的编码量化。

该过程主要是衡量某个用户在某个行为的值对流失状态描述的重要度量化。比如说：一个用户在一个月内在该产品中共产生了71次行为，那么该用户在总活跃次数的维度上可以编码为71。本申请的编码量化策略如图6。

策略一、原始值编码：

针对用户核心行为特征中的多少天未登录特征、行为特征中的用户活跃次数特征、发生行为种类数特征、活跃的天数发生行为数特征及一天最多行为的次数特征等，采用原始值编码。

策略二、二极化差异编码：

针对用户核心行为特征中的是否发生核心行为特征、新用户是否存在后续行为特征等，采用二极化差异编码。即发生过核心行为特征则编码为1，否则为0。

策略三、区间划分偏好编码：

针对用户地域特征、偏好特征、消费特征等采用区间划分偏好方式编码。其中，地域特征可应用密度聚类算法的方式将各省市划分为“一线城市”、“新一线城市”、“二线城市”三个状态，将用户地域信息编码为上述三个状态特征。偏好特征中行为偏好进一步可简单划分为“核心行为”、“非核心行为”两个状态，亦可根据业务细致划分；活跃偏好则可划分为“低度活跃”、“中度活跃”、“高度活跃”三个状态；时空偏好可根据时间离散算法划分为“深夜”、“上班期”、“下班期”、“晚间黄金期”四个状态；APP偏好可划分为“关联APP”和“不关联APP”两个状态。

最终策略:基于上述三种策略的结合体构建用户维度编码的量化特征。结合策略是：对各原始特征进行横向扩展。除此之外，另添加额外特征，根据不同业务特征，可灵活选择二进制编码划分、数据截尾法等数学方法处理特征加入到最终编码特征中。

(2)基于机器学习方式的模型训练。

本申请采用机器学习模型GBDT模型作为基础模型，通过大量的真实数据编码量化得到编码特征并经过池化后对其进行训练，得到预训练模型。训练过程中，由于GBDT是监督学习模型，所以需要提供用户流失状态标签。本申请采用将本月出现且下月未出现的用户定义为流失用户，流失状态设为1，而本月其他用户则定义为未流失用户，定义为0。

步骤6，对输出的结果进行可视化评估。

本申请是综合预测模型，需要考虑的因素会比较多，在构建模型后需要对产出数据进行验证，并分析预测结果的合理性。

步骤7，分析模型的评估结果，针对问题进行参数优化或二次建模。

如果模型的输出结果不符合逻辑，那么本申请可以调节模型的参数或结合用户特征数据重新建模。

步骤8，模型上线及用户进行评分预测。

本申请会结合不同产品的属性，设置不同考核周期定时对每个产品的每位用户进行周期性考核，并将数据结果写入数据库。其中写入HBase的数据用于基础的微服务功能输出，比如产品方提供用户ID，本申请可以根据主键搜索快速给产品方反馈用户对应的流失状态及部分流失预警信息；写入Elasticsearch的数据是用于提供用户分群数据导出的微服务，该部分字段会相对写入HBase中的数据更有针对性，这是考虑到Elasticsearch的存储成本较高，但其对数据多维度搜索性能非常好。

应该理解的是，虽然图1-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-4中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种获取用户流失状态的装置，包括：行为特征确定模块701、样本数据获取模块702、编码数据获取模块703、流失模型训练模块704、待分析数据获取模块705和流失状态获取模块706，其中：

行为特征确定模块701，用于确定多种不同维度的用户行为特征；

样本数据获取模块702，用于获取与多种不同维度的用户行为特征对应的样本用户行为数据，以及样本用户的用户流失状态标签；样本用户行为数据为样本用户的用户行为数据；用户流失状态标签用于标识用户流失状态；

编码数据获取模块703，用于对样本用户行为数据进行量化编码，获取样本用户编码数据；

流失模型训练模块704，用于基于用户流失状态标签，利用样本用户编码数据训练得到用户流失模型；

待分析数据获取模块705，用于获取与多种不同维度的用户行为特征对应的待分析用户行为数据；待分析用户行为数据为待分析用户的用户行为数据；

流失状态获取模块706，用于将待分析用户行为数据输入用户流失模型，得到待分析用户的用户流失状态。

在一个实施例中，流失模型训练模块704，进一步用于基于用户流失状态标签，利用样本用户编码数据对训练模型进行训练，获取训练模型的第一预测准确率；若第一预测准确率大于第一准确率阈值，则将训练模型作为用户流失模型。

在一个实施例中，流失模型训练模块704，还用于若第一预测准确率小于第一准确率阈值，并且大于第二准确率阈值，则对训练模型的训练参数进行更新；其中，第二准确率阈值小于第一准确率阈值；基于用户流失状态标签，利用样本用户编码数据对训练参数更新后的训练模型进行训练，获取训练模型的第二预测准确率；若第二预测准确率大于第一准确率阈值，则将训练参数更新后的训练模型作为用户流失模型。

在一个实施例中，流失模型训练模块704，还用于若第一预测准确率小于第二准确率阈值，则对多种不同维度的用户行为特征进行更新；其中，第二准确率阈值小于第一准确率阈值。

在一个实施例中，编码数据获取模块703，进一步用于从预设的量化编码表中获取与用户行为特征相对应的量化编码规则；量化编码表中存储有用户行为特征与量化编码规则的对应关系；基于量化编码规则，对样本用户行为数据进行量化编码，获取样本用户编码数据。

在一个实施例中，编码数据获取模块703，还用于对样本用户编码数据进行归一化处理；对归一化处理后的样本用户编码数据进行池化，得到用户编码池化数据；流失模型训练模块704，还用于基于用户流失状态标签，利用用户编码池化数据训练得到用户流失模型。

在一个实施例中，获取用户流失状态的装置，还包括：流失状态查询模块，用于获取待分析用户的用户编码；根据用户编码，从预存有待分析用户的用户流失状态的用户数据库中获取与用户编码对应的待分析用户的用户流失状态。

关于获取用户流失状态的装置的具体限定可以参见上文中对于获取用户流失状态的方法的限定，在此不再赘述。上述获取用户流失状态的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种获取用户流失状态的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：确定多种不同维度的用户行为特征；获取与多种不同维度的用户行为特征对应的样本用户行为数据，以及样本用户的用户流失状态标签；样本用户行为数据为样本用户的用户行为数据；用户流失状态标签用于标识用户流失状态；对样本用户行为数据进行量化编码，获取样本用户编码数据；基于用户流失状态标签，利用样本用户编码数据训练得到用户流失模型；获取与多种不同维度的用户行为特征对应的待分析用户行为数据；待分析用户行为数据为待分析用户的用户行为数据；将待分析用户行为数据输入用户流失模型，得到待分析用户的用户流失状态。

在一个实施例中，处理器执行计算机程序时进一步实现以下步骤：基于用户流失状态标签，利用样本用户编码数据对训练模型进行训练，获取训练模型的第一预测准确率；若第一预测准确率大于第一准确率阈值，则将训练模型作为用户流失模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：若第一预测准确率小于第一准确率阈值，并且大于第二准确率阈值，则对训练模型的训练参数进行更新；其中，第二准确率阈值小于第一准确率阈值；基于用户流失状态标签，利用样本用户编码数据对训练参数更新后的训练模型进行训练，获取训练模型的第二预测准确率；若第二预测准确率大于第一准确率阈值，则将训练参数更新后的训练模型作为用户流失模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：若第一预测准确率小于第二准确率阈值，则对多种不同维度的用户行为特征进行更新；其中，第二准确率阈值小于第一准确率阈值。

在一个实施例中，处理器执行计算机程序时进一步实现以下步骤：从预设的量化编码表中获取与用户行为特征相对应的量化编码规则；量化编码表中存储有用户行为特征与量化编码规则的对应关系；基于量化编码规则，对样本用户行为数据进行量化编码，获取样本用户编码数据。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对样本用户编码数据进行归一化处理；对归一化处理后的样本用户编码数据进行池化，得到用户编码池化数据；基于用户流失状态标签，利用用户编码池化数据训练得到用户流失模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取待分析用户的用户编码；根据用户编码，从预存有待分析用户的用户流失状态的用户数据库中获取与用户编码对应的待分析用户的用户流失状态。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：确定多种不同维度的用户行为特征；获取与多种不同维度的用户行为特征对应的样本用户行为数据，以及样本用户的用户流失状态标签；样本用户行为数据为样本用户的用户行为数据；用户流失状态标签用于标识用户流失状态；对样本用户行为数据进行量化编码，获取样本用户编码数据；基于用户流失状态标签，利用样本用户编码数据训练得到用户流失模型；获取与多种不同维度的用户行为特征对应的待分析用户行为数据；待分析用户行为数据为待分析用户的用户行为数据；将待分析用户行为数据输入用户流失模型，得到待分析用户的用户流失状态。

在一个实施例中，计算机程序被处理器执行时进一步实现以下步骤：基于用户流失状态标签，利用样本用户编码数据对训练模型进行训练，获取训练模型的第一预测准确率；若第一预测准确率大于第一准确率阈值，则将训练模型作为用户流失模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：若第一预测准确率小于第一准确率阈值，并且大于第二准确率阈值，则对训练模型的训练参数进行更新；其中，第二准确率阈值小于第一准确率阈值；基于用户流失状态标签，利用样本用户编码数据对训练参数更新后的训练模型进行训练，获取训练模型的第二预测准确率；若第二预测准确率大于第一准确率阈值，则将训练参数更新后的训练模型作为用户流失模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：若第一预测准确率小于第二准确率阈值，则对多种不同维度的用户行为特征进行更新；其中，第二准确率阈值小于第一准确率阈值。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：从预设的量化编码表中获取与用户行为特征相对应的量化编码规则；量化编码表中存储有用户行为特征与量化编码规则的对应关系；基于量化编码规则，对样本用户行为数据进行量化编码，获取样本用户编码数据。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对样本用户编码数据进行归一化处理；对归一化处理后的样本用户编码数据进行池化，得到用户编码池化数据；基于用户流失状态标签，利用用户编码池化数据训练得到用户流失模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取待分析用户的用户编码；根据用户编码，从预存有待分析用户的用户流失状态的用户数据库中获取与用户编码对应的待分析用户的用户流失状态。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种获取用户流失状态的方法，其特征在于，所述方法包括：

确定多种不同维度的用户行为特征；

2.根据权利要求1所述的方法，其特征在于，所述基于所述用户流失状态标签，利用所述样本用户编码数据训练得到用户流失模型，包括：

基于所述用户流失状态标签，利用所述样本用户编码数据对训练模型进行训练，获取所述训练模型的第一预测准确率；

若所述第一预测准确率大于第一准确率阈值，则将所述训练模型作为所述用户流失模型。

3.根据权利要求2所述的方法，其特征在于，所述获取所述训练模型的第一预测准确率之后，还包括：

若所述第一预测准确率小于所述第一准确率阈值，并且大于第二准确率阈值，则对所述训练模型的训练参数进行更新；其中，所述第二准确率阈值小于所述第一准确率阈值；

基于所述用户流失状态标签，利用所述样本用户编码数据对所述训练参数更新后的所述训练模型进行训练，获取所述训练模型的第二预测准确率；

若所述第二预测准确率大于所述第一准确率阈值，则将所述训练参数更新后的所述训练模型作为所述用户流失模型。

4.根据权利要求2所述的方法，其特征在于，所述获取所述训练模型的第一预测准确率之后，还包括：

若所述第一预测准确率小于第二准确率阈值，则对所述多种不同维度的用户行为特征进行更新；其中，所述第二准确率阈值小于所述第一准确率阈值。

5.根据权利要求1所述的方法，其特征在于，所述对所述样本用户行为数据进行量化编码，获取样本用户编码数据，包括：

从预设的量化编码表中获取与所述用户行为特征相对应的量化编码规则；所述量化编码表中存储有用户行为特征与量化编码规则的对应关系；

基于所述量化编码规则，对所述样本用户行为数据进行量化编码，获取所述样本用户编码数据。

6.根据权利要求5所述的方法，其特征在于，所述获取所述样本用户编码数据之后，还包括：

对所述样本用户编码数据进行归一化处理；

对归一化处理后的所述样本用户编码数据进行池化，得到用户编码池化数据；

所述基于所述用户流失状态标签，利用所述样本用户编码数据训练得到用户流失模型，包括：

基于所述用户流失状态标签，利用所述用户编码池化数据训练得到所述用户流失模型。

7.根据权利要求1至6任意一项所述的方法，其特征在于，还包括：

获取所述待分析用户的用户编码；

根据所述用户编码，从预存有所述待分析用户的用户流失状态的用户数据库中获取与所述用户编码对应的所述待分析用户的用户流失状态。

8.一种获取用户流失状态的装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。