CN115018562A

CN115018562A - 用户预流失预测方法、装置及系统

Info

Publication number: CN115018562A
Application number: CN202210798292.2A
Authority: CN
Inventors: 毛晖
Original assignee: Hunan Caohua Interactive Technology Co ltd
Current assignee: Hunan Caohua Interactive Technology Co ltd
Priority date: 2022-07-06
Filing date: 2022-07-06
Publication date: 2022-09-06

Abstract

本发明公开了用户预流失预测方法、装置及系统，通过筛选出与所述用户预流失强相关的特征指标，获取不同用户在不同时期的关键特征指标构建训练集，根据用户预流失的应用领域的特性选取N个基于机器学习的预流失模型，并使用标注好的训练数据分别训练所述多个预流失模型，并对训练完成后的N个预流失模型进行测试，选取测试效果最好的M个进行多模型融合的加权打分，得到以所述M个预流失模型加权融合打分为输出的最优预测结果后，系统还加持了结果监测及干预反馈的自适应优化调整模块。本技术方案通过数据提取特征工程、建模并加权融合打分对用户预流失进行预测，并通过自适应干预调整闭环做模型迭代，有效提高了预测的准确率、干预的有效性。

Description

用户预流失预测方法、装置及系统

技术领域

本发明涉及用户预流失预测领域，尤其涉及用户预流失预测方法、装置及系统。

背景技术

随着网络游戏行业的不断发展，新的游戏层出不穷，游戏行业的买量成本越来越高。如何通过运营手段提升游戏用户的留存率，减少用户的流失变得越来越重要。在用户还在活跃的阶段提前预测出用户未来的流失风险，然后进行提前干预是游戏运营面临的重要课题。目前大部分游戏企业主要采取人工分析的传统方式，从用户的在线时长、充值金额等角度去发现流失风险。少部分游戏企业采用了较为先进的大数据技术去预测用户的流失风险，但现有的技术方案在算法和特征工程方面存在较大的缺陷，如现有的用户流失预测方法选用大量的特征参数去预测用户流失，但是这种方法计算量巨大，导致预测速度过慢，此外，现有的预测往往选用单个模型进行预测，这种单个模型预测的方法，一旦模型参数选取存在缺陷，容易导致模型预测的准确率降低。

因此，如何同时解决现有的用户流失预测方法准确率低，且预测速度慢已成为本领域技术人员亟待解决的技术问题。

发明内容

本发明提供了用户预流失预测方法、装置及系统，用于解决现有的用户流失预测方法准确率低，且预测速度慢的技术问题。

为解决上述技术问题，本发明提出的技术方案为：

一种用户预流失预测方法，包括以下步骤：

获取用户的登录信息、充值信息以及基本画像信息，并从用户的登录信息、充值信息以及基本画像信息中筛选出与用户预流失强相关的关键特征指标；

获取不同用户在不同时期的关键特征指标构建训练数据集，并对训练数据集中的每条训练数据进行标注；

根据用户预流失的应用领域的特性选取N个基于机器学习的预流失预测模型，并使用标注好的训练数据分别训练多个预流失预测模型，并对训练完成后的N个预流失预测模型进行测试，选取测试效果最好的M个预流失预测模型，并将M个预流失预测模型进行多模型加权融合，得到以M个预流失预测模型的预测结果加权融合值为输出的最优预流失预测模型，其中，N大于M；

获取待预测用户的关键特征指标，并将待预测用户的关键特征指标输入到最优预流失预测模型中，得到待预测用户的预流失预测结果。

优选的，从用户的登录信息、充值信息以及基本画像信息中筛选出与用户预流失强相关的关键特征指标通过IG集成梯度相关算法实现。

优选的，关键特征指标包括：平均每天登录次数、平均每天在线时长、登录次数标准差、在线时长标准差、距离最近一次的登录次数、距离最近一次的在线时长、连续3天每天登录次数是否低于或等于3次、连续3天每天在线时长是否低于或等于0.5小时、是否充值、平均每天充值次数、平均每天充值金额、总充值金额、最近一次充值的距离天数/滑动窗口、最近一次充值的次数、最近一次充值的金额、登录次数上下行的拟合斜率、在线时长上下行的拟合斜率、充值次数上下行的拟合斜率、充值金额上下行的拟合斜率、性别、年龄区间、学历、工作类型/性质以及地域。

优选的，训练数据的标注类别包括高活预流失、高活未流失、低活预流失、低活未流失，对训练数据集中的每条训练数据进行标注包括以下步骤：

对于任一用户A的任意一条训练数据a，获取用户A在训练数据a生成之前预设时段的关键特征数据，并判断用户A在训练数据a生成之前的活跃度类别，基于用户A在训练数据a生成之前的活跃度类别确定训练数据a的标注类别，其中，用户A在训练数据a生成之前的活跃度类别的判定规则以及对应的预流失判定规则如下表所示：

优选的，用户预流失的应用领域为游戏领域，选取N个预流失预测模型的类别包括：SVM、 LGBM、XGB、RF、DNN；测试效果的评价标准包括precision和recall两个指标，M为3，多模型加权融合的比例为5:3:2；其中，权值为5成的模型为测试中precision指标达标且recall 指标最优的模型；权值为2成的模型为测试中recall指标达标且precision指标最优的模型。

优选的，将M个预流失预测模型进行多模型加权融合前，还包括以下步骤：

采用信用卡评分机制将选取测试效果最好的M个预流失预测模型的输出概率值转化为评分值。

优选的，得到待预测用户的预流失预测结果后，还包括以下步骤：

定期对最优预流失预测模型进行验证，并计算最优预流失预测模型的准确率，当准确率低于预设的准确率阈值，调整最优预流失预测模型的加权系数/训练参数/模型超参数；

在得到待预测用户的预流失预测结果后，还包括以下步骤：

对高活预流失、低活预流失用户施加干预措施，并在预设周期内对高活预流失、低活预流失用户实施预流失预测跟进，判断干预措施在预设周期内的效果，若在预设周期内的效果差，则变更干预措施的种类，再次对高活预流失、低活预流失用户进行干预。

一种用户预流失预测装置，包括：特征提取模块、训练集构建模块以及模型构建模块，特征提取模块、训练集构建模块以及模型构建模块依次连接；

特征提取模块：用于获取用户的登录信息、充值信息以及基本画像信息，并从用户的登录信息、充值信息以及基本画像信息中筛选出与用户预流失强相关的关键特征指标；

训练集构建模块：用于从特征提取模块中获取不同用户在不同时期的关键特征指标构建训练数据集，并对训练数据集中的每条训练数据进行标注；

模型构建模块：用于根据用户预流失的应用领域的特性选取N个基于机器学习的预流失预测模型，并从训练集构建模块中获取标注好的训练数据，并使用标注好的训练数据分别训练多个预流失预测模型，并对训练完成后的N个预流失预测模型进行测试，选取测试效果最好的M个预流失预测模型，并将M个预流失预测模型进行多模型加权融合，得到以M个预流失预测模型的预测结果加权融合值为输出的最优预流失预测模型，其中，N大于M；并获取待预测用户的关键特征指标，并将待预测用户的关键特征指标输入到最优预流失预测模型中，得到待预测用户的预流失预测结果。

优选的，还包括：与模型构建模块连接的干预模块，干预模块包括模型干预模块以及措施干预模块；

模型干预模块用于定期对最优预流失预测模型进行验证，并计算最优预流失预测模型的准确率，当准确率低于预设的准确率阈值，调整最优预流失预测模型的加权系数/训练参数/ 模型超参数；

措施干预模块用于对最优预流失预测模型预测出的高活预流失、低活预流失用户施加干预措施，并在预设周期内对高活预流失、低活预流失用户实施预流失预测跟进，判断干预措施在预设周期内的效果，若在预设周期内的效果差，则变更干预措施的种类，再次对高活预流失、低活预流失用户进行干预。

一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述方法的步骤。

本发明具有以下有益效果：

1、本发明中的用户预流失预测方法、装置及系统，通过筛选出与用户预流失强相关的关键特征指标，获取不同用户在不同时期的关键特征指标构建训练数据集，根据用户预流失的应用领域的特性选取N个基于机器学习的预流失预测模型，并使用标注好的训练数据分别训练多个预流失预测模型，并对训练完成后的N个预流失预测模型进行测试，选取测试效果最好的M个预流失预测模型，并将M个预流失预测模型进行多模型加权融合，得到以M个预流失预测模型的预测结果加权融合值为输出的最优预流失预测模型，相比现有技术，本技术方案中通过筛选数据并结合加权融合得到的最优预流失预测模型进行预测，不但提高预测的准确率，还能提高预测速度。

2、在优选方案中，本技术方案通过采用了建模预测加干预反馈的闭环自适应调整结构，模拟神经网络的学习思路，基本实现了半自动化的分析流程，即前向通过流失模型建模选型，并输出分析预测结果；中间通过干预手段加持流失预防；反向通过反馈模型预测结果、中间干预结果，并更新建模、更新干预过程；能大大节省了人力成本、时间成本，提高了不同游戏分析适配的统一性、扩展性，提高了分析效率，业务上提高了对预流失用户的发现嗅觉与预防能力。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照附图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明优选实施例中的SDK接入方法的流程图；

图2是本发明优选实施例中的SVM、LGBM、XGB、RF、DNN共5种模型的训练过程参数示意图；

图3是本发明优选实施例中的多模型加权融合示意图；

图4是本发明优选实施例中的AB测试过程图；

图5是本发明优选实施例中的跟踪闭环模块的工作流程图；

图6是本发明优选实施例中的回调闭环模块的工作流程图；

图7是是本发明用户预流失预测方法的流程图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

实施例一：

如图7所示，本实施中公开了一种用户预流失预测方法，包括以下步骤：

获取用户的登录信息、充值信息以及基本画像信息，并从用户的登录信息、充值信息以及基本画像信息中筛选出与所述用户预流失强相关的关键特征指标；

根据用户预流失的应用领域的特性选取N个基于机器学习的预流失预测模型，并使用标注好的训练数据分别训练所述多个预流失预测模型，并对训练完成后的N个预流失预测模型进行测试，选取测试效果最好的M个预流失预测模型，并将M个预流失预测模型进行多模型加权融合，得到以所述M个预流失预测模型的预测结果加权融合值为输出的最优预流失预测模型，其中，N大于M；

获取待预测用户的关键特征指标，并将所述待预测用户的关键特征指标输入到最优预流失预测模型中，得到待预测用户的预流失预测结果。

在本实施例中，还公开了一种用户预流失预测装置，包括：特征提取模块、训练集构建模块以及模型构建模块，所述特征提取模块、训练集构建模块以及模型构建模块依次连接；

所述特征提取模块：用于获取用户的登录信息、充值信息以及基本画像信息，并从用户的登录信息、充值信息以及基本画像信息中筛选出与所述用户预流失强相关的关键特征指标；

所述训练集构建模块：用于从所述特征提取模块中获取不同用户在不同时期的关键特征指标构建训练数据集，并对训练数据集中的每条训练数据进行标注；

所述模型构建模块：用于根据用户预流失的应用领域的特性选取N个基于机器学习的预流失预测模型，并从所述训练集构建模块中获取标注好的训练数据，并使用标注好的训练数据分别训练所述多个预流失预测模型，并对训练完成后的N个预流失预测模型进行测试，选取测试效果最好的M个预流失预测模型，并将M个预流失预测模型进行多模型加权融合，得到以所述M个预流失预测模型的预测结果加权融合值为输出的最优预流失预测模型，其中，N 大于M；并获取待预测用户的关键特征指标，并将所述待预测用户的关键特征指标输入到最优预流失预测模型中，得到待预测用户的预流失预测结果。

此外，在本实施例中，还公开了一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本发明中的用户预流失预测方法、装置及系统，通过筛选出与所述用户预流失强相关的关键特征指标，获取不同用户在不同时期的关键特征指标构建训练数据集，根据用户预流失的应用领域的特性选取N个基于机器学习的预流失预测模型，并使用标注好的训练数据分别训练所述多个预流失预测模型，并对训练完成后的N个预流失预测模型进行测试，选取测试效果最好的M个预流失预测模型，并将M个预流失预测模型进行多模型加权融合，得到以所述M个预流失预测模型的预测结果加权融合值为输出的最优预流失预测模型，相比现有技术，本技术方案中通过筛选数据并结合加权融合得到的最优预流失预测模型进行预测，不但提高预测的准确率，还能提高预测速度。

实施例二：

在本实施例中，公开一种用户预流失预测方法，应用与游戏用户预流失预测领域中，包括以下步骤：

一、获取用户的登录信息、充值信息以及基本画像信息，并从用户的登录信息、充值信息以及基本画像信息中筛选出与所述用户预流失强相关的关键特征指标；

其中，所述登录信息包括：登录次数、在线时长；所述充值信息包括：充值次数、充值金额；所述基本画像信息包括：性别、年龄、学历以及工作情况；

根据用户登录、充值、基本画像的数据信息对游戏用户做精细化类别区分；即通过采集后的玩家行为分析、玩家画像构建，对所有玩家做细分实现精细化运营与建模。刻画用户模型的关键，在于维度指标的选择，以形成一套标签体系，我们这里根据业务场景，选择画像端用户属性、登录次数统计项阈值、在线时长统计项阈值、充值次数&金额统计项阈值做为标签细化的切入点，比如：

√画像端用户属性：考虑性别、年龄、学历、工作情况

√登录次数统计项阈值：

√在线时长统计项阈值：

√充值次数统计项阈值：

√充值金额统计项阈值：

二、从用户的登录信息、充值信息以及基本画像信息中筛选出与所述用户预流失强相关的关键特征指标；

2.1基于经验获取与所有用户预流失相关的所有特征指标，构成特征指标集；基于IG集成梯度相关算法，从所述特征指标集中找出与用户预流失强相关的特征指标构建所述实时类别对应的关键特征指标集。

集成梯度(Integrated Gradients)特征选择，该方法是全变量模型训练好之后，提供1个 batch的数据做前向传播，计算batch中每个样本的每个属性特征对目标影响的偏导(或者称梯度值or边际值)，然后根据不同样本的同一属性特征项，将梯度值按列求和，作为该属性的集成梯度(或者称之为梯度增益)。取值越高，该属性就越显著，跟用户预流失相关性就越强，反之亦然。有区别于常见的单因素相关性分析，它综合考虑了其他变量因素的取值影响，用来评估每个输入特征对模型输出的贡献。具体地，集成梯度的计算公式如下：

注：X`作为某个属性训练好的基线值，X作为某个样本对应属性的输入值，上述积分公式实际想表达输入值与基线值之间的difference，对模型输出的边际影响。在其他变量因素的取值优化稳定的前提下，该边际影响越大，说明特征指标的相关性越强。

具体操作上，因为采用的是传统机器学习模型，有别于深度学习模型中的实现框架，所以这里主要借鉴集成梯度特征选择的思路，自己脚本化复现了该算法流程：

1)全变量训练集建模XGB、LGBM、RF三个典型子模型；

2)全变量测试集输入各个子模型做推理，记录各子模型中各变量属性的边际影响；

3)各子模型中各变量属性的边际值按测试集数量求和后，根据三模型5:3:2的权重结构，得到各变量属性的边际加权总值，作为集成总梯度；

4)最后，按集成总梯度数值的大小进行排序，归一化得到特征的重要性排序结果，并选取靠前的多个特征作为关键特征。

其中，所述关键特征指标包括：平均每天登录次数、平均每天在线时长、登录次数标准差、在线时长标准差、距离最近一次的登录次数、距离最近一次的在线时长、连续3天每天登录次数是否低于或等于3次、连续3天每天在线时长是否低于或等于0.5小时、是否充值、平均每天充值次数、平均每天充值金额、总充值金额、最近一次充值的距离天数/滑动窗口、最近一次充值的次数、最近一次充值的金额、登录次数上下行的拟合斜率、在线时长上下行的拟合斜率、充值次数上下行的拟合斜率、充值金额上下行的拟合斜率、性别、年龄区间、学历、工作类型/性质以及地域。

在优选方案中，对于社交功能较强的应用场景中，所述关键特征数据还包括所述用户具有强关联性的其他用户的活跃度数据以及流失情况，与所述用户具有强关联性的其他用户包括交互频率超过预设阈值的好友。如在游戏领域，所述关键特征数据还包括游戏好友的活跃度数据以及流失情况。

2.2获取不同用户在不同时期的关键特征指标构建训练数据集，并对训练数据集中的每条训练数据进行标注；

训练数据的标注类别包括高活预流失、高活未流失、低活预流失、低活未流失，对训练数据集中的每条训练数据进行标注包括以下步骤：

对于任一用户A的任意一条训练数据a，获取所述用户A在训练数据a生成之前预设时段的关键特征数据，并判断所述用户A在训练数据a生成之前的活跃度类别，基于所述用户 A在训练数据a生成之前的活跃度类别确定所述训练数据a的标注类别，其中，所述用户A在训练数据a生成之前的活跃度类别的判定规则以及对应的预流失判定规则如下表所示：

三、构建最优预流失预测模型

3.1根据用户预流失的应用领域的特性选取SVM、LGBM、XGB、RF、DNN模型，分别构建基于SVM、LGBM、XGB、RF、DNN框架的N个预流失预测模型；

其中，LGBM框架预流失预测模型包括以下步骤：

S1:对选定的网络游戏近6个月时间范围内的所有玩家的选定行为特征进行数据提取和清洗；

S2:对步骤S1中所述的玩家数据进行异常数据处理，包括缺失值的填充、极值的删除；

S3:对步骤S2中处理的数据进行特征提取和标记；

S4:对步骤S3提取的特征，将所有玩家样本数据按5：3：2的比例分为训练集、验证集、测试集。

S5:对步骤S4中训练集数据输入到给定初始参数的梯度提升树模型，进行玩家流失模型训练，训练包括如下步骤：

S51:把S4中提取的训练集输入梯度提升树模型，梯度提升树学习出第一个弱分类器；

其中，弱分类器具体为：

其中，x为弱分类器的输入，具体为关键特征指标集，y为弱分类器的输出，具体为预测结果以及或标注结果；

S52:S51中训练好的弱分类器在每个样本上计算预测值与真实标记值之间的残差；

其中，残差计算公式为：

其中，x_i为第i个训练样本，y_i为第i个训练样本的预测结果；

S53:根据S52中计算的残差，梯度提升树再学习出下一个弱分类器去拟合残差；

即对概率残差T＝{(x₁,r_m1),(x₂,r_m2),...,(x_N,r_mN)}拟合一个分类树，并获取第m棵树的叶节点区域R_mj，j＝1,2,...,J；对j＝1,2,...,J，i＝1,2,...,N，计算

S54:不断重复S52到S53，直到梯度提升树的深度达到模型参数设定的值，并计算每个样本落在每个弱分类器叶子结点上的值的和；

即，更新梯度提升树的深度，得到最终的梯度提升树，其中更新公式为：

S55:把S54中计算得到的每个样本的各个分类器叶子结点上的值作为该样本的预测值。

S56：将S55中计算的每个样本预测值与真实值对比，计算出整个系统的误差，并通过贝叶斯优化方式，调节梯度提升树的超参数，使整个系统的误差最小化，至此，训练过程结束。

利用验证集对梯度提升树的参数进行调节，找出最优参数，调参方法采用贝叶斯优化。使用贝叶斯定理估计目标函数的后验分布，然后再根据分布选择下一个采样的超参数组合，通过不断地添加样本点来更新目标函数的后验分布，直到后验分布基本贴合真实分布。

3.2使用标注好的训练数据分别训练所述多个预流失预测模型，并对训练完成后的多个预流失预测模型进行测试，选取测试效果最好的M个预流失预测模型，并将M个预流失预测模型进行多模型加权融合，得到以所述M个预流失预测模型的预测结果加权融合值为输出的最优预流失预测模型，其中，N大于M。

其中，所述测试效果的评价标准包括precision和recall两个指标，所述M为3，所述多模型加权融合的比例为5∶3∶2；其中，权值为5成的模型为测试中precision指标达标且recall 指标最优的模型；权值为2成的模型为测试中recall指标达标且precision指标最优的模型。

这里，区分了有高活未流失、低活未流失、预流失(高活流失+低活流失)三种样本下的 precision和recall两个指标，测试效果以预流失样本的recall为主，需要兼顾precision，比如上述N个模型中如果预流失样本的recall召回率达到0.8，且预流失样本的precision 准确率达到0.7，那么该模型就作为M个加权模型的备选，根据实验结果，这里选择了鲁棒性与效果均满足条件的XGB、LGBM、RF三种。

XGB、LGBM、RF各个子模型都是网格搜索参数寻优后的最佳，权重简单按照5∶3∶2的情况分配，其中5成是测试集预流失样本precision指标达标且recall指标最优的模型，根据实验结果，这里选择的是XGB，2成是测试集预流失样本recall指标达标且precision指标最优的模型，这里选择的是RF。所以最终属于某个类别(比如预流失)的分类概率P满足：

P＝P_xgb*0.5+P_lgbm*0.3+P_rf*0.2。

在优选方案中，根据业务方需要一个比较直观的流失度衡量标准，除了概率P我们还提供了一套score的评分机制，借鉴了金融大数据信用卡评分模型，以600为基础分值，将模型的概率输出，非线性量化为600上下的标准评分卡，得分越高流失概率越大。

由于模型输出一般为概率值，Predict1、Predict2、Predict3的结果，这里参考非线性映射处理方式，采用金融领域的信用卡评分机制为每一个模型输出结果，转化为得分，再做加权融合。

四、预测应用：

将所述待预测用户的关键特征指标输入到最优预流失预测模型中，得到待预测用户的预流失预测结果。

定期对所述最优预流失预测模型进行验证，并计算所述最优预流失预测模型的准确率，当所述准确率低于预设的准确率阈值，调整所述最优预流失预测模型的加权系数/训练参数/ 模型超参数。

对所述高活预流失、低活预流失用户施加干预措施，并在预设周期内对所述高活预流失、低活预流失用户实施预流失预测跟进，判断所述干预措施在预设周期内的效果，若在预设周期内的效果差，则变更干预措施的种类，再次对所述高活预流失、低活预流失用户进行干预。其中，干预措施包括经验值奖励、优惠券奖励、签到礼品奖励等。

涉及到模型加权系数/训练参数/模型超参数调整的部分，都出现在回调闭环，触发的条件在于走跟踪闭环后，发现预测效果不佳、干预效果也不佳。至于效果的量化方案，如下：

(1)预测效果：AB干预实验发现，400分以上实验玩家，观察组B流失人数/观察组B总人数的比例<70％时，说明不增加干预的条件下，预测为流失的玩家中有超过30％比例未来并未出现流失，判定预测效果不佳；

(2)干预效果：AB干预实验发现，400分以上实验玩家，观察组B流失人数/观察组B总人数的比例>＝70％，且同分段区间的实验组A流失人数/实验组A总人数的比例<＝25％时，说明流失预测效果达标的条件下，干预措施将流失概率降低至25％以下，判定干预效果有效。

实施例三：

实施例三是实施例一的优选实施例，其与实施例一的不同之处在于，对用户预流失预测系统的具体结构进行了细化，包括以下步骤：

在本实施例中公开了一种用户预流失预测系统，应用于游戏用户预流失预测领域，包括以下模块：

1)数据采集模块：按图1所示的方法，使SDK接入某款游戏，实时采集用户3方面行为信息-登录相关、充值相关、用户基本画像相关，但是涉及代理无游戏内部关卡、任务等行为；

SDK对于游戏来说，就是集成了以注册、登录和支付为核心功能的文档、范例、工具和API的集合，也叫渠道游戏包。已接入渠道SDK的游戏，当某位游戏玩家在提交注册、登录、充值请求时都会拉起SDK的相关接口，并记录玩家的相关行为信息。某些游戏打包之后的SDK，还能获取到玩家的个人数据信息，可形成基本的用户画像。

2)用户细分模块：根据用户登录、充值、基本画像的数据信息对游戏玩家做精细化区分；

通过采集后的玩家行为分析、玩家画像构建，对所有玩家做细分实现精细化运营与建模。刻画用户模型的关键，在于维度指标的选择，以形成一套标签体系，我们这里根据业务场景，选择画像端用户属性、登录次数统计项阈值、在线时长统计项阈值、充值次数&金额统计项阈值做为标签细化的切入点，比如：

√画像端用户属性：考虑性别、年龄、学历、工作情况

√登录次数统计项阈值：

√在线时长统计项阈值：

√充值次数统计项阈值：

√充值金额统计项阈值：

3)时间窗口模块：时间序列自动化寻址观察点，观察点之前是观察窗口，用于提取特征X信息，观察点之后是表现窗口，用于提取目标Y信息，Y代表流失0-1与否，业务上用连续3天不登录来体现；

观察点的寻找根据业务以未来3天、未来7天、未来15天三种情况为考虑，时间太长一般流失的概率越大，预测准确性较高但预测的意义会打折扣；时间太短偶然性因素更多，预测的准确性不太有保障。因此，具体怎么选择，这里采用二分法思路，首先窗口选址为7天建模和预测，跟踪干预加持后如果发现效果不佳，再走回调闭环模块，...，最后逐渐逼近最佳的窗口时间节点，伪代码如下：

4)特征工程模块：包括特征提取、特征选择、特征处理三部分，其中指标提取采用固定模式的多个统计项，指标选择采用3种相关性系数以及集成梯度IG对比使用，指标处理涉及 onehot量化、分箱量化、标准量化3种方式；

4.1)每个时间窗口的样本数据，可根据上述细分维度，提取特征项指标。这里提取了如下表所示的23项特征字段：

4.2)特征字段并不是所有都对所要预测的目标项有影响，业务上需要找到相关性较强的特征进入模型，即需要做特征选择。方法采用最佳的集成梯度IG算法，具体排序关系如下表：

特征变量	相关性值(取绝对值)
		get_avg_login_num	0.072
get_avg_online_time	0.088
		get_std_login_num	0.023
get_std_online_time	0.035
		get_last_login_num	0.059
get_last_online_time	0.068
		is_low_act_login	0.040
is_low_act_online	0.052
		is_pay	0.035
get_avg_pay_num	0.014
		get_avg_pay_money	0.025
get_total_pay_money	0.046
		get_last_pay_day	0.031
get_last_pay_num	0.014
		get_last_pay_money	0.022
get_login_ratio	0.032
		get_online_ratio	0.029
get_pay_num_ratio	0.012
		get_pay_money_ratio	0.018
get_gender	0.05
		get_age_region	0.07
get_record	0.01以下(缺失较多)
		get_job_style	0.02以下(缺失较多)
get_region	0.04

由上可知，IG集成梯度有典型的控制变量的思想在里面，它计算了主因素对目标边际影响的同时，还考虑到了其他因素最优化取值的组合，相比传统单因素相关性分析，在做特征选择时，更有说服力。

4.3)特征处理

5)建模模块：包括SVM、LGBM、XGB、RF、DNN共5种模型的实验与选型，选型时采用同样的数据、同样的特征，分别对上述5种模型的训练、测试、验证过程，自动化匹配最佳；

其中，SVM、LGBM、XGB、RF、DNN共5种模型的训练过程参数如图2所示。

√数据量：2500W

√样本量：230W(正负1∶3)

√特征量(选择)：12

√模型量(对比)：SVM、LGBM、XGB、RF、DNN五种

√主要指标(要求)：Recall流失召回>0.8，Precision流失精度>0.7

6)预测模块：根据该款游戏建模选型的最佳模型，对该款游戏近期高、低活跃所有玩家做预流失预测，并依赖我们自己的评分机制进行打分；

预测模块采用多模型加权融合的策略，选择预流失建模表现较好的3个模型，根据线上得分进行加权融合，提高性能、降低损失。其中，多模型加权融合示意图如图3所示；

7)干预模块：如图4所示，以打分结果为依据，对流失得分阈值以上的玩家实施差异化的干预AB实验对照，同分段区间的预流失用户等分为A、B两组，一组干预一组不干预，分段区间越高干预力度越大，干预手段体现在经验等级、优惠券等营销手段；

分段区间设置为[100,200]、[200,300]、[300,400]、[400,500]、[500,600]，其中400 分以上的玩家，基本认为就有一定的流失倾向了，此时运营业务上一般会考虑挽留干预方面的措施，措施一般有经验值奖励、优惠券奖励、签到礼品奖励等等，但是不同得分高低，措施力度肯定会有所区别。为了同时检验预流失预测的效果，以及挽留措施的干预效果，这里采用AB测试，400分以上同分组区间的玩家为一个小组，以是否采取干预措施为唯一差异因素，理想的实验效果为：

实验组1：因为施加了干预措施，玩家在未来一段时间里没有或者很少出现低活、流失的情况；

对照组2：因为没有施加干预措施，而模型预测流失风险又比较高，玩家在未来一段时间里大概率出现低活、流失的情况；

8)跟踪闭环模块：如图5所示，干预开始后一定周期内，回到第4步骤，对同组的干预 /未干预对象做实时的预流失预测跟进，对比反馈预测及干预效果；

9)回调闭环模块：如图6所示，干预开始后一定周期内，发现预测与干预效果不佳时，回到第2步骤重新调整建模过程，并尝试新的干预手段。

实施例四：

在优选方案中，还包括了与所述模型构建模块连接的干预模块，所述干预模块包括模型干预模块以及措施干预模块；

所述模型干预模块用于定期对所述最优预流失预测模型进行验证，并计算所述最优预流失预测模型的准确率，当所述准确率低于预设的准确率阈值，调整所述最优预流失预测模型的加权系数/训练参数/模型超参数；

所述措施干预模块用于对所述最优预流失预测模型预测出的高活预流失、低活预流失用户施加干预措施，并在预设周期内对所述高活预流失、低活预流失用户实施预流失预测跟进，判断所述干预措施在预设周期内的效果，若在预设周期内的效果差，则变更干预措施的种类，再次对所述高活预流失、低活预流失用户进行干预。

综上所述，本技术方案通过采用了建模预测加干预反馈的闭环自适应调整结构，模拟神经网络的学习思路，基本实现了半自动化的分析流程，即前向通过流失模型建模选型，并输出分析预测结果；中间通过干预手段加持流失预防；反向通过反馈模型的预测结果、中间干预结果，更新建模、更新干预过程；能大大节省了人力成本、时间成本，提高了不同游戏分析适配的统一性、扩展性，准确性、提高了分析效率，业务上提高了对预流失用户的发现嗅觉与预防能力。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用户预流失预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的用户预流失预测方法，其特征在于，从用户的登录信息、充值信息以及基本画像信息中筛选出与所述用户预流失强相关的关键特征指标通过IG集成梯度相关算法实现。

3.根据权利要求1所述的用户预流失预测方法，其特征在于，所述关键特征指标包括：平均每天登录次数、平均每天在线时长、登录次数标准差、在线时长标准差、距离最近一次的登录次数、距离最近一次的在线时长、连续3天每天登录次数是否低于或等于3次、连续3天每天在线时长是否低于或等于0.5小时、是否充值、平均每天充值次数、平均每天充值金额、总充值金额、最近一次充值的距离天数/滑动窗口、最近一次充值的次数、最近一次充值的金额、登录次数上下行的拟合斜率、在线时长上下行的拟合斜率、充值次数上下行的拟合斜率、充值金额上下行的拟合斜率、性别、年龄区间、学历、工作类型/性质以及地域。

4.根据权利要求1所述的用户预流失预测方法，其特征在于，训练数据的标注类别包括高活预流失、高活未流失、低活预流失、低活未流失，对训练数据集中的每条训练数据进行标注包括以下步骤：

对于任一用户A的任意一条训练数据a，获取所述用户A在训练数据a生成之前预设时段的关键特征数据，并判断所述用户A在训练数据a生成之前的活跃度类别，基于所述用户A在训练数据a生成之前的活跃度类别确定所述训练数据a的标注类别，其中，所述用户A在训练数据a生成之前的活跃度类别的判定规则以及对应的预流失判定规则如下表所示：

5.根据权利要求2所述的用户预流失预测方法，其特征在于，所述用户预流失的应用领域为游戏领域，选取N个预流失预测模型的类别包括：SVM、LGBM、XGB、RF、DNN；所述测试效果的评价标准包括precision和recall两个指标，所述M为3，所述多模型加权融合的比例为5:3:2；其中，权值为5成的模型为测试中precision指标达标且recall指标最优的模型；权值为2成的模型为测试中recall指标达标且precision指标最优的模型。

6.根据权利要求5所述的用户预流失预测方法，其特征在于，将M个预流失预测模型进行多模型加权融合前，还包括以下步骤：

7.根据权利要求6所述的用户预流失预测方法，其特征在于，得到待预测用户的预流失预测结果后，还包括以下步骤：

定期对所述最优预流失预测模型进行验证，并计算所述最优预流失预测模型的准确率，当所述准确率低于预设的准确率阈值，调整所述最优预流失预测模型的加权系数/训练参数/模型超参数；

在得到待预测用户的预流失预测结果后，还包括以下步骤：

对所述高活预流失、低活预流失用户施加干预措施，并在预设周期内对所述高活预流失、低活预流失用户实施预流失预测跟进，判断所述干预措施在预设周期内的效果，若在预设周期内的效果差，则变更干预措施的种类，再次对所述高活预流失、低活预流失用户进行干预。

8.一种用户预流失预测装置，其特征在于，包括：特征提取模块、训练集构建模块以及模型构建模块，所述特征提取模块、训练集构建模块以及模型构建模块依次连接；

所述模型构建模块：用于根据用户预流失的应用领域的特性选取N个基于机器学习的预流失预测模型，并从所述训练集构建模块中获取标注好的训练数据，并使用标注好的训练数据分别训练所述多个预流失预测模型，并对训练完成后的N个预流失预测模型进行测试，选取测试效果最好的M个预流失预测模型，并将M个预流失预测模型进行多模型加权融合，得到以所述M个预流失预测模型的预测结果加权融合值为输出的最优预流失预测模型，其中，N大于M；并获取待预测用户的关键特征指标，并将所述待预测用户的关键特征指标输入到最优预流失预测模型中，得到待预测用户的预流失预测结果。

9.根据权利要求8所述的用户预流失预测装置，其特征在于，还包括与所述模型构建模块连接的干预模块，所述干预模块包括模型干预模块以及措施干预模块；

10.一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至7任一所述方法的步骤。