CN111311338A

CN111311338A - 用户价值的预测方法以及用户价值预测模型的训练方法

Info

Publication number: CN111311338A
Application number: CN202010240580.7A
Authority: CN
Inventors: 陈麒旦
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-06-19

Abstract

本申请提供了一种用户价值的预测方法以及用户价值预测模型的训练方法，预测方法包括：获取待预测用户在新增期的行为特征数据；将行为特征数据作为多类预测模型的输入，获得多类预测模型的价值预测结果；将多类预测模型的价值预测结果作为分类模型的输入，获得分类模型输出的待预测用户的未来价值。本申请实施例提供的技术方案，在用户成为高价值用户之前可以及时挖掘出潜在的高价值用户，提高了用户价值预测的准确性和及时性。

Description

用户价值的预测方法以及用户价值预测模型的训练方法

技术领域

本申请涉及数据处理技术领域，特别涉及一种用户价值的预测方法以装置、用户价值预测模型的训练方法及装置、电子设备、计算机可读存储介质。

背景技术

随着计算机技术的快速发展，网上购物、网络游戏等网络消费产品得到了快速发展，用户在网络上的消费行为也呈现出迅速增长的趋势。对于一款产品，为获得用户的认可，对用户行为进行分析是其中一种重要的手段，尤其是那些能够为产品开发商提供盈利的高价值用户，通过给高价值用户提供专业的运营服务，可以提高高价值用户的留存率。

现有对高价值用户的预测方案，是基于高价值用户的基础数据和充值付费数据进行建模，然后对新预测数据，按照数据预处理流程进行处理后输入模型完成预测。

但是该方案主要针对高价值用户的特征进行建模，故高价值用户可能在未被发掘其高价值潜力之前就流失，从而无法及时发现高价值的潜在客户，无法达到提前预测的效果。

发明内容

本申请实施例提供了一种用户价值的预测方法，用以及时发现高价值的潜在客户。

本申请实施例提供了一种用户价值的预测方法，包括：

获取待预测用户在新增期的行为特征数据；

将所述行为特征数据作为多类预测模型的输入，获得多类预测模型的价值预测结果；所述新增期为用户首次参与的预设时间段内；

将所述多类预测模型的价值预测结果作为分类模型的输入，获得所述分类模型输出的所述待预测用户的未来价值；所述未来价值用于指示所述待预测用户之后是否可能是高价值用户；

其中，所述分类模型用于判断所述待预测用户是否为高价值用户，所述多类预测模型是所述分类模型输出的结果最准确时对应采用的多类预测模型。

在一实施例中，所述多类预测模型包括Xgboost模型、Lightgbm模型以及Catboost模型中的至少两个。

在一实施例中，所述获取待预测用户在新增期的行为特征数据之后，所述方法还包括：

根据所述行为特征数据中已有的特征值，通过已训练的特征填补模型预测所述行为特征数据中缺失的特征值。

在一实施例中，在将所述行为特征数据作为多类预测模型的输入，获得多类预测模型的价值预测结果之前，所述方法还包括：

获取已知未来价值的样本用户集，并将所述样本用户集中样本用户在新增期的行为特征数据作为训练数据集；

利用所述训练数据集对多类预测算法进行训练，获得所述多类预测模型。

在一实施例中，所述利用所述训练数据集对多类预测算法进行训练，确定所述多类预测模型，包括：

每次从所述训练数据集中提取不同的训练集，利用所述训练集对多类预测算法进行训练，反复多次得到使用不同训练集时多类预测算法对应的候选模型组合；

从不同训练集对应的多组候选模型组合中选取最优的候选模型组合，得到多类预测算法对应的多类预测模型。

在一实施例中，所述从不同训练集对应的多组候选模型组合中选取最优的候选模型组合，得到多类预测算法对应的多类预测模型之后，所述方法还包括：

将所述训练数据集中样本用户的行为特征数据作为输入，通过不同训练集对应的多组候选模型组合计算得到所述样本用户的预测结果组合；

根据每个样本用户对应的预测结果组合以及所述样本用户对应的已知未来价值，训练所述分类模型。

在一实施例中，所述从不同训练集对应的多组候选模型组合中选取最优的候选模型组合，得到多类预测算法对应的多类预测模型，包括：

将提取训练集后剩余的样本数据作为所述训练集对应的候选模型组合的输入，组合所述候选模型组合的输出，得到所述样本数据的特征组合；

将所述样本数据的特征组合作为所述分类模型的输入，得到所述样本数据的价值测试结果；

根据不同训练集时样本数据对应的价值测试结果以及所述样本数据的已知未来价值，选取最优价值测试结果对应的候选模型组合，得到多类预测算法对应的多类预测模型。

在一实施例中，在得到所述训练数据集之后，所述方法还包括：

在所述训练数据集中查找所述行为特征数据的极端异常值，并通过临界数据替换所述极端异常值。

统计所述训练数据集中每种特征的特征值缺失比例，删除所述特征值缺失比例大于阈值的特征；

针对所述训练数据集中剩余的特征，填补所述剩余的特征缺失的特征值。

在一实施例中，所述针对所述训练数据集中剩余的特征，填补所述剩余的特征缺失的特征值，包括：

通过未缺失特征值的样本数据进行特征填补模型的训练；

根据所述剩余的特征未缺失的特征值，采用训练的所述特征填补模型预测所述剩余的特征缺失的特征值。

在一实施例中，所述根据所述剩余的特征未缺失的特征值，采用训练的所述特征填补模型预测所述剩余的特征缺失的特征值，包括：

根据所述剩余的特征中不同特征的特征值缺失比例，按照所述特征值缺失比例由少到多对所述剩余的特征进行排序；

依次针对每个剩余的特征，根据所述特征未缺失的特征值，采用训练的所述特征填补模型预测所述特征缺失的特征值。

根据所述训练数据集中小类样本的分布，进行小类样本的数据扩增。

另一方面，本申请实施例还提供了一种用户价值预测模型的训练方法，包括：

根据每个样本用户对应的预测结果组合以及所述样本用户对应的已知未来价值，训练分类模型；

将提取训练集后剩余的样本数据作为所述训练集对应的候选模型组合的输入，根据所述分类模型输出的价值测试结果，选取最优价值测试结果对应的候选模型组合，得到多类预测算法对应的多类预测模型。

此外，本申请实施例还提供了一种用户价值的预测装置，包括：

数据获取模块，用于获取待预测用户在新增期的行为特征数据；所述新增期为用户首次参与的预设时间段内；

价值预测模块，用于将所述行为特征数据作为多类预测模型的输入，获得多类预测模型的价值预测结果；

价值输出模块，用于将所述多类预测模型的价值预测结果作为分类模型的输入，获得所述分类模型输出的所述待预测用户的未来价值；所述未来价值用于指示所述待预测用户之后是否可能是高价值用户；

进一步的，本申请实施例还提供了一种用户价值预测模型的训练装置，包括：

训练集获取模块，用于获取已知未来价值的样本用户集，并将所述样本用户集中样本用户在新增期的行为特征数据作为训练数据集；所述新增期为用户首次参与的预设时间段内；

预测模型训练模块，用于每次从所述训练数据集中提取不同的训练集，利用所述训练集对多类预测算法进行训练，反复多次得到使用不同训练集时多类预测算法对应的候选模型组合；

预测结果组合模块，用于将所述训练数据集中样本用户的行为特征数据作为输入，通过不同训练集对应的多组候选模型组合计算得到所述样本用户的预测结果组合；

分类模型训练模块，用于根据每个样本用户对应的预测结果组合以及所述样本用户对应的已知未来价值，训练分类模型；

预测模型筛选模块，用于将提取训练集后剩余的样本数据作为所述训练集对应的候选模型组合的输入，根据所述分类模型输出的价值测试结果，选取最优价值测试结果对应的候选模型组合，得到多类预测算法对应的多类预测模型。

进一步的，本申请实施例还提供了一种电子设备，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述用户价值的预测方法或者上述用户价值预测模型的训练方法。

另外，本申请实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序可由处理器执行以完成上述用户价值的预测方法或者上述用户价值预测模型的训练方法。

本申请上述实施例提供的技术方案，可以基于用户在新增期的行为特征数据预测用户的未来价值，从而在用户成为高价值用户之前可以及时挖掘出潜在的高价值用户，提高了用户价值预测的准确性和及时性，通过分类模型融合多个预测模型的价值预测结果得到最终预测结果，提高了预测的准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍。

图1是本申请实施例提供的用户价值的预测方法的应用场景示意图；

图2为本申请实施例提供的用户价值预测模型的训练方法的流程示意图；

图3为本申请实施例提供的小类样本扩增的原理示意图；

图4为本申请实施例提供的一种用户价值的预测方法的流程示意图；

图5为图4对应实施例的基础上多类预测模型的训练流程示意图；

图6是图5对应实施例中步骤520的细节流程图；

图7为本申请一实施例示出的用户价值的预测装置的框图；

图8为本申请一实施例示出的用户价值预测模型的训练装置的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

图1是本申请实施例提供的用户价值的预测方法的应用场景示意图。如图1所示，该应用场景包括服务端110。该服务端110可以是服务器、服务器集群或者云计算中心。服务端110可以获取本地存储的待预测用户在新增期的行为特征数据，并采用本申请实施例提供的用户价值的预测方法，预测该用户的未来价值。

以游戏玩家为例，新增期可以是用户首次加入游戏的预设时间段内，例如24小时内。新增期可以认为是玩家的新手期，根据游戏复杂度不同，新手期的时间可以适当延长或缩短。

待预测用户的未来价值是指待预测用户以后是高价值用户还是非高价值用户。以游戏领域举例来说，在新增一个月后充值金额超过预设金额的，可以认为是高价值用户，反之为非高价值用户。故本申请实施例提供的技术方案，基于用户在新增期内的行为特征数据，可以预测用户在未来是否是高价值用户。

根据需要，在预测出高价值用户后，可以定制个性化服务：对预测到的高价值用户进行专门服务和活动推送；及时了解用户在所提供的网络产品中遇到的困难和问题并进行帮助，以进一步优化用户体验；推送特定高价值商城礼包等。

在一实施例中，上述应用场景还可以包括客户端120，客户端可以是游戏软件应用程序，客户端120可以向服务端110发送待预测用户在新增期的行为特征数据，从而由服务端110采用本申请实施例提供的方法预测该用户的未来价值。

本申请还提供了一种电子设备。该电子设备可以是图1所示的服务端110。如图1所示，服务端110可以包括处理器111和用于存储处理器111可执行指令的存储器112；其中，该处理器111可以被配置为执行本申请实施例提供的用户价值的预测方法，还可以被配置为执行本申请实施例提供的用户价值预测模型的训练方法。

存储器112可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory，简称EPROM)，可编程只读存储器(Programmable Red-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请还提供了一种计算机可读存储介质，存储介质存储有计算机程序，计算机程序可由处理器111执行以完成本申请实施例提供的用户价值的预测方法或者完成本申请实施例提供的用户价值预测模型的训练方法。

图2为本申请实施例提供的用户价值预测模型的训练方法的流程示意图。该方法可以由服务端执行，如图2所示，该方法包括以下步骤S210-步骤S250。

在步骤S210中，获取已知未来价值的样本用户集，并将所述样本用户集中样本用户在新增期的行为特征数据作为训练数据集。

其中，行为特征数据是指样本用户在新增期内各种行为的数据表现。行为特征数据可以包括分类特征和数值特征，分类特征的特征取值不存在数值大小上的含义，仅有类别上的区别。分类特征可以包括：游戏玩家新增24小时内的过图信息和新手引导信息。例如，分类特征可以包括玩家进入次数最多的地图编号以及玩家活跃最长时间的地图编号等。数值特征的特征值存在数值差异，数值特征可以包括玩家新增24小时内的死亡信息，例如玩家新增24小时内的死亡次数；数值特征可以包括玩家新增24小时内的交易信息，例如玩家新增24小时内通过玩家交易获得的金币数量、玩家新增24小时内交易笔数以及玩家新增24小时内交易对手方数量等。

在一实施例中，数值特征可以包括：角色(玩家游戏中创建的虚拟对象)新增24小时内在线时长、角色新增24小时内充值金额、角色新增24小时内最大等级、角色新增24小时内登录次数、角色新增24小时内登出次数、角色新增24小时内平均登录在线时长、角色新增24小时内死亡次数、角色新增24小时内击杀游戏怪物次数、角色新增24小时内接受任务次数、角色新增24小时内完成任务次数、角色新增24小时内完成任务平均花费时间、角色新增24小时内完成任务花费时间中位数、角色新增24小时内聊天次数、角色新增24小时内添加好友数、角色新增24小时内解除好友数、角色新增24小时内好友数最大值、角色新增24小时内组队次数。

样本用户是指已知未来价值的用户，即已知样本用户是高价值用户还是非高价值用户。在一实施例中，基于预设的高价值用户付费金额门槛，对新增30天内付费金额超过该付费金额门槛的用户标记为“1”，即为高价值用户，对于付费金额小于该付费金额门槛的玩家标记为“0”，即为非高价值用户。大量样本用户在新增期的行为特征数据可以构成训练数据集。

在一实施例中，为提高训练模型的准确性，可以进一步对训练数据集进行预处理，利用预处理后的训练数据集进行训练。具体预处理方式，详见下文。

在步骤S220中，每次从所述训练数据集中提取不同的训练集，利用所述训练集对多类预测算法进行训练，反复多次得到使用不同训练集时多类预测算法对应的候选模型组合。

多类预测算法是指至少两类，在一实施例中，多类预测算法可以包括Catboost算法、Xgboost算法、LightGBM算法。下面以Catboost算法、Xgboost算法、LightGBM算法为例，说明训练过程，其他算法可以采用同样的训练过程。

在一实施例中，可以将训练数据集分为K份样本数据，依次标记为样本数据1、样本数据2……样本数据K。

将样本数据1作为测试数据，利用剩余K-1份数据作为训练集对Catboost算法、Xgboost算法、LightGBM算法进行训练，相应得到C1模型、X1模型和L1模型。样本数据1对应的C1模型(代表Catboost算法训练的模型)、X1模型(代表Xgboost算法训练的模型)和L1模型(代表LightGBM算法)可以认为是第一组候选模型组合。

将样本数据2作为测试数据，利用K-1份数据作为训练集对Catboost算法、Xgboost算法、LightGBM算法进行训练，相应得到C2模型、X2模型和L2模型。样本数据2对应的C2模型、X2模型和L2模型可以认为是第二组候选模型组合。

以此反复K次，可以得到K组候选模型组合。针对每种预测算法，由于每次采用不同的训练集进行训练，训练过程中调整不同的模型参数，故一种预测算法可以训练得到K个模型，为进行区分，此处称为候选模型。同一训练集时，不同预测算法训练得到的候选模型，构成候选模型组合。

在一实施例中，对于Xgboost算法、LightGBM算法的训练，可以先将行为特征数据中的分类特征进行独热编码，然后将独热编码后的分类特征与数值特征进行合并作为算法的输入，调整算法的参数，使算法的输出尽可能接近训练集中样本用户的已知未来价值。

在步骤S230中，将所述训练数据集中样本用户的行为特征数据作为输入，通过不同训练集对应的多组候选模型组合计算得到所述样本用户的预测结果组合。

假设K为30，在一实施例中，Catboost算法经,30次训练，可以得到不同参数下的30个模型，Xgboost算法经过30次训练，也可以得到不同参数下的30个模型、LightGBM算法经过30次训练，得到不同参数下的30个模型。

将一个样本用户的行为特征数据作为上述90个模型的输入，可以得到90个模型的输出。每个模型会输出其对该样本的预测结果，该结果为取值在0到1之间的概率值，结果越倾向于1则模型认为这个样本为高价值用户的可能性较高。90个模型的输出组合起来可以称为样本用户的预测结果组合。

同样，将第二个样本用户的行为特征数据作为上述90个模型的输入，可以得到90个模型的输出，90个模型的输出可以称为第二个样本用户的预测结果组合。

以此类推，可以计算出每个样本用户对应的预测结果组合。

在步骤S240中，根据每个样本用户对应的预测结果组合以及所述样本用户对应的已知未来价值，训练分类模型。

分类模型可以是逻辑回归模型。在一实施例中，预测结果组合包括90个维度数据，将每个样本用户的预测结果组合作为新的训练数据，将新的训练数据输入到逻辑回归模型进行二次训练，调整逻辑回归模型的参数，使逻辑回归模型输出的高价值样本用户的预测结果接近于1，非高价值样本用户对应的预测结果接近于0。

在步骤S250中，将提取训练集后剩余的样本数据作为所述训练集对应的候选模型组合的输入，根据所述分类模型输出的价值测试结果，选取最优价值测试结果对应的候选模型组合，得到多类预测算法对应的多类预测模型。

将样本数据1作为第一组候选模型组合(C1模型、X1模型、L1模型)的输入，将C1模型的输出、X1模型的输出以及L1模型的输出组合在一起，作为分类模型的输入，得到分类模型输出的样本数据1的价值测试结果。

将样本数据2作为第二组候选模型组合(C2模型、X2模型、L2模型)的输入，将C2模型的输出、X2模型的输出以及L2模型的输出组合在一起，作为分类模型的输入，得到分类模型输出的样本数据2的价值测试结果。

以此类推，可以计算出采用不同候选模型组合对应的样本数据的价值预测结果。由于样本数据的未来价值属于已知量，故可以选取样本数据的价值预测结果与样本数据的已知未来价值最接近的候选模型组合。

在一实施例中，模型优化目标为roc_auc函数，其中roc_auc函数为ROC(ReceiverOperating Characteristic)曲线下的面积，其体现模型对两类样本(高价值和非高价值)的预测准确性。

roc_auc函数的公式如下：

其中，M是指高价值样本用户的样本数，N是指非高价值样本用户的样本数。其计算逻辑为：将分类模型预测的概率值从高到低进行排序，其中排序第一位的样本用户得到rank值为M+N，排序最后一位的样本得到rank值为1。公式中rank请和部分即指所有实际为高价值用户的样本的rank值加和。故可以选择使AUC值最大的候选模型组合，作为后续待预测用户的价值预测模型。

本申请实施例提供的技术方案，利用样本用户在新增期的行为特征数据进行训练，便于在用户新增初期，及时判别用户的未来价值，缩短高价值用户判别周期，提高判别准确性。通过将不同模型的预测结果进行组合并再次训练，可以有效提高模型预测准确性。

在一实施例中，对训练数据集进行预处理的方式可以包括：在训练数据集中查找所述行为特征数据的极端异常值，并通过临界数据替换所述极端异常值。

其中，极端异常值是指超过特征取值均值的三倍标准差的特征值。临界数据可以是特征取值均值的三倍标准差。行为特征数据可以包括多种不同特征，不同特征可以有不同的特征取值均值。可以对每种特征进行极端值异常值统计，对于该特征下的极端异常值采用该特征对应的临界数据进行填补。从而减小训练数据集的存在的异常数据，提高训练模型的准确性。

在一实施例中，对训练数据集进行预处理的方式可以包括：统计所述训练数据集中每种特征的特征值缺失比例，删除所述特征值缺失比例大于阈值的特征；针对所述训练数据集中剩余的特征，填补所述剩余的特征缺失的特征值。

其中，阈值可以是50％，对于每种特征进行特征值缺失比例的统计，如果某个特征的特征值缺失比例大于50％，则删除该特征。举例来说，某个特征“角色新增24小时内解除好友数”，如果超过50％的样本用户均缺失该特征的特征值，可以认为利用该特征进行建模的没有代表性，故可以删除该特征。

对于剩余的特征，可以依据特征值缺失比例依次由少到多进行排序，并按照排序结果，优先填补特征值缺失比例较少的特征的缺失值(即缺失的特征值)。

在一实施例中，填补缺失的特征值可以采用以下方式：通过未缺失特征值的样本数据进行特征填补模型的训练；根据剩余的特征未缺失的特征值，采用训练的所述特征填补模型预测所述剩余的特征缺失的特征值。

其中，特征值填补模型可以是xgboostregressor模型。对于存在特征值缺失，需要进行填补的特征，可以训练针对该特征的特征填补模型。针对不同的特征，可以训练不同的特征填补模型。例如，某个特征A的特征填补模型的训练可以通过未缺失特征值的样本数据，利用样本数据中未缺失特征的特征值作为自变量，将特征A的特征值作为目标变量，训练特征A的特征填补模型。在训练完成之后，假设某个样本用户的特征A的特征值缺失，可以将该样本用户其他未缺失的特征的特征值作为特征填补模型的输入，特征填补模型的输出即为预测出的特征A缺失的特征值。

由此，按照特征值缺失比例由少到多，可以先训练特征值缺失比例较少的特征对应的特征填补模型，并利用该特征填补模型根据样本用户未缺失的特征值，预测缺失的特征值进行填补。在填补完特征值缺失比例较少的特征的特征值之后，继续按照特征值缺失比例由少到多对其他特征缺失的特征值进行填补。

通常，高价值用户数量稀少，主体仍以非高价值用户构成，存在高价值用户和非高价值用户的比例不平衡的情况。在一实施例中，对训练数据集进行预处理的方式可以包括：根据所述训练数据集中小类样本的分布，进行小类样本的数据扩增。

其中，小类样本是指高价值样本用户的行为特征数据。进行小类样本的数据扩增是指基于高价值用户的行为特征数据的分布以及非高价值用户的行为特征数据的分布，使用SMOTE(Synthetic Minority Oversampling Technique)算法实现高价值用户样本量的扩增，依据具体数据样本情况，可将高价值用户的样本数据扩增至5倍、10倍或者50倍，扩增后结果，满足高价值用户的样本数据和非高价值用户的样本数据比例为1:1。其中SMOTE算法其基本逻辑为，依据两类样本数据分布的不同，在小类样本间生成新的小类样本，在大类样本间不生成新的小类样本。

如图3所示，以二维数据进行SMOTE算法解释，其中标星号部分为小类样本，在本实施例中即指高价值用户，标圆部分为大类样本，即指非高价值用户，SMOTE算法即是依据小类样本和大类样本的数据分布情况，确定小类样本分布较为密集的区域，然后在小类样本分布之间生成新的小类样本，即图中标正方形样本，对于小类样本较少的区域则不生成新样本，通过这一方式实现小类样本的扩增。

图4为本申请实施例提供的一种用户价值的预测方法的流程示意图。该方法可以由服务端110执行，如图4所示，该方法可以包括以下步骤S410-S430。

在步骤S410中，获取待预测用户在新增期的行为特征数据。

待预测用户在新增期的行为特征数据可以参见上文样本用户在新增期的行为特征数据。本申请实施例基于待预测用户在新增期的行为特征数据预测该用户未来是否可能成为高价值用户。

在步骤S420中，将所述行为特征数据作为多类预测模型的输入，获得多类预测模型的价值预测结果。

其中，多类预测模型可以是至少两类，多类预测模型可以包括Xgboost模型、Lightgbm模型以及Catboost模型中的至少两个。多类预测模型可以根据上文实施例提供的用户价值预测模型的训练方法训练得到。

在一实施例中，多类预测模型可以是Xgboost模型、Lightgbm模型以及Catboost模型，待预测用户的行为特征数据可以分别输入这三种模型中，得到这三种模型对应的输出结果。价值预测结果是指模型的输出结果，即待预测用户未来是否是高价值用户的预测结果，价值预测结果可以用概率的形式表示，越接近于1，表示成为高价值用户的概率越大。越接近于0表示成为高价值用户的概率越低。

在步骤S430中，将所述多类预测模型的价值预测结果作为分类模型的输入，获得所述分类模型输出的所述待预测用户的未来价值。

在一实施例中，分类模型可以根据上文实施例提供的用户价值预测模型的训练方法训练得到。多类预测模型的价值预测结果可以是Xgboost模型、Lightgbm模型以及Catboost模型三种模型的价值预测结果。将三种模型的价值预测结果作为分类模型的输入，根据分类模型的输出得到待预测用户的未来价值。在一实施例中，分类模型输出的概率值大于0.5，则认为该待预测用户为高价值玩家，分类模型输出的概率值小于等于0.5则认为待预测用户为非高价值玩家。

本申请上述实施例提供的技术方案，可以基于用户在新增期的行为特征数据预测用户的未来价值，从而在用户成为高价值用户之前可以及时挖掘潜在的高价值用户，提高了用户价值预测的准确性和及时性，通过分类模型融合多个预测模型的价值预测结果得到最终预测结果，提高了预测的准确性。

在一实施例中，行为特征数据可以包括分类特征和数值特征。可以先对分类特征进行独热编码，然后与数值特征合并后，作为Xgboost模型和Lightgbm模型的输入，获得Xgboost模型输出的价值预测结果和Lightgbm模型输出的价值预测结果。

仍以玩家活跃最长时间的地图id(标识)这一分类特征为例，对分类特征进行独热编码可以采用以下方式：首先统计训练样本中所有玩家的活跃最长时间的地图id，假定统计结果共有10张地图，其id分别为10001-10010。则独热编码将原一列分类特征：玩家活跃最长时间的地图id，修改为十列特征，分别为玩家活跃最长时间的地图id是否为10001地图、玩家活跃最长时间的地图id是否为10002地图以及玩家活跃最长时间的地图id是否为10003地图等，对于这十列特征其取值只有0和1；0表示玩家活跃最长时间的地图id不是该地图id，1表示玩家活跃最长时间的地图id是该地图id，玩家只在其活跃最长时间的地图id的那列特征上取1，其余9列特征取0。最后将经过独热编码后的特征与数值特征进行合并。

Catboost模型可以处理分类特征因此可以不需要进行特殊处理。即将分类特征和数值特征直接合并即可。此处的分类特征形式以玩家活跃最长时间的地图id这一分类特征为例：其形式为一列特征数据，对于不同的新增玩家，其在该列特征上的取值即为该玩家新增24小时内活跃最长时间的地图id。

在一实施例中，假设用户行为特征数据中部分特征的特征值缺失，可以根据行为特征数据中未缺失的特征值，通过上文训练的缺失特征对应的特征填补模型，预测缺失的特征值。可以将未缺失的特征值作为特征填补模型的输入，输出结果作为缺失的特征值。

在一实施例中，在上述步骤420之前，本申请实施例提供的用户价值的预测方法还可以包括多类预测模型的训练步骤以及分类模型的训练步骤。

其中，如图5所示，多类预测模型的训练步骤包括：步骤S510，获取已知未来价值的样本用户集，并将所述样本用户集中样本用户在新增期的行为特征数据作为训练数据集；步骤S520，利用所述训练数据集对多类预测算法进行训练，获得所述多类预测模型。

其中，步骤S510可以参照上述步骤S210实现，根据需要，可以对训练数据集进行预处理，预处理方式可以参见上文，在此不再赘述。

在一实施例中，可以利用训练数据集对Catboost算法、Xgboost算法、LightGBM算法进行训练，从而得到Catboos模型、Xgboost模型、Xgboost模型，之后执行步骤420利用训练的这三个模型计算待预测用户的价值预测结果。

在其他实施例中，如图6所示，上述步骤S520可以包括：步骤S521，每次从所述训练数据集中提取不同的训练集，利用所述训练集对多类预测算法进行训练，反复多次得到使用不同训练集时多类预测算法对应的候选模型组合；步骤S522，从不同训练集对应的多组候选模型组合中选取最优的候选模型组合，得到多类预测算法对应的多类预测模型。

其中，步骤S521可以参照上述步骤S220实现。在一实施例中，针对不同训练集可以得到不同的候选模型组合，一个候选模型组合包括多类预测算法对应训练得到的多个模型，可以采用测试数据，测试每组候选模型组合中多个候选模型的预测准确性，选取多个候选模型整体准确性均较高的候选模型组合。在一实施例中，可以对每个候选模型的准确性高低进行打分，从而选择总分最高的候选模型组合。

在一实施例中，在步骤S522之后，本申请实施例提供的价值预测方法还包括：步骤S523，将所述训练数据集中样本用户的行为特征数据作为输入，通过不同训练集对应的多组候选模型组合计算得到所述样本用户的预测结果组合。步骤S524，根据每个样本用户对应的预测结果组合以及所述样本用户对应的已知未来价值，训练所述分类模型。

其中，步骤S523可以参照步骤S230实现，步骤S524可以参照步骤S240实现。在此不再赘述。

在其他实施例中，上述步骤S522可以包括以下步骤S5221-步骤S5223。

在步骤S5221中，将提取训练集后剩余的样本数据作为所述训练集对应的候选模型组合的输入，组合所述候选模型组合的输出，得到所述样本数据的特征组合。

在步骤S5222中，将所述样本数据的特征组合作为所述分类模型的输入，得到所述样本数据的价值测试结果；

在步骤S5223中，根据不同训练集时样本数据对应的价值测试结果以及所述样本数据的已知未来价值，选取最优价值测试结果对应的候选模型组合，得到多类预测算法对应的多类预测模型。

其中，上述步骤S5221-步骤S5223的实现过程，可以参见上文S250的描述。

下述为本申请装置实施例，可以用于执行本申请上述用户价值的预测方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请用户价值的预测方法实施例。

图7为本申请一实施例示出的用户价值的预测装置的框图。如图7所示，所述装置包括：数据获取模块710、价值预测模块720以及价值输出模块730。

数据获取模块710，用于获取待预测用户在新增期的行为特征数据；

价值预测模块720，用于将所述行为特征数据作为多类预测模型的输入，获得多类预测模型的价值预测结果；

价值输出模块730，用于将所述多类预测模型的价值预测结果作为分类模型的输入，获得所述分类模型输出的所述待预测用户的未来价值。

上述装置中各个模块的功能和作用的实现过程具体详见上述用户价值的预测方法中对应步骤的实现过程，在此不再赘述。

下述为本申请装置实施例，可以用于执行本申请上述用户价值预测模型的训练方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请用户价值预测模型的训练方法实施例。

图8为本申请一实施例示出的用户价值预测模型的训练装置的框图。如图8所示，所述装置包括：训练集获取模块810、预测模型训练模块820、预测结果组合模块830、分类模型训练模块840以及预测模型筛选模块850。

训练集获取模块810，用于获取已知未来价值的样本用户集，并将所述样本用户集中样本用户在新增期的行为特征数据作为训练数据集；

预测模型训练模块820，用于每次从所述训练数据集中提取不同的训练集，利用所述训练集对多类预测算法进行训练，反复多次得到使用不同训练集时多类预测算法对应的候选模型组合；

预测结果组合模块830，用于将所述训练数据集中样本用户的行为特征数据作为输入，通过不同训练集对应的多组候选模型组合计算得到所述样本用户的预测结果组合；

分类模型训练模块840，用于根据每个样本用户对应的预测结果组合以及所述样本用户对应的已知未来价值，训练分类模型；

预测模型筛选模块850，用于将提取训练集后剩余的样本数据作为所述训练集对应的候选模型组合的输入，根据所述分类模型输出的价值测试结果，选取最优价值测试结果对应的候选模型组合，得到多类预测算法对应的多类预测模型。

上述装置中各个模块的功能和作用的实现过程具体详见上述用户价值预测模型的训练方法中对应步骤的实现过程，在此不再赘述。

在本申请所提供的几个实施例中，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种用户价值的预测方法，其特征在于，包括：

获取待预测用户在新增期的行为特征数据；所述新增期为用户首次参与的预设时间段内；

将所述行为特征数据作为多类预测模型的输入，获得多类预测模型的价值预测结果；

2.根据权利要求1所述的方法，其特征在于，所述多类预测模型包括Xgboost模型、Lightgbm模型以及Catboost模型中的至少两个。

3.根据权利要求1所述的方法，其特征在于，所述获取待预测用户在新增期的行为特征数据之后，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，在将所述行为特征数据作为多类预测模型的输入，获得多类预测模型的价值预测结果之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述利用所述训练数据集对多类预测算法进行训练，确定所述多类预测模型，包括：

6.根据权利要求5所述的方法，其特征在于，所述从不同训练集对应的多组候选模型组合中选取最优的候选模型组合，得到多类预测算法对应的多类预测模型之后，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述从不同训练集对应的多组候选模型组合中选取最优的候选模型组合，得到多类预测算法对应的多类预测模型，包括：

8.根据权利要求4所述的方法，其特征在于，在得到所述训练数据集之后，所述方法还包括：

9.根据权利要求4所述的方法，其特征在于，在得到所述训练数据集之后，所述方法还包括：

10.根据权利要求9所述的方法，其特征在于，所述针对所述训练数据集中剩余的特征，填补所述剩余的特征缺失的特征值，包括：

通过未缺失特征值的样本数据进行特征填补模型的训练；

11.根据权利要求10所述的方法，其特征在于，所述根据所述剩余的特征未缺失的特征值，采用训练的所述特征填补模型预测所述剩余的特征缺失的特征值，包括：

12.根据权利要求4所述的方法，其特征在于，在得到所述训练数据集之后，所述方法还包括：

13.一种用户价值预测模型的训练方法，其特征在于，包括：

获取已知未来价值的样本用户集，并将所述样本用户集中样本用户在新增期的行为特征数据作为训练数据集；所述新增期为用户首次参与的预设时间段内；

14.一种用户价值的预测装置，其特征在于，包括：

15.一种用户价值预测模型的训练装置，其特征在于，包括：

16.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-12任意一项所述的用户价值的预测方法或者权利要求13所述的用户价值预测模型的训练方法。

17.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序可由处理器执行以完成权利要求1-12任意一项所述的用户价值的预测方法或者权利要求13所述的用户价值预测模型的训练方法。