CN111191860A

CN111191860A - 基于集成学习的预测方法、预测系统和可读存储介质

Info

Publication number: CN111191860A
Application number: CN202010288174.8A
Authority: CN
Inventors: 曹晓晓; 佟立兵; 白冬立
Original assignee: Beijing Hot Cloud Technology Co Ltd
Current assignee: Beijing Hot Cloud Technology Co Ltd
Priority date: 2020-04-14
Filing date: 2020-04-14
Publication date: 2020-05-22
Anticipated expiration: 2040-04-14
Also published as: CN111191860B

Abstract

本发明提供一种基于集成学习的预测方法、预测系统和可读存储介质，所述预测方法包括：对获取的至少一个用户的日志数据进行分析处理，确定至少一个用户中的目标用户的至少一个相关特征向量；将目标用户的至少一个相关特征向量分别输入至少一个预训练好的子模型中，相应地得到目标用户的至少一个训练结果子向量；将得到的至少一个训练结果子向量输入预训练好的集成学习模型中，得到目标用户的训练结果预测向量，从而得到目标用户的付费预测值；以及将目标用户的付费预测值与预设付费阈值进行对比，确定付费预测值大于或等于预设付费阈值的目标用户为高概率付费用户。通过本发明大大提高了预测目标用户的概率。

Description

基于集成学习的预测方法、预测系统和可读存储介质

技术领域

本发明涉及计算机领域，具体涉及一种基于集成学习的预测方法、预测系统和可读存储介质。

背景技术

当前，国内广告商买流量，通常是基于“人工经验”，筛选目标玩家。这种筛选目标玩家的方式在市场中沿用多年，在早期有着不错的成效。但是随着时间的推移，用“人工经验”筛选的目标玩家，从这些目标玩家中确定未来会付费的玩家的效果越来越低低，这从而说明基于“人工经验”的筛选策略在逐渐失效。例如：现有专利CN201811317641.4基于BP神经网络的游戏用户流失预测方法，基于BP神经网络的游戏用户流失预测方法，解决了现有的游戏用户流失严重，没有精细化地根据BP神经网络的方法预测游戏用户的流失的问题。尽管该专利申请中也采用了模型训练预测的方法，但是该申请并没有解决预测未来会付费的玩家的问题。因此需要一些新方法其能够帮助筛选出且预测出玩家中未来会付费的高概率玩家。

发明内容

为至少解决上述技术问题，提出了本发明的如下所述的多个方案。

具体地，根据本发明的第一方面，提供一种基于集成学习的预测方法，所述预测方法获取至少一个用户的日志数据，所述预测方法还包括：

对获取的至少一个用户的日志数据进行分析处理，确定所述至少一个用户中的目标用户的至少一个相关特征向量；

将所述目标用户的至少一个相关特征向量分别输入至少一个预训练好的子模型中，相应地得到所述目标用户的至少一个训练结果子向量；

将得到的所述至少一个训练结果子向量输入预训练好的集成学习模型中，得到所述目标用户的训练结果预测向量，并基于所述目标用户的训练结果预测向量，得到所述目标用户的付费预测值；以及

将所述目标用户的付费预测值与预设付费阈值进行对比，确定所述付费预测值大于或等于所述预设付费阈值的所述目标用户为高概率付费用户。

可选地，所述对获取的至少一个用户的日志数据进行分析处理，确定所述至少一个用户中的目标用户的至少一个相关特征向量，包括：

采用至少一种数据分析对获取的至少一个用户的日志数据进行分析处理，得到所述至少一个用户中的目标用户的原始数据；

在分析处理后，对所述目标用户的原始数据进行过滤和清洗，得到所述目标用户的真实数据；以及

对所述目标用户的真实数据进行特征处理，确定所述目标用户的至少一个相关特征向量。

可选地，所述对所述目标用户的真实数据进行特征处理，确定所述目标用户的至少一个相关特征向量，包括：

对所述目标用户的真实数据进行特征提取，得到所述目标用户的至少一个第一相关特征向量；

将所述目标用户的第一相关特征向量进行衍生，得到所述目标用户的至少一个第二相关特征向量；以及

融合所述目标用户的至少一个第一相关特征向量与所述目标用户的至少一个第二相关特征向量，确定所述目标用户的至少一个相关特征向量。

可选地，所述至少一个预训练好的子模型包括深度神经网络模型、极端梯度提升模型和预定义人工规则模型。

可选地，所述集成学习模型采用堆叠泛化方法实现。

可选地，所述至少一种数据分析包括以下一种或多种的组合：

归因类型分析、MTTI趋势洞察与点击劫持分析、僵尸用户分析和安卓应用市场安装劫持分析。

根据本发明的第二方面，提供一种基于集成学习的预测系统，所述预测系统包括获取单元用于获取至少一个用户的日志数据，所述预测系统还包括：

特征向量处理单元，用于对获取的至少一个用户的日志数据进行分析处理，确定所述至少一个用户中的目标用户的至少一个相关特征向量；

模型训练单元，用于将所述目标用户的至少一个相关特征向量分别输入至少一个预训练好的子模型中，相应地得到所述目标用户的至少一个训练结果子向量；以及将得到的所述至少一个训练结果子向量输入预训练好的集成学习模型中，得到所述目标用户的训练结果预测向量；以及

预测单元，用于基于所述目标用户的训练结果预测向量，得到所述目标用户的付费预测值，并将所述目标用户的付费预测值与预设付费阈值进行对比，确定所述付费预测值大于或等于所述预设付费阈值的所述目标用户为高概率付费用户。

可选地，所述特征向量处理单元，包括：

数据处理模块，用于采用至少一种数据分析对获取的至少一个用户的日志数据进行分析处理，得到所述至少一个用户中的目标用户的原始数据；以及在分析处理后，对所述目标用户的原始数据进行过滤和清洗，得到所述目标用户的真实数据；

特征处理模块，用于对所述目标用户的真实数据进行特征处理，确定所述目标用户的至少一个相关特征向量。

可选地，所述特征处理模块包括：

第一特征处理模块，用于对所述目标用户的真实数据进行特征提取，得到所述目标用户的至少一个第一相关特征向量；

第二特征处理模块，用于将所述目标用户的第一相关特征向量进行衍生，得到所述目标用户的至少一个第二相关特征向量；以及

融合处理模块，用于融合所述目标用户的至少一个第一相关特征向量与所述目标用户的至少一个第二相关特征向量，确定所述目标用户的至少一个相关特征向量。

可选地，所述集成学习模型采用堆叠泛化方法实现。

根据本发明的第三方面，提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时实现上述任一项所述的预测方法。

本发明的预测方法和预测系统，可以对用户的日志数据进行分析处理，确定目标用户的至少一个相关特征向量，再根据这些相关特征向量对模型进行训练，得到所述目标用户的付费预测值，并与预设付费阈值进行对比，确定所述付费预测值大于或等于所述预设付费阈值的所述目标用户为高概率付费用户，这样大大提高了预测目标用户为高概率付费用户的准确率，同时也能够有针对性地加强对这些高概率付费用户的关注。

附图说明

以示例的方式参考以下附图描述本发明的非限制性且非穷举性实施方案，其中：

图1示出根据本发明一实施方案的预测系统的示意图；

图2示出根据本发明一实施方案的目标用户对应的至少一个相关特征向量的示意图；

图3示出根据本发明一实施方案的相关特征向量训练模型的示意图；

图4示出根据本发明一实施方案的特征向量处理单元的结构示意图；

图5示出根据本发明一实施方案的特征处理模块的结构示意图；以及

图6示出根据本发明一实施方案的预测方法的流程图。

具体实施方式

为了使本发明的上述以及其他特征和优点更加清楚，下面结合附图进一步描述本发明。应当理解，本文给出的具体实施方案是出于向本领域技术人员解释的目的，仅是示例性的，而非限制性的。

图1示出根据本发明一实施方案的预测系统的示意图。图2示出根据本发明一实施方案的目标用户对应的至少一个相关特征向量的示意图。

如图1和图2所示，所述预测系统100包括获取单元（未示出），所述获取单元用于获取至少一个用户的日志数据。所述预测系统100还包括特征向量处理单元101、模型训练单元102和预测单元103。该特征向量处理单元101可以在监测或者从其他设备上获取得到至少一个用户（A01、A02···`A10）的日志数据之后，对获取的至少一个用户的日志数据进行分析处理，确定所述至少一个用户中的目标用户（A03、A05、···A09）的至少一个相关特征向量（B031、B032、···B0310；B051、B052···B0510；···B091、B092、···B0910），其中，目标用户A03的至少一个相关特征向量是B031、B032、···B0310，其余的目标用户标号对应于相应的相关特征向量标号，即目标用户A05的至少一个相关特征向量对应的相关特征向量标号是B051、B052、···B0510。

需要明白的是，由于本文中的用户主要是针对游戏玩家，但是用户并不仅限制在游戏领域，也可以是其他领域的。为了描述的方便，本文仅针对游戏领域的游戏玩家进行描述。至少一个用户（A01、A02···`A10）可以是已经付过费的游戏玩家和未来会付费的游戏玩家，当然也可以只是未来会付费的游戏玩家。

另外，获取的用户的日志数据可以为游戏玩家的日志数据，每位游戏玩家的数据可以是游戏玩家每次触发事件（例如，登陆游戏）时生成的一条log数据，数据格式是Json。在本文中这些日志数据可以包括游戏玩家的以下信息：游戏唯一标识、账号唯一标识、设备品牌、手机型号、屏幕分辨率、系统版本、游戏版本、运营商、网络类型、地理位置（国家、省份、市区）、时间戳、时区、账户类型、角色名称、角色创建时间、玩家性别、玩家年龄、服务器名称、服务器ID、角色等级、角色等级变化时间、是否设置实名信息、是否未成年、支付类型、货币类型、支付金额、通过充值获得的游戏内货币的数量、游戏内购买道具的名称、游戏内购买道具的数量、交易的数量、交易的总价、当前任务/关卡/副本的编号或名称、当前任务/关卡/副本的状态、当前任务/关卡/副本的类型、事件类型、用户自定义事件。

图3示出根据本发明一实施方案的相关特征向量训练模型的示意图。

如图3所示，该模型训练单元102可以将所述目标用户的至少一个相关特征向量分别输入至少一个预训练好的子模型（MD1、MD2、MD3等）中，相应地得到所述目标用户的至少一个训练结果子向量（X1、X2、X3等）；以及将得到的所述至少一个训练结果子向量输入预训练好的集成学习模型SD1中，得到所述目标用户的训练结果预测向量。

在本文中，至少一个预训练好的子模型可以是深度神经网络模型、极端梯度提升模型XGboost和预定义人工规则模型，当然可以根据需要采用其他的模型。其中在本文中该预定义人工规则模型是根据本领域人员的经验定义的属于未来会付费的游戏玩家的规则模型。

具体地，举例来说，将目标用户A03的相关特征向量（B031、B032、···B0310）分别输入子模型（MD1、MD2、MD3）中，即将相关特征向量（B031、B032、···B0310）输入子模型MD1中，得到训练结果子向量X1；将相关特征向量（B031、B032、···B0310）输入子模型MD2中，得到训练结果子向量X2；将相关特征向量（B031、B032、···B0310）输入子模型MD3中，得到训练结果子向量X3。同理，会对很多其他的目标用户A05、···A09进行上述同样的训练操作。本文是为了使得描述更加简便，只对其中一个目标用户进行详细描述。在得到训练结果子向量（X1、X2、X3等）后，将得到的训练结果子向量（X1、X2、X3等）输入到预训练好的集成学习模型SD1中，得到所述目标用户A03的训练结果预测向量A03V。在本文中集成学习模型SD1可以是采用堆叠泛化方法stacking实现，当然可以根据实际需要采用其他的模型。

该预测单元103可以基于所述目标用户的训练结果预测向量，得到所述目标用户的付费预测值，并将所述目标用户的付费预测值与预设付费阈值进行对比，确定所述付费预测值大于或等于所述预设付费阈值的所述目标用户为高概率付费用户。

具体的，基于所述目标用户A03的训练结果预测向量A03V可以得到所述目标用户A03的付费预测值A03Y=90%，同理，目标用户A05的付费预测值A05Y=60%；目标用户A07的付费预测值A07Y=70%；目标用户A09的付费预测值A09Y=50%；预设付费阈值=65%；所述付费预测值大于或等于所述预设付费阈值的所述目标用户为高概率付费用户，所以目标用户A03、A07为高概率付费用户。

图4示出根据本发明一实施方案的特征向量处理单元的结构示意图。

如图4所示，所述特征向量处理单元101，包括：数据处理模块1011和特征处理模块1012。该数据处理模块1011可以采用至少一种数据分析对获取的至少一个用户（A01、A02···`A10）的日志数据进行分析处理，得到所述至少一个用户中的目标用户（A03、A05、···A09）的原始数据；以及在分析处理后，对所述目标用户的原始数据进行过滤和清洗，得到所述目标用户的真实数据。该特征处理模块1012可以对所述目标用户的真实数据进行特征处理，确定所述目标用户的至少一个相关特征向量。

具体的，举例说明，至少一种数据分析可以包括：归因类型分析（AttributionMatched Type Analysis），在本文中采用归因类型分析的目的是用来区分用户设备ID归因和用户地址IP归因带来的渠道推广量。例如：将用户的服务器名称、服务器ID等和用户的地理位置（国家、省份、市区）等归因。

当然，至少一种数据分析还可以包括以下中的一种或者多种的组合：

第一种，归因类型分析（Attribution Matched Type Analysis），其目的：区分用户设备ID归因和用户地址IP带来的渠道推广量。

第二种，MTTI趋势洞察与点击劫持分析（MTTI Trend Insights&Click HijackingAnalysis），其目的：通过计算目标用户点击到激活的时间分布，分析各渠道延迟激活分布情况，对于点击到激活时间较短的数据，可以判断点击劫持情况的占比。

第三种，僵尸用户分析（Zombie Users Analysis），其目的：与活跃用户分析对立，筛选出激活目标用户中从未有过任何后续事件的激活数据，并按照活动组、活动、渠道、日期维度分析。

第四种，安卓应用市场安装劫持分析（Android App Store Install HijackingAnalysis），其目的：对应用市场激活劫持进行甄别。

另外，对所述目标用户的原始数据进行过滤和清洗，得到所述目标用户的真实数据。其中，过滤和清洗可以理解的是，过滤掉乱码、传值出错和传输过程中因网络原因导致出错的数据，其中该出错的数据有游戏唯一标识会出现00000000-0000-0000-0000-000000000000、未知和其它错误值，而账号唯一标识会出现未知和其它错误值。清洗掉异常值和离散值，即一组特征向量里与平均值的偏差超过两倍标准差的数值，剔除缺失值大于90% 的特征列，剔除方差趋近于0的特征列。

图5示出根据本发明一实施方案的特征处理模块的结构示意图。

在一实施方案中，如图5所示，所述特征处理模块1012包括：第一特征处理模块10121、第二特征处理模块10122和融合处理模块10123。该第一特征处理模块10121可以对所述目标用户的真实数据进行特征提取，得到所述目标用户的至少一个第一相关特征向量。

具体的，可以理解的是，本文中的特征提取为：从真实数据中提取相关特征，根据这些相关特征组合成至少一个第一相关特征向量。具体的提取出来的相关特征可以包括：设备品牌、手机型号、屏幕分辨率、系统版本、游戏版本、运营商、网络类型、国家、省份、市区、时区、账户类型、角色创建时间、玩家性别、玩家年龄、服务器ID、角色等级、角色等级变化时间、是否设置实名信息、是否未成年、支付类型、货币类型、支付金额、通过充值获得的游戏内货币的数量、游戏内购买道具的名称、游戏内购买道具的数量、交易的数量、交易的总价、当前任务/关卡/副本的编号或名称、当前任务/关卡/副本的状态、当前任务/关卡/副本的类型。

第二特征处理模块10122可以将所述目标用户的第一相关特征向量进行衍生，得到所述目标用户的至少一个第二相关特征向量。

具体的，可以理解的是，将所述目标用户的第一相关特征向量进行衍生，衍生可以为：由时间戳衍生出日期和时间；由省份衍生出地区；由时间衍生出时间段凌晨、清晨、早上、上午、中午、下午、傍晚、晚上；由登陆事件衍生出总登陆次数、平均每天登陆次数、最大单日登陆次数、最小单日登陆次数、登陆次数最多次的时间段（例如，一段时间内晚上登陆次数最多）的登录次数。衍生出的相关特征可以组合成至少一个第二相关特征向量。

融合处理模块10123可以融合所述目标用户的至少一个第一相关特征向量与所述目标用户的至少一个第二相关特征向量，确定所述目标用户的至少一个相关特征向量。

可以理解的是，将至少一个第一相关特征向量与至少一个第二相关特征向量融合，可以剔除掉在后续训练中对训练模型无影响或者影响极小的数据，例如：游戏唯一标识、角色名称、服务器名称、用户自定义事件等。

图6示出根据本发明一实施方案的预测方法的流程图。

如图6所示，所述预测方法包括获取至少一个用户的日志数据，所述预测方法600还包括：

步骤S610，对获取的至少一个用户的日志数据进行分析处理，确定所述至少一个用户中的目标用户的至少一个相关特征向量；

步骤S620，将所述目标用户的至少一个相关特征向量分别输入至少一个预训练好的子模型中，相应地得到所述目标用户的至少一个训练结果子向量；

步骤S630，将得到的所述至少一个训练结果子向量输入预训练好的集成学习模型中，得到所述目标用户的训练结果预测向量，并基于所述目标用户的训练结果预测向量，得到所述目标用户的付费预测值；以及

步骤S640，将所述目标用户的付费预测值与预设付费阈值进行对比，确定所述付费预测值大于或等于所述预设付费阈值的所述目标用户为高概率付费用户。

可选地，步骤S610，包括：

步骤S611，采用至少一种数据分析对获取的至少一个用户的日志数据进行分析处理，得到所述至少一个用户中的目标用户的原始数据；

步骤S612，在分析处理后，对所述目标用户的原始数据进行过滤和清洗，得到所述目标用户的真实数据；以及

步骤S613，对所述目标用户的真实数据进行特征处理，确定所述目标用户的至少一个相关特征向量。

可选地，步骤S613，包括：

步骤S6131，对所述目标用户的真实数据进行特征提取，得到所述目标用户的至少一个第一相关特征向量；

步骤S6132，将所述目标用户的第一相关特征向量进行衍生，得到定所述目标用户的至少一个第二相关特征向量；以及

步骤S6133，融合所述目标用户的至少一个第一相关特征向量与所述目标用户的至少一个第二相关特征向量，确定所述目标用户的至少一个相关特征向量。

可选地，所述集成学习模型采用堆叠泛化方法实现。

本发明的预测方法和预测系统，可以对用户的日志数据进行分析处理，确定目标用户的至少一个相关特征向量，再根据这些相关特征向量对模型进行训练，得到所述目标用户的付费预测值，并与预设付费阈值进行对比，确定所述付费预测值大于或等于所述预设付费阈值的所述目标用户为高概率付费用户，这样大大提高了预测的准确率，同时也能够有针对性地加强对这些高概率付费用户的关注。

关于本发明的基于集成学习的预测方法的更具体的方案，可以参照上文中对于本发明的预测系统的说明，在此不再赘述。

另外，应理解上述预测系统100中的特征向量处理单元101、模型训练单元102和预测单元103可全部或部分通过软件、硬件及其组合来实现，例如可以硬件形式内嵌于计算机设备中的固有处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上所述的对应操作。

本领域技术人员可以理解，图1中示出的预测系统100的示意图仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本发明的另一方面还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时实现上述任一实施方案所述的预测方法。

本领域普通技术人员可以理解实现根据本发明的上述实施方案的方法中的全部或部分步骤，可以通过计算机程序来指示相关的硬件完成，所述的计算机程序可存储于非易失性的计算机可读存储介质中，该计算机程序在执行时，可实施如上述各方法的实施方案的步骤。其中，本申请所提供的各实施方案中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。

以上实施方案的各个技术特征可以进行任意的组合，为使描述简洁，未对上述实施方案中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

尽管结合实施方案对本发明进行了描述，但本领域技术人员应理解，上文的描述和附图仅是示例性而非限制性的，本发明不限于所公开的实施方案。在不偏离本发明的精神的情况下，各种改型和变体是可能的。

Claims

1.一种基于集成学习的预测方法，所述预测方法包括获取至少一个用户的日志数据，其特征在于，所述预测方法还包括：

对获取的所述至少一个用户的日志数据进行分析处理，确定所述至少一个用户中的目标用户的至少一个相关特征向量；

将得到的所述至少一个训练结果子向量输入预训练好的集成学习模型中，得到所述目标用户的训练结果预测向量，并且基于所述目标用户的训练结果预测向量，得到所述目标用户的付费预测值；以及

2.根据权利要求1所述的预测方法，其特征在于，所述对获取的至少一个用户的日志数据进行分析处理，确定所述至少一个用户中的目标用户的至少一个相关特征向量，包括：

3.根据权利要求2所述的预测方法，其特征在于，所述对所述目标用户的真实数据进行特征处理，确定所述目标用户的至少一个相关特征向量，包括：

将所述目标用户的至少一个第一相关特征向量进行衍生，得到所述目标用户的至少一个第二相关特征向量；以及

4.根据权利要求1-3任一项所述的预测方法，其特征在于，所述至少一个预训练好的子模型包括深度神经网络模型、极端梯度提升模型和预定义人工规则模型。

5.根据权利要求1-3任一项所述的预测方法，其特征在于，所述集成学习模型采用堆叠泛化方法实现。

6.根据权利要求2所述的预测方法，其特征在于，所述至少一种数据分析包括以下一种或多种的组合：

7.一种基于集成学习的预测系统，所述预测系统包括获取单元，所述获取单元用于获取至少一个用户的日志数据，其特征在于，所述预测系统还包括：

预测单元，用于基于所述目标用户的训练结果预测向量得到所述目标用户的付费预测值，并将所述目标用户的付费预测值与预设付费阈值进行对比，确定所述付费预测值大于或等于所述预设付费阈值的所述目标用户为高概率付费用户。

8.根据权利要求7所述的预测系统，其特征在于，所述特征向量处理单元，包括：

9.根据权利要求8所述的预测系统，其特征在于，所述特征处理模块包括：

第二特征处理模块，用于将所述目标用户的至少一个第一相关特征向量进行衍生，得到所述目标用户的至少一个第二相关特征向量；以及

10.一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序在被处理器执行时实现权利要求1-6中任一项所述的方法的步骤。