CN113457167A

CN113457167A - 用户分类网络的训练方法、用户分类方法及装置

Info

Publication number: CN113457167A
Application number: CN202110728786.9A
Authority: CN
Inventors: 陈麒旦; 胡志鹏; 程龙; 刘勇成; 袁思思
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-10-01

Abstract

本发明提供了一种用户分类网络的训练方法、用户分类方法及装置，包括：获取训练数据集；其中，训练数据集是基于历史角色创建数据构建的，训练数据集包括携带有用户类别标签的训练数据；利用训练数据集对初始模型组合进行训练评估，得到至少一个目标模型组合和每个目标模型组合输出的第一预测结果；基于逻辑回归模型和每个目标模型组合构建至少一个候选用户分类网络；利用第一预测结果分别对每个候选用户分类网络进行训练评估，并从候选用户分类网络中确定目标用户分类网络。本发明训练得到的用户分类网络可以有效提高用户分类时效性以及降低运算量，还可以显著提高用户分类网络的普适性。

Description

用户分类网络的训练方法、用户分类方法及装置

技术领域

本发明涉及深度学习技术领域，尤其是涉及一种用户分类网络的训练方法、用户分类方法及装置。

背景技术

对于游戏运营商而言，及时把握新增用户特征、对新增用户建立清晰用户画像，有助于游戏产品决策、监控导量引流质量以及个性化商品推荐等。相关技术提出，可以采集用户在游戏过程中的特定行为数据和特定行为数据对应的游戏设定数据，其中，特定行为数据指用户在游戏中记性的各种操作行为的数据，游戏设定数据指用户在执行上述特定行为数据时对应的游戏环境设定的数据，然后利用上述特定行为数据和游戏设定数据对深度神经网络模型进行训练，从而利用训练后的深度神经网络模型输出用户特征，进而基于用户特征建立用户画像。然而，上述相关技术存在以下问题：(1)时效性较差：由于上述方案需要积累目标用户在一段时间内的特定行为数据，导致分类时效性较差；(2)运算量较大：由于上述方案需要基于大量用户的特定行为数据，导致运算量较大；(3)无法迁移复用：由于不同游戏减的用户特征画像差异较大，导致不同游戏需要重新构建相应的深度神经网络模型，也即不同游戏间无法利用同一深度神经网络模型建立用户画像，导致深度神经网络模型的普适性较差。综上所述，利用相关技术训练得到的深度神经网络无法较好地应用于游戏场景下的用户分类。

发明内容

有鉴于此，本发明的目的在于提供一种用户分类网络的训练方法、用户分类方法及装置，训练得到的用户分类网络可以有效提高用户分类时效性以及降低运算量，还可以显著提高用户分类网络的普适性。

第一方面，本发明实施例提供了一种用户分类网络的训练方法，包括：获取训练数据集；其中，所述训练数据集是基于历史角色创建数据构建的，所述训练数据集包括携带有用户类别标签的训练数据；利用所述训练数据集对初始模型组合进行训练评估，得到至少一个目标模型组合和每个所述目标模型组合输出的第一预测结果；基于逻辑回归模型和每个所述目标模型组合构建至少一个候选用户分类网络；利用所述第一预测结果分别对每个所述候选用户分类网络进行训练评估，并从所述候选用户分类网络中确定目标用户分类网络。

在一种实施方式中，所述获取训练数据集的步骤，包括：获取至少一个历史角色创建数据；对每个所述历史角色创建数据进行预处理得到训练数据集；其中，所述预处理包括标签标注处理、扩增处理、填补处理中的一种或多种。

在一种实施方式中，所述对每个所述历史角色创建数据进行预处理得到训练数据集的步骤，包括：基于至少一个标签族对每个所述历史角色创建数据进行标签标注处理，确定每个所述历史角色创建数据对应的用户类别标签；其中，每个所述标签族包括至少一个用户类别标签；或，从所述用户类别标签中确定目标类别标签，并根据所述目标类别标签对应的历史角色创建数据进行扩增处理得到模拟数据；或，对每个所述历史角色创建数据进行异常值统计，并对每个所述历史角色创建数据所包含的异常值进行填补处理；其中，所述异常值包括可选极端值和/或可选缺失值。

在一种实施方式中，所述并对每个所述历史角色创建数据所包含的异常值进行填补处理的步骤，包括：如果该历史角色创建数据所包含的异常值包括可选极端值，利用该历史角色创建数据的特征取值均值替换所述可选极端值；如果该历史角色创建数据所包含的异常值包括可选缺失值，根据各个所述可选缺失值的缺失比例确定目标缺失值，并根据该历史角色创建数据确定所述目标缺失值的缺失填补值。

在一种实施方式中，所述利用所述训练数据集对初始模型组合进行训练评估，得到至少一个目标模型组合和每个所述目标模型组合输出的第一预测结果的步骤，包括：将所述训练数据集划分为多份数据子集；每份所述数据子集均包括属性类数据和数值类数据；对于每次训练评估，从各个所述数据子集中随机确定训练子集和验证子集，利用所述训练子集对所述初始模型组合进行训练得到目标模型组合，以及将所述验证子集输入至该目标模型组合，得到该目标模型组合的第一预测结果；其中，所述初始模型组合包括不同类型的神经网络模型，和/或，同类型不同参数的神经网络模型。

在一种实施方式中，所述神经网络模型包括Catboost模型、Xgboost模型、LightGBM模型中的一种或多种。

在一种实施方式中，所述利用所述训练子集对所述初始模型组合进行训练得到目标模型组合的步骤，包括：如果所述初始模型组合包括Catboost模型，利用所述属性类数据对所述Catboost模型进行训练；如果所述初始模型组合包括Xgboost模型或LightGBM模型，对所述属性类数据进行独热编码处理，并合并所述数值类数据和独热编码处理后的属性类数据构成输入数据，利用所述输入数据对所述Xgboost模型或LightGBM模型进行训练。

在一种实施方式中，所述利用所述第一预测结果分别对每个所述候选用户分类网络进行训练评估，并从所述候选用户分类网络中确定目标用户分类网络的步骤，包括：对于每个所述候选用户分类网络，利用该候选用户分类网络内目标模型组合的第一预测结果，对该候选用户分类网络内逻辑回归模型进行训练评估，并确定该候选用户分类网络输出的第二预测结果；其中，所述第二预测结果包括每个标签族内每个用户类别标签对应的概率；基于预设评价指标和该候选用户分类网络输出的第二预测结果，对该候选用户分类网络进行评价得到评价分数；其中，所述预设评价指标包括roc_auc指标；根据所述评价分数从所述候选用户分类网络中确定目标用户分类网络。

在一种实施方式中，所述基于预设评价指标和该候选用户分类网络输出的第二预测结果，对该候选用户分类网络进行评价得到评价分数的步骤，包括：从该候选用户分类网络输出的第二预测结果中，确定出每个标签族内概率最高的用户类别标签；基于预设评价指标和每个标签族内概率最高的用户类别标签，计算该候选用户分类网络的评价分数。

在一种实施方式中，所述标签族包括价值标签族和/或行为标签族，所述价值标签族包括高价值用户标签、中价值用户标签、低价值用户标签、非付费用户标签中的一种或多种，所述行为标签族包括工作室用户标签、休闲用户标签、PVP用户标签、PVE用户标签中的一种或多种。

第二方面，本发明实施例还提供一种用户分类方法，包括：获取待分类行为数据；其中，所述待分类行为数据包括用户在创建虚拟角色阶段的当前角色创建数据；通过目标用户分类网络对所述待分类行为数据进行分类处理，得到所述用户对应的用户分类结果；其中，所述目标用户分类网络是采用如第一方面提供的任一项所述的用户分类网络的训练方法训练得到的。

第三方面，本发明实施例还提供一种用户分类网络的训练装置，包括：数据集获取模块，用于获取训练数据集；其中，所述训练数据集是基于历史角色创建数据构建的，所述训练数据集包括携带有用户类别标签的训练数据；第一训练评估模块，用于利用所述训练数据集对初始模型组合进行训练评估，得到至少一个目标模型组合和每个所述目标模型组合输出的第一预测结果；构建模块，用于基于逻辑回归模型和每个所述目标模型组合构建至少一个候选用户分类网络；第二训练评估模块，用于利用所述第一预测结果分别对每个所述候选用户分类网络进行训练评估，并从所述候选用户分类网络中确定目标用户分类网络。

第四方面，本发明实施例还提供一种用户分类装置，包括：行为数据获取模块，用于获取待分类行为数据；其中，所述待分类行为数据包括用户在创建虚拟角色阶段的当前角色创建数据；分类模块，用于通过目标用户分类网络对所述待分类行为数据进行分类处理，得到所述用户对应的用户分类结果；其中，所述目标用户分类网络是采用如第一方面提供的任一项所述的用户分类网络的训练方法训练得到的。

第五方面，本发明实施例还提供一种电子设备，包括处理器和存储器；所述存储器上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如第一方面提供的任一项所述的方法，或执行如第二方面提供的所述的方法。

第六方面，本发明实施例还提供一种计算机存储介质，用于储存为第一方面提供的任一项所述方法所用的计算机软件指令，或储存为第二方面提供的所述方法所用的计算机软件指令。

本发明实施例提供的一种用户分类网络的训练方法及装置，首先获取基于历史角色创建数据构建的训练数据集(包括携带有用户类别标签的训练数据)，然后利用训练数据集对初始模型组合进行训练评估，得到至少一个目标模型组合和每个目标模型组合输出的第一预测结果，再基于逻辑回归模型和每个目标模型组合构建至少一个候选用户分类网络，从而利用第一预测结果分别对每个候选用户分类网络进行训练评估，并从候选用户分类网络中确定目标用户分类网络。上述方法可以在虚拟角色处于创建阶段时收集用户的各项数据信息，从而利用基于历史角色创建数据构建的训练数据集训练初始模型组合，不仅无需等待用户游戏时再采集用户行为数据，使得到的用户分类网络具有更高的时效性，而且通过对目标模型组合进行第一次训练评估、对候选用户分类网络进行第二次训练评估，可以在整体上提高模型预测准确性和模型训练速度，也在一定程度上提高了用户分类时效性。进一步的，由于虚拟角色创建过程中的数据远小于用户游戏过程中的行为数据，因此还可以有效降低运算量；由于不同游戏虚拟角色的创建过程大同小异，因此训练得到的用户分类网络可以较好地应用于不同游戏，从而显著提高了用户分类网络的普适性。

本发明实施例提供的一种用户分类方法及装置，首先获取待分类行为数据(包括用户在创建虚拟角色阶段的当前角色创建数据)，然后通过目标用户分类网络对待分类行为数据进行分类处理，得到用户对应的用户分类结果。本发明实施例利用上述用户分类网络的训练方法训练得到的目标用户分类网络对待分类行为数据进行分类处理，可以有效提高用户分类时效性以及降低运算量，还可以显著提高用户分类网络的普适性。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种用户分类网络的训练方法的流程示意图；

图2为本发明实施例提供的一种样本扩增示意图；

图3为本发明实施例提供的另样本扩增示意图；

图4为本发明实施例提供的一种用户分类方法的流程示意图；

图5为本发明实施例提供的另一种用户分类方法的流程示意图；

图6为本发明实施例提供的一种用户分类网络的训练装置的结构示意图；

图7为本发明实施例提供的一种用户分类装置的结构示意图；

图8为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，对用户进行分类方案通常是基于一段时间内用户的历史行为数据进行建模，其历史行为数据包括：玩家意图数据(诸如做游戏任务、攻击敌对NPC(non-playercharacter，非玩家角色)、赚取虚拟货币等)、性格特点(诸如喜欢冒险、喜欢升级、喜欢提升装备等)、游戏中各种设定(诸如任务系统设定情况、敌对NPC难度情况、赛道难度情况等)，将上述历史行为数据输入至深度神经网络模型中，以通过深度神经网络模型基于历史行为数据对用户进行分类。具体的，相关技术提供的用户分类方法包括如下步骤：(1)首先采集与建立用户画像相关度比较高的特定行为数据和特定行为数据对应的游戏设定数据，例如，特定行为数据可以包括玩家账号、玩家登陆时间、游戏时长(可根据玩家登陆和退出登陆的行为获得)、做任务的数量、种类、战斗行为、装备增减行为、玩家做任务结果数据、战斗结果数据等；(2)根据特定行为数据和特定行为数据对应的游戏设定数据，使用深度神经网络模型进行数据处理得到用户特征，具体可包括如下步骤：使用基于深度神经网络模型的玩家分类模型，将用户的特定行为数据和特定行为数据对应的游戏设定数据作为玩家分类模型的输入，输入至玩家分类模型，该玩家分类模型的输出为用户特征，用户特征体现了玩家的游戏偏好，例如背景的设置、背景音乐的选择等；(3)根据玩家分类模型输出的用户特征生成用户画像。然而上述方法具有以下问题：时效性较差、运算量较多、迁移复用性较差。基于此，本发明实施提供了一种用户分类网络的训练方法、用户分类方法及装置，训练得到的用户分类网络可以有效提高用户分类时效性以及降低运算量，还可以显著提高用户分类网络的普适性。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种用户分类网络的训练方法进行详细介绍，参见图1所示的一种用户分类网络的训练方法的流程示意图，该方法主要包括以下步骤S102至步骤S108：

步骤S102，获取训练数据集。其中，训练数据集是基于历史角色创建数据构建的，历史角色创建数据指用户历史登录游戏至捏脸完成这一阶段的行为数据，训练数据集包括携带有用户类别标签的训练数据，用户类别标签可用于衡量用户的价值和/或游戏性。可选的，可以设置两个标签族，一个标签族用于衡量用户的消费水平，一个标签族用于衡量用户游戏过程中的行为习惯，每个标签族均可以包括多个用户类别标签，对于一个训练数据，该训练数据可以标注每个标签族内的一个用户类别标签。在一种实施方式中，可以对用户创建角色阶段的行为数据(也即，上述历史角色创建数据)进行采集，并对采集到的行为数据进行预处理，即可得到训练数据集。

步骤S104，利用训练数据集对初始模型组合进行训练评估，得到至少一个目标模型组合和每个目标模型组合输出的第一预测结果。其中，初始模型组合可以包括不同类型的多个神经网络模型，和/或同类型不同参数的多个神经网络模型，第一预测结果包括每个神经网络模型的输出结果，该输出结果包括每个用户类别标签对应的概率。在一种实施方式中，可以将训练数据集划分为K份数据子集，选择K-1份数据子集作为训练子集，并将剩余1份数据子集作为验证集，利用训练子集对初始模型组合进行训练得到一个目标模型组合，并利用验证子集对该目标模型组合进行验证得到第一预测结果。选择不同数据子集作为训练子集和验证子集，可以重复K次上述操作，从而得到K个目标模型组合和K个目标模型组合对应的第一预测结果。

步骤S106，基于逻辑回归模型和每个目标模型组合构建至少一个候选用户分类网络。在一种实施方式中，每个目标模型组合输出的第一预测结果作为逻辑回归模型的输出。假设有K个目标模型组合，则每个目标模型组合均对应一个逻辑回归模型，即可得到K个候选用户分类网络。

步骤S108，利用第一预测结果分别对每个候选用户分类网络进行训练评估，并从候选用户分类网络中确定目标用户分类网络。在一种实施方式中，对于每个候选用户分类网络，可以固定该候选用户分类网络中目标模型组合的参数，然后利用第一预测结果对该候选用户分类网络内的逻辑回归模型进行训练，从而得到训练后的候选用户分类网络，然后对训练后的各个候选用户分类网络进行评估，以将分类效果最优的候选用户分类确定为模具部用户分类网络。

本发明实施例提供的上述用户分类网络的训练方法，可以在虚拟角色处于创建阶段时收集用户的各项数据信息，从而利用基于历史角色创建数据构建的训练数据集训练初始模型组合，不仅无需等待用户游戏时再采集用户行为数据，使得到的用户分类网络具有更高的时效性，而且通过对目标模型组合进行第一次训练评估、对候选用户分类网络进行第二次训练评估，可以在整体上提高模型预测准确性和模型训练速度，也在一定程度上提高了用户分类时效性。进一步的，由于虚拟角色创建过程中的数据远小于用户游戏过程中的行为数据，因此还可以有效降低运算量；由于不同游戏虚拟角色的创建过程大同小异，因此训练得到的用户分类网络可以较好地应用于不同游戏，从而显著提高了用户分类网络的普适性。

在游戏领域中，不同分类用户可能在未被挖掘其付费潜力之前流失，现有技术需要累积目标用户在一段时间内的行为数据才能进行用户分类，此时用户分类时效性较差，不能实时跟进新增用户的画像概况，无法对新增玩家的突发情况作出调整，例如当出现一批工作室角色时无法及时跟进处理，使工作室角色对游戏生态造成伤害，也即现有技术中用于用户分类的深度学习网络模型的时效性较差。而且由于现有技术需要基于大量用户行为特征，因此在模型构建与上线应用时需要调用非常大量的计算资源，非常不轻量，且容易出现因为运算集群崩溃导致的画像无法有效更新问题。此外，由于现有技术需要采集大量用户特征，考虑到不同游戏间的用户特征画像差异性，可能需要重新构建模型，其模型思路无法在不同游戏产品间复用，增加开发成本。

为改善上述问题，本发明实施例提出可以只关注用户从登陆游戏、开始捏脸至捏脸完成这一阶段的数据表现，具体到实际案例，即基于用户完成捏脸前的行为特征进行模型训练，从而提高用户分类的时效性。在一种实施方式中，可以按照如下步骤1至步骤2执行获取训练数据集的步骤：

步骤1，获取至少一个历史角色创建数据。在用户历史登录游戏至捏脸完成期间，对用户在该期间内的历史角色创建数据进行数据计算与特征提取。其中，历史角色创建数据的数据特征分为用户登录游戏至开始捏脸期间信息、捏脸操作信息、捏脸选择信息三个主要类别。具体的，在用户登陆游戏至开始捏脸期间信息可以包括用户设备类型、设备市场价格、设备推出时间、设备是否为主要品牌，设备品牌国别、用户登录游戏至开始捏脸花费时长等；捏脸操作信息可以包括用户对虚拟角色发饰操作次数、用户对鼻子操作次数、用户对嘴巴操作次数、用户是否撤销其最初捏脸设定、用户撤销其捏脸设定次数、用户捏脸总时长、用户操作发饰总时长等；捏脸选择信息可以包括用户对虚拟角色发饰的选择类型、用户对鼻子的选择类型、用户对虚拟角色发饰选择过的类型数量、用户对虚拟角色选择过的类型数据、用户最终保留发饰类型是否与其最终选择一致等。应当注意的是，以上仅是示例性提供了部分历史角色创建数据，实际应用中可基于具体场景选择所需的历史角色创建数据，本发明实施例对此不进行限定。

可选的，上述历史角色创建数据的特征可以分为两类，包括属性类数据(或称之为属性类特征)和/或数值类数据(或称之为数值类特征)，其中，属性类特征即特征的各个取值不存在数值大小上的含义，仅有类别上的区别，例如用户最终选择的鼻子类型、用户最终选择的发饰颜色等，数值类数据即特征的各个取值存在数值差异，例如用户捏脸整体花费用时、用户选择过的鼻子种类数、用户捏脸采用默认设置的种类数等。

步骤2，对每个历史角色创建数据进行预处理得到训练数据集。其中，预处理包括标签标注处理、扩增处理、填补处理中的一种或多种，标签标注处理用于为历史角色创建数据标注用户类别标签，扩增处理用于增加历史角色创建数据的数据量，填补处理用于对历史角色创建数据中的异常值进行填补。为便于理解，本发明实施例提供了一种对每个历史角色创建数据进行预处理得到训练数据集的实施方式，可以包括如下步骤2.1至步骤2.3：

步骤2.1，基于至少一个标签族对每个历史角色创建数据进行标签标注处理，确定每个历史角色创建数据对应的用户类别标签。其中，每个标签族包括至少一个用户类别标签，例如，标签族可以包括价值标签族和/或行为标签族。价值标签族用于衡量用户的付费水平，可选的，价值标签族包括高价值用户标签、中价值用户标签、低价值用户标签、非付费用户标签中的一种或多种，例如，高价值用户指角色登录首月付费额超过2000元的用户，中价值用户指角色登录首月付费金额在500至2000元的用户，低价值用户指角色登录首月付费金额在1至500元的用户，非付费用户指角色登录首月无付费金额的玩家。行为标签族用于表征用户在游戏过程中的行为信息，可选的，行为标签族包括工作室用户标签、休闲用户标签、PVP(player versus player，玩家对战玩家)用户标签、PVE(Player VSEnvironment，玩家对战环境)用户标签中的一种或多种，例如，工作室用户指用户存在明显工作室性质行为特点的用户，休闲用户指用户主要游玩方向为时装、坐骑看游戏内风景等相关玩法，PVP用户指用户主要游玩方向为用户间对战等相关玩法，PVE用户指用户主要游玩方向为打怪刷副本等相关玩法。

在一种实施方式中，每个历史角色创建数据对应的用户类别标签可以为每个标签族内的一个用户类别标签，例如，某历史角色创建数据对应的用户类别标签可以为PVP用户标签和中价值用户标签。且，每个历史角色创建数据对应的用户类别标签不可以为同一标签族内的不同用户类别标签，例如，某历史角色创建数据对应的用户类别标签为中价值用户标签和高价值标签，此方案不可实施。

在一个实施例中，针对每个历史角色创建数据，共有8个用户类别标签，其中在价值标签族，依据用户的首月付费数据，对符合对应付费分段的标签记为“1”，其余标签记为“0”；在行为标签族，依据用户的首月游戏体验数据，对符合对应游戏性内容的标签记为“1”，其余标签记为“0”，在该族中，当玩家被判定为工作室角色后，其工作室角色标签会记为“1”，该族的其余三个标签直接记为“0”。

步骤2.2，从用户类别标签中确定目标类别标签，并根据目标类别标签对应的历史角色创建数据进行扩增处理得到模拟数据。考虑到现有技术存在数据样本不平衡的问题，当部分用户类别标签对应的历史角色创建数据的数据量较小时，此时将无法通过用户分类网络对其用户类别进行准确识别，基于此，本发明实施例可以将数据量较小的历史角色创建数据(即，小类样本数据)对应的用户类别标签确定为目标类别标签，并对小类样本数据进行扩增处理。在一种实施方式中，基于目标类别标签对应的历史角色创建数据(以下简称目标标签用户样本)的数据分布以及非目标类别标签对应的历史角色创建数据(以下简称非目标标签用户样本)的数据分布，使用SMOTE(Synthetic Minority OversamplingTechnique，人工少数类过采样法)算法实现目标标签用户样本的扩增，依据具体数据样本情况，可将目标标签用户样本扩增至5倍、10倍或者50倍，扩增后的数据中目标标签用户样本和非目标标签用户样本的数据比例为1:1。其中SMOTE算法其基本逻辑为：依据两类样本数据分布的不同，在小类样本间生成新的小类样本，在大类样本间不生成新的小类样本。

为便于理解上述SMOTE算法，本发明实施例基于如图2和图3所示的样本扩增示意图，对SMOTE算法进行解释说明，以二维数据进行SMOTE算法为例，其中标星号部分为小类样本(也即，目标标签用户样本)，标圆部分为大类样本(也即，非目标标签用户样本)，SMOTE算法即是依据小类样本和大类样本的数据分布情况，确定小类样本分布较为密集的区域，然后在小类样本分布之间生成新的小类样本，即图3中正方形样本，对于小类样本较少的区域则不生成新样本，从而实现小类样本的扩增。

本发明实施例针对部分用户类别标签对应的历史角色创建数据稀少的情况，将采用SMOTE算法实现目标分类用户数据增补，SMOTE算法具体指基于当前目标分类用户数据分布以及非目标分类用户数据分布建立分布模型，在目标分类用户数据分布较密集的区域自动生成部分模拟数据，实现目标分类用户数据的增补从而有效提高目标标签用户样本的识别准确度。

步骤2.3，对每个历史角色创建数据进行异常值统计，并对每个历史角色创建数据所包含的异常值进行填补处理。其中，异常值包括可选极端值和/或可选缺失值。为便于理解，本发明实施例针对可选极端值和可选缺失值分别提供了对每个历史角色创建数据所包含的异常值进行填补处理的实施方式，请参见如下方式一至方式二：

方式一：如果该历史角色创建数据所包含的异常值包括可选极端值，利用该历史角色创建数据的特征取值均值替换可选极端值。在一种可选的实施方式中，对每个特征进行极端值统计，对于极端异常值进行临界数据填补，极端值是指其取值超过特征取值均值的三倍标准差的数据取值，对于该极端值可以按照特征取值均值的三倍标准差来进行替换。

方式二：如果该历史角色创建数据所包含的异常值包括可选缺失值，根据各个可选缺失值的缺失比例确定目标缺失值，并根据该历史角色创建数据确定目标缺失值的缺失填补值。在一种实施方式中，可以按照缺失比例从低到搞对可选缺失值进行排序，首先对缺失比例较少的特征进行缺失值填补，另外，对于缺失比例超过预设阈值(诸如70％)的特征，可删除该特征，即直接因该特征缺失情况较大舍去特征。对于目标缺失值，可以按照如下填补方式进行缺失值填补：(1)依据该特征以及其他未缺失特征进行建模，其中，缺失数据特征作为目标变量，其他未缺失特征为自变量(即训练变量)；(2)采用xgboostregressor模型对缺失数据特征中未缺失的样本进行建模；(3)利用建立的模型对缺失数据中缺失部分进行预测，模型预测值即为缺失填补值；(4)在填补完缺失比例较少特征后，依次以(1)至(3)按照缺失比例从少到多填补各缺失特征数据。

由于本发明实施例只考虑用户从登录游戏、开始捏脸至捏脸完成期间的数据，对数据特征进行缩减，且采用的是集成学习算法，其相比于现有技术中神经网络模型的大规模运算量进一步精简，实现运算轻量化。而且由于不同游戏其捏脸系统基本类似，因此本发明实施例基本可以迁移至任何一种含捏脸系统的游戏中，实现快速迁移复用，从而有效提高了用户分类网络的普适性。

为便于对前述步骤S104进行理解，本发明实施例提供了一种利用训练数据集对初始模型组合进行训练评估的实施方式，可以参见如下步骤a至步骤b：

步骤a，将训练数据集划分为多份数据子集。其中，每份数据子集均包括属性类数据和数值类数据。在一种实施方式中，可以将训练数据集划分为K份数据子集。

步骤b，对于每次训练评估，从各个数据子集中随机确定训练子集和验证子集，利用训练子集对初始模型组合进行训练得到目标模型组合，以及将验证子集输入至该目标模型组合，得到该目标模型组合的第一预测结果。在实际应用中，可以将K-1份数据子集作为训练子集，将剩余1份数据子集作为验证子集。由于取K份数据子集中的1份数据子集作为验证子集有K种方式，因此可以对初始目标模型进行K次训练，从而得到K个目标模型组合和K个目标模型组合各自针对验证子集的第一预测模型。

在一种可选的实施方式中，初始模型组合包括不同类型的神经网络模型，和/或，同类型不同参数的神经网络模型，其中，参数是指类似学习率、叶子节点数、叶子节点最大分裂数等。考虑到现有技术中采用的神经网络算法，神经网络算法作为一种黑盒算法，只有输出的模型结果，缺乏对模型判别过程的解释，缺乏可解释性，因此当玩家被分类为某数据类别时，产品决策者无法得知该玩家因为什么被分为该类别，因此缺乏决策支持，因此本发明实施例中的神经网络模型可以包括Catboost模型、Xgboost模型、LightGBM模型中的一种或多种，例如，初始模型组合包括10个Catboost模型、10个Xgboost模型和10个LightGBM模型，且每个Catboost模型的参数不同、每个Xgboost模型的参数不同、每个LightGBM模型的参数不同。本发明实施例将基于用户捏脸行为特征，采用集成学习算法，例如XGBoost模型、LightGBM模型以及Catboost模型，可基于训练数据得到可解释特征，用于分类用户的具体捏脸画像定义解释。

基于此，本发明实施例提供了一种上述步骤b实施方式，参见如下步骤b1至步骤b2：

步骤b1，如果初始模型组合包括Catboost模型，利用属性类数据对Catboost模型进行训练。在一种实施方式中，将训练数据分为K份数据子集，对于一次训练，将K-1份训练子集输入Catboost模型进行训练，对Catboost模型指定分类特征(也即，上述属性类数据)，训练过程中调整不同的模型参数，得到不同参数下的Catboost模型，并输出对验证子集的第一预测结果。

步骤b2，如果初始模型组合包括Xgboost模型或LightGBM模型，对属性类数据进行独热编码处理，并合并数值类数据和独热编码处理后的属性类数据构成输入数据，利用输入数据对Xgboost模型或LightGBM模型进行训练。其中，独热编码处理是指，将类似于“玩家是否选择过A脸型”的0-1变量，和类似于“玩家捏脸秒数”的连续性特征作为两列数据输入到Xgboost模型或LightGBM模型中进行模型训练，此即为分类特征与数值特征的合并。

在一种实施方式中，对Xgboost模型进行训练，将训练数据中的分类特征进行独热编码，并将编码后的分类特征与数值特征(也即，上述数值类数据)合并，构成新的训练数据。将新的训练数据分为K份，对于一次训练，将K-1份训练子集输入Xgboost模型进行训练，对Xgboost模型训练过程中调整不同的模型参数，得到不同参数下的Xgboost模型，并输出对剩余1份验证子集的预测结果；在另一种实施方式中，对LightGBM模型进行训练。将训练数据中的分类特征进行独热编码，并将编码后的分类特征与数值特征合并，构成新的训练数据。将新的训练数据分为K份，对于一次训练，将K-1份训练子集输入LightGBM模型进行训练，训练过程中调整不同的模型参数，得到不同参数下的LightGBM模型，并输出对剩余1份验证子集的第一预测结果。

可选的，上述第一预测结果可以为“玩家是否属于X分类的概率”，这个X分类具体是指八种用户类别标签，即“样本玩家是否属于高价值玩家”、“样本玩家是否属于中价值玩家”、“样本玩家是否属于低价值玩家”、“样本玩家是否属于非付费玩家”、“样本玩家是否属于工作室玩家”、“样本玩家是否属于PVE玩家”、“样本玩家是否属于PVP玩家”、“样本玩家是否属于纯休闲玩家”。

此外，逻辑回归模型的输出结果与上述XGBoost模型、LightGBM模型以及Catboost模型相同，逻辑回归模型即在上述模型的第一预测结果上再次进行训练和预测。

为进一步提高用户分类网络的分类准确性，本发明实施例还提供了一种前述步骤S108的实施方式，参见如下步骤一至步骤三：

步骤一，对于每个候选用户分类网络，利用该候选用户分类网络内目标模型组合的第一预测结果，对该候选用户分类网络内逻辑回归模型进行训练评估，并确定该候选用户分类网络输出的第二预测结果。其中，第二预测结果包括每个标签族内每个用户类别标签对应的概率。在一种实施方式中，将Catboost模型、Xgboost模型以及LightGBM模型不同参数下的模型输出结果(也即，上述第一预测结果)作为训练数据进行逻辑回归模型训练，并输出对剩余1份检验数据的第二预测结果。

步骤二，基于预设评价指标和该候选用户分类网络输出的第二预测结果，对该候选用户分类网络进行评价得到评价分数。为便于对上述步骤二进行理解，本发明实施例提供了如下实施方式：可以从该候选用户分类网络输出的第二预测结果中，确定出每个标签族内概率最高的用户类别标签，然后基于预设评价指标和每个标签族内概率最高的用户类别标签，计算该候选用户分类网络的评价分数。其中，预设评价指标包括roc_auc(receiveroperating characteristic curve-Area Under Curve)指标，roc_auc如下所示：

其中，M是指高价值用户的样本数，N是指非高价值用户的样本数，其计算逻辑为：将候选用户分类网络预测的概率值从高到低进行排序，其中排序第一位的样本得到rank值为M+N，排序最后一位的样本得到rank值为1。公式中rank部分即指所有实际为高价值用户的样本的rank值加和。本发明实施例在模型训练过程中采用roc_auc指标以进一步消除目标分类用户数据稀少导致的模型效果不佳，roc_auc指标考虑了小类样本，在模型训练过程中不会因为样本数据类别不平衡导致模型对小类样本的预测效果下降。

步骤三，根据评价分数从候选用户分类网络中确定目标用户分类网络。在一种实施方式中，基于K种不同的候选用户分类网络，选择其在1份检验数据中效果最好的候选用户分类网络作为目标用户分类网络。

为便于对前述实施例进行理解，本发明实施例提供了一种应用示例，对于每一个用户类别标签，对于经过数据预处理后获得的数据特征，将其均分为K份数据。对于每一个用户类别标签，共进行K次模型训练，因此合计共进行8*K次模型训练，对于其中的一次模型训练，将K-1份数据作为训练集分别训练Xgboost模型、LightGBM模型以及Catboost模型，并基于不同模型的参数得到不同参数下的Xgboost模型、LightGBM模型以及Catboost模型，并将模型对训练集样本的预测结果作为训练集，进行逻辑回归模型的二次训练，得到逻辑回归模型，并基于此进行剩余1份数据集的样本预测，模型训练优化目标为roc_auc函数，其中roc_auc函数为ROC(receiver operating characteristic curve，受试者工作特征曲线)曲线下的面积，其体现模型对两类样本的预测准确性，且克服了由于一类样本数量过少而导致模型对小类样本预测不好的问题。经过K次模型训练得到K个模型及其测试集预测结果，选择测试集预测结果最好的模型为方案的最终预测模型。

基于前述实施例提供的用户分类网络的训练方法，本发明实施例提供了一种用户分类方法，参见图4所示的一种用户分类方法的流程示意图，该方法主要包括以下步骤S402至步骤S404：

步骤S402，获取待分类行为数据。其中，待分类行为数据包括用户在创建虚拟角色阶段的当前角色创建数据。

步骤S404，通过目标用户分类网络对待分类行为数据进行分类处理，得到用户对应的用户分类结果。其中，目标用户分类网络是采用前述实施例提供的用户分类网络的训练方法训练得到的。在一种可选的实施方式中，针对每个用户类别标签，基于训练好的目标用户分类网络进行预测。首先对于待分类行为数据，进行基本的数据预处理工作，包括删除极端异常值，使用xgboostregressor模型进行缺失值填补。然后采用目标用户分类网络中的目标模型组合对待分类行为数据进行预测，预测结果经过训练好的逻辑回归模型实现最终预测输出。每个待分类行为数据经过8个标签模型预测后，会产生8个预测结果，针对每个族，取该样本预测概率在该族中最高的标签作为其预测标签，从而最终形成该样本的两个族下各一个的预测标签。

可选的，可通过定制服务方式，对预测到的高价值玩家进行专门服务和活动推送；针对识别到的大量新增工作室玩家，及时跟进处理，采取封禁隔离等措施，将相关工作室角色及时移出游戏生态系统，防止对游戏生态造成极大影响；及时了解玩家在捏脸中的需求和捏脸方向，通过迭代捏脸系统以进一步优化玩家体验；针对预测到的中高价值玩家，在玩家新手期阶段推送特定符合其游戏需求的高价值商城礼包等。

本发明实施例提供的上述用户分类方法，利用上述用户分类网络的训练方法训练得到的目标用户分类网络对待分类行为数据进行分类处理，可以有效提高用户分类时效性以及降低运算量，还可以显著提高用户分类网络的普适性。

为便于理解，本发明实施例提供了一种用户分类方法的应用示例，参见图5所示的另一种用户分类方法的流程示意图，该方法主要包括以下步骤S502至步骤S520：

步骤S502，获取捏脸期间数据(也即，上述历史角色创建数据)。

步骤S504，将训练数据集的特征分为分类特征和数值特征。

步骤S506，将用户类别标签划分为价值标签族和行为标签族。

步骤S508，对捏脸期间数据进行预处理得到训练数据集。在一种实施方式中，针对共两大族八大类用户类别标签中的具体某个标签，训练数据采取SMOTE算法实现目标标签用户数据样本模拟，使目标标签用户数据集增多，删除数据特征中的异常数据并针对训练数据中缺失值较多的特征采用xgboostregressor模型进行特征缺失值填补。

步骤S510，利用训练数据集对Catboost模型进行训练。

步骤S512，利用训练数据集对Xgboost模型进行训练。

步骤S514，利用训练数据集对LightGBM模型进行训练。

步骤S516，将Catboost模型、Xgboost模型以及LightGBM模型在不同参数下的第一预测结果作为训练数据进行逻辑回归模型训练，得到逻辑回归模型针对1份校验数据的第二预测结果。

步骤S518，基于第二预测结果确定目标用户分类网络。在一种实施方式中，基于K次不同的候选用户分类网络，选择其在1份检验数据中效果最好的候选用户分类网络作为目标用户分类网络。

步骤S520，利用目标用户分类网络对新增用户进行分类处理，确定新增用户的用户分类结果。在一种实施方式中，对于每日新增角色，基于其新增捏脸阶段的待分类行为特征，输入至上述目标用户分类网络，得到用户分类结果。

综上所述，本发明实施例提供的用户分类网络的训练方法、用户分类方法至少具有如下特点：(1)可以有效地利用角色捏脸阶段的各项数据信息，用于角色分类及时判别，缩短高价值、工作室性质等角色判别周期，提高判别准确性；(2)利用上述步骤S508，增加了各类稀有分类角色样本数量，有效提高模型准确性；(3)利用上述步骤S510至步骤S514，有效提升模型预测准确性以及模型训练速度；(4)利用上述步骤S516，通过将不同模型结果进行融合并再次训练，有效地提升模型预测准确性。

对于前述实施例提供的用户分类网络的训练方法，本发明实施例提供了一种用户分类网络的训练装置，参见图6所示的一种用户分类网络的训练装置的结构示意图，该装置主要包括以下部分：

数据集获取模块602，用于获取训练数据集；其中，训练数据集是基于历史角色创建数据构建的，训练数据集包括携带有用户类别标签的训练数据。

第一训练评估模块604，用于利用训练数据集对初始模型组合进行训练评估，得到至少一个目标模型组合和每个目标模型组合输出的第一预测结果。

构建模块606，用于基于逻辑回归模型和每个目标模型组合构建至少一个候选用户分类网络。

第二训练评估模块608，用于利用第一预测结果分别对每个候选用户分类网络进行训练评估，并从候选用户分类网络中确定目标用户分类网络。

本发明实施例提供的上述用户分类模型的训练装置，可以在虚拟角色处于创建阶段时收集用户的各项数据信息，从而利用基于历史角色创建数据构建的训练数据集训练初始模型组合，不仅无需等待用户游戏时再采集用户行为数据，使得到的用户分类网络具有更高的时效性，而且通过对目标模型组合进行第一次训练评估、对候选用户分类网络进行第二次训练评估，可以在整体上提高模型预测准确性和模型训练速度，也在一定程度上提高了用户分类时效性。进一步的，由于虚拟角色创建过程中的数据远小于用户游戏过程中的行为数据，因此还可以有效降低运算量；由于不同游戏虚拟角色的创建过程大同小异，因此训练得到的用户分类网络可以较好地应用于不同游戏，从而显著提高了用户分类网络的普适性。

在一种实施方式中，数据集获取模块602还用于：获取至少一个历史角色创建数据；对每个历史角色创建数据进行预处理得到训练数据集；其中，预处理包括标签标注处理、扩增处理、填补处理中的一种或多种。

在一种实施方式中，数据集获取模块602还用于：基于至少一个标签族对每个历史角色创建数据进行标签标注处理，确定每个历史角色创建数据对应的用户类别标签；其中，每个标签族包括至少一个用户类别标签；或，从用户类别标签中确定目标类别标签，并根据目标类别标签对应的历史角色创建数据进行扩增处理得到模拟数据；或，对每个历史角色创建数据进行异常值统计，并对每个历史角色创建数据所包含的异常值进行填补处理；其中，异常值包括可选极端值和/或可选缺失值。

在一种实施方式中，数据集获取模块602还用于：如果该历史角色创建数据所包含的异常值包括可选极端值，利用该历史角色创建数据的特征取值均值替换可选极端值；如果该历史角色创建数据所包含的异常值包括可选缺失值，根据各个可选缺失值的缺失比例确定目标缺失值，并根据该历史角色创建数据确定目标缺失值的缺失填补值。

在一种实施方式中，第一训练评估模块604还用于：将训练数据集划分为多份数据子集；每份数据子集均包括属性类数据和数值类数据；对于每次训练评估，从各个数据子集中随机确定训练子集和验证子集，利用训练子集对初始模型组合进行训练得到目标模型组合，以及将验证子集输入至该目标模型组合，得到该目标模型组合的第一预测结果；其中，初始模型组合包括不同类型的神经网络模型，和/或，同类型不同参数的神经网络模型。

在一种实施方式中，神经网络模型包括Catboost模型、Xgboost模型、LightGBM模型中的一种或多种。

在一种实施方式中，第一训练评估模块604还用于：如果初始模型组合包括Catboost模型，利用属性类数据对Catboost模型进行训练；如果初始模型组合包括Xgboost模型或LightGBM模型，对属性类数据进行独热编码处理，并合并数值类数据和独热编码处理后的属性类数据构成输入数据，利用输入数据对Xgboost模型或LightGBM模型进行训练。

在一种实施方式中，第二训练评估模块608还用于：对于每个候选用户分类网络，利用该候选用户分类网络内目标模型组合的第一预测结果，对该候选用户分类网络内逻辑回归模型进行训练评估，并确定该候选用户分类网络输出的第二预测结果；其中，第二预测结果包括每个标签族内每个用户类别标签对应的概率；基于预设评价指标和该候选用户分类网络输出的第二预测结果，对该候选用户分类网络进行评价得到评价分数；其中，预设评价指标包括roc_auc指标；根据评价分数从候选用户分类网络中确定目标用户分类网络。

在一种实施方式中，第二训练评估模块608还用于：从该候选用户分类网络输出的第二预测结果中，确定出每个标签族内概率最高的用户类别标签；基于预设评价指标和每个标签族内概率最高的用户类别标签，计算该候选用户分类网络的评价分数。

在一种实施方式中，标签族包括价值标签族和/或行为标签族，价值标签族包括高价值用户标签、中价值用户标签、低价值用户标签、非付费用户标签中的一种或多种，行为标签族包括工作室用户标签、休闲用户标签、PVP用户标签、PVE用户标签中的一种或多种。

对于前述实施例提供的用户分类方法，本发明实施例还提供了一种用户分类装置，参见图7所示的一种用户分类装置的结构示意图，该装置主要包括以下部分：

行为数据获取模块702，用于获取待分类行为数据；其中，待分类行为数据包括用户在创建虚拟角色阶段的当前角色创建数据。

分类模块704，用于通过目标用户分类网络对待分类行为数据进行分类处理，得到用户对应的用户分类结果；其中，目标用户分类网络是采用如前述实施例提供的用户分类网络的训练方法训练得到的。

本发明实施例提供的上述用户分类装置，利用上述用户分类网络的训练方法训练得到的目标用户分类网络对待分类行为数据进行分类处理，可以有效提高用户分类时效性以及降低运算量，还可以显著提高用户分类网络的普适性。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本发明实施例提供了一种电子设备，具体的，该电子设备包括处理器和存储装置；存储装置上存储有计算机程序，计算机程序在被所述处理器运行时执行如上所述实施方式的任一项所述的方法。

图8为本发明实施例提供的一种电子设备的结构示意图，该电子设备100包括：处理器80，存储器81，总线82和通信接口83，所述处理器80、通信接口83和存储器81通过总线82连接；处理器80用于执行存储器81中存储的可执行模块，例如计算机程序。

其中，存储器81可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口83(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线82可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器81用于存储程序，所述处理器80在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器80中，或者由处理器80实现。

处理器80可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器80中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器80可以是通用处理器，包括中央处理器(CentralProcessing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器81，处理器80读取存储器81中的信息，结合其硬件完成上述方法的步骤。

本发明实施例所提供的可读存储介质的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见前述方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种用户分类网络的训练方法，其特征在于，包括：

获取训练数据集；其中，所述训练数据集是基于历史角色创建数据构建的，所述训练数据集包括携带有用户类别标签的训练数据；

利用所述训练数据集对初始模型组合进行训练评估，得到至少一个目标模型组合和每个所述目标模型组合输出的第一预测结果；

基于逻辑回归模型和每个所述目标模型组合构建至少一个候选用户分类网络；

利用所述第一预测结果分别对每个所述候选用户分类网络进行训练评估，并从所述候选用户分类网络中确定目标用户分类网络。

2.根据权利要求1所述的方法，其特征在于，所述获取训练数据集的步骤，包括：

获取至少一个历史角色创建数据；

对每个所述历史角色创建数据进行预处理得到训练数据集；其中，所述预处理包括标签标注处理、扩增处理、填补处理中的一种或多种。

3.根据权利要求2所述的方法，其特征在于，所述对每个所述历史角色创建数据进行预处理得到训练数据集的步骤，包括：

基于至少一个标签族对每个所述历史角色创建数据进行标签标注处理，确定每个所述历史角色创建数据对应的用户类别标签；其中，每个所述标签族包括至少一个用户类别标签；

或，从所述用户类别标签中确定目标类别标签，并根据所述目标类别标签对应的历史角色创建数据进行扩增处理得到模拟数据；

或，对每个所述历史角色创建数据进行异常值统计，并对每个所述历史角色创建数据所包含的异常值进行填补处理；其中，所述异常值包括可选极端值和/或可选缺失值。

4.根据权利要求3所述的方法，其特征在于，所述并对每个所述历史角色创建数据所包含的异常值进行填补处理的步骤，包括：

如果该历史角色创建数据所包含的异常值包括可选极端值，利用该历史角色创建数据的特征取值均值替换所述可选极端值；

如果该历史角色创建数据所包含的异常值包括可选缺失值，根据各个所述可选缺失值的缺失比例确定目标缺失值，并根据该历史角色创建数据确定所述目标缺失值的缺失填补值。

5.根据权利要求1所述的方法，其特征在于，所述利用所述训练数据集对初始模型组合进行训练评估，得到至少一个目标模型组合和每个所述目标模型组合输出的第一预测结果的步骤，包括：

将所述训练数据集划分为多份数据子集；每份所述数据子集均包括属性类数据和数值类数据；

对于每次训练评估，从各个所述数据子集中随机确定训练子集和验证子集，利用所述训练子集对所述初始模型组合进行训练得到目标模型组合，以及将所述验证子集输入至该目标模型组合，得到该目标模型组合的第一预测结果；

其中，所述初始模型组合包括不同类型的神经网络模型，和/或，同类型不同参数的神经网络模型。

6.根据权利要求5所述的方法，其特征在于，所述神经网络模型包括Catboost模型、Xgboost模型、LightGBM模型中的一种或多种。

7.根据权利要求6所述的方法，其特征在于，所述利用所述训练子集对所述初始模型组合进行训练得到目标模型组合的步骤，包括：

如果所述初始模型组合包括Catboost模型，利用所述属性类数据对所述Catboost模型进行训练；

如果所述初始模型组合包括Xgboost模型或LightGBM模型，对所述属性类数据进行独热编码处理，并合并所述数值类数据和独热编码处理后的属性类数据构成输入数据，利用所述输入数据对所述Xgboost模型或LightGBM模型进行训练。

8.根据权利要求1所述的方法，其特征在于，所述利用所述第一预测结果分别对每个所述候选用户分类网络进行训练评估，并从所述候选用户分类网络中确定目标用户分类网络的步骤，包括：

对于每个所述候选用户分类网络，利用该候选用户分类网络内目标模型组合的第一预测结果，对该候选用户分类网络内逻辑回归模型进行训练评估，并确定该候选用户分类网络输出的第二预测结果；其中，所述第二预测结果包括每个标签族内每个用户类别标签对应的概率；

基于预设评价指标和该候选用户分类网络输出的第二预测结果，对该候选用户分类网络进行评价得到评价分数；其中，所述预设评价指标包括roc_auc指标；

根据所述评价分数从所述候选用户分类网络中确定目标用户分类网络。

9.根据权利要求8所述的方法，其特征在于，所述基于预设评价指标和该候选用户分类网络输出的第二预测结果，对该候选用户分类网络进行评价得到评价分数的步骤，包括：

从该候选用户分类网络输出的第二预测结果中，确定出每个标签族内概率最高的用户类别标签；

基于预设评价指标和每个标签族内概率最高的用户类别标签，计算该候选用户分类网络的评价分数。

10.根据权利要求9所述的方法，其特征在于，所述标签族包括价值标签族和/或行为标签族，所述价值标签族包括高价值用户标签、中价值用户标签、低价值用户标签、非付费用户标签中的一种或多种，所述行为标签族包括工作室用户标签、休闲用户标签、PVP用户标签、PVE用户标签中的一种或多种。

11.一种用户分类方法，其特征在于，包括：

获取待分类行为数据；其中，所述待分类行为数据包括用户在创建虚拟角色阶段的当前角色创建数据；

通过目标用户分类网络对所述待分类行为数据进行分类处理，得到所述用户对应的用户分类结果；其中，所述目标用户分类网络是采用如权利要求1-10任一项所述的用户分类网络的训练方法训练得到的。

12.一种用户分类网络的训练装置，其特征在于，包括：

数据集获取模块，用于获取训练数据集；其中，所述训练数据集是基于历史角色创建数据构建的，所述训练数据集包括携带有用户类别标签的训练数据；

第一训练评估模块，用于利用所述训练数据集对初始模型组合进行训练评估，得到至少一个目标模型组合和每个所述目标模型组合输出的第一预测结果；

构建模块，用于基于逻辑回归模型和每个所述目标模型组合构建至少一个候选用户分类网络；

第二训练评估模块，用于利用所述第一预测结果分别对每个所述候选用户分类网络进行训练评估，并从所述候选用户分类网络中确定目标用户分类网络。

13.一种用户分类装置，其特征在于，包括：

行为数据获取模块，用于获取待分类行为数据；其中，所述待分类行为数据包括用户在创建虚拟角色阶段的当前角色创建数据；

分类模块，用于通过目标用户分类网络对所述待分类行为数据进行分类处理，得到所述用户对应的用户分类结果；其中，所述目标用户分类网络是采用如权利要求1-10任一项所述的用户分类网络的训练方法训练得到的。

14.一种电子设备，其特征在于，包括处理器和存储器；

所述存储器上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1至10任一项所述的方法，或执行如权利要求11所述的方法。

15.一种计算机存储介质，其特征在于，用于储存为权利要求1至10任一项所述方法所用的计算机软件指令，或储存为权利要求11所述方法所用的计算机软件指令。