CN110245687B

CN110245687B - 用户分类方法以及装置

Info

Publication number: CN110245687B
Application number: CN201910412432.6A
Authority: CN
Inventors: 陆亚男; 丁冲; 王憧生
Original assignee: Tencent Technology Shanghai Co Ltd
Current assignee: Tencent Technology Shanghai Co Ltd
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2021-06-04
Anticipated expiration: 2039-05-17
Also published as: CN110245687A

Abstract

本申请实施例公开了一种用户分类方法以及装置；本申请实施例可以获取用户聚类集、以及目标用户的目标用户特征，用户聚类集包括至少一种用户类型对应的类型特征；根据目标用户的目标用户特征确定相似度度量；基于相似度度量对目标用户特征进行相似度分析，得到目标用户特征与类型特征之间的特征相似度；根据特征相似度从用户聚类集中确定与目标用户特征最相似的类型特征，得到目标类型特征；基于目标类型特征对应的用户类型确定目标用户所属的用户类型。在本申请实施例中可以针对不同的用户特征，来采用不同的相似度度量，从而确定与目标用户最相似的用户类型。由此，该方案可以提升用户分类的准确性。

Description

用户分类方法以及装置

技术领域

本申请涉及计算机领域，具体涉及一种用户分类方法以及装置。

背景技术

近年来，随着互联网发展，互联网企业需要对用户进行评估，从将用户划分为不同的用户群，针对不同的用户群提供不同的个性化服务，从而达到提高用户体验、降低运营开销、提高用户留存率等的目的。比如，在电子游戏中，可以将游戏玩家划分为竞技型玩家、社交型玩家、探索型玩家，等等，游戏运营商可以针对玩家的类型为其提供不同的游戏奖励，比如，为竞技型玩家提供赛季末竞技点数、为社交型玩家推送交友信息、为探索型玩家提供成就达成点数，等等。

然而，目前用户分类的方法存在准确性低的问题。

发明内容

本申请实施例提供一种用户分类方法以及装置，可以提升用户分类的准确性。

本申请实施例提供一种用户分类方法，包括：

获取用户聚类集、以及目标用户的目标用户特征，所述用户聚类集包括至少一种用户类型对应的类型特征；

根据所述目标用户的目标用户特征确定相似度度量；

基于所述相似度度量对目标用户特征进行相似度分析，得到目标用户特征与类型特征之间的特征相似度；

根据所述特征相似度从用户聚类集中确定与目标用户特征最相似的类型特征，得到目标类型特征；

基于所述目标类型特征对应的用户类型确定所述目标用户所属的用户类型。

在一些实施例中，根据所述目标用户的目标用户特征确定相似度度量，包括：

对所述目标用户的目标用户特征进行密度统计，确定目标用户特征的密度范围；

当所述目标用户特征的密度范围为稀疏密度范围时，获取稀疏密度范围对应的第一相似度度量作为相似度度量；

当所述目标用户特征的密度范围为稠密密度范围时，获取稠密密度范围对应的第二相似度度量作为相似度度量。

在一些实施例中，所述目标用户特征包括子特征；对所述目标用户的目标用户特征进行密度统计，确定目标用户特征的密度范围，包括：

统计所述目标用户特征中子特征的数量，得到总信息量；

统计所述目标用户特征中信息值为预设无效值的子特征数量，得到无效信息量；

根据所述无效信息量与总信息量计算目标用户特征的特征密度值；

基于预设密度区间确定所述特征密度值所属的密度范围，得到目标用户特征所属的密度范围。

在一些实施例中，基于所述相似度度量对目标用户特征进行相似度分析，得到目标用户特征与类型特征之间的特征相似度，包括：

当所述相似度度量为第一相似度度量时，基于所述第一相似度度量计算目标用户特征与类型特征之间的余弦相似度，得到目标用户特征与类型特征之间的特征相似度；

当所述相似度度量为第二相似度度量时，基于所述第二相似度度量计算目标用户特征与类型特征之间的距离相似度，得到目标用户特征与类型特征之间的特征相似度。

在一些实施例中，基于所述第一相似度度量计算目标用户特征与类型特征之间的余弦相似度，得到目标用户特征与类型特征之间的特征相似度，包括：

计算所述目标用户特征的特征向量长度、以及类型特征的特征向量长度；

计算所述目标用户特征和类型特征之间的特征向量内积；

基于第一相似度度量对所述特征向量内积以及特征向量长度进行余弦夹角值计算，得到目标用户特征与类型特征之间的余弦夹角值，作为目标用户特征与类型特征之间的特征相似度。

在一些实施例中，基于所述第二相似度度量计算目标用户特征与类型特征之间的距离相似度，得到目标用户特征与类型特征之间的特征相似度，包括：

计算所述目标用户特征和类型特征之间的特征向量差；

基于所述特征向量差计算所述目标用户特征和类型特征之间的相对距离；

对所述相对距离进行归一化处理，得到目标用户特征与类型特征之间的特征相似度。

在一些实施例中，获取用户聚类集、以及目标用户的目标用户特征，包括：

获取用户聚类集、以及目标用户的待处理目标用户特征；

对所述待处理目标用户特征进行数据预处理，得到目标用户的目标用户特征。

在一些实施例中，所述待处理目标用户特征包括多个子特征；对所述待处理目标用户特征进行数据预处理，得到目标用户的目标用户特征，包括：

对所述待处理目标用户特征中包含异常值的子特征进行异常消解处理，得到第一待处理目标用户特征；

对所述第一待处理目标用户特征进行弱相关处理，得到第二待处理目标用户特征；

剔除所述第二处理目标用户特征中稳定性低于预设阈值的子特征，得到第三待处理目标用户特征；

对所述第三待处理目标用户特征进行数据变换，到目标用户的目标用户特征。

在一些实施例中，基于所述目标类型特征对应的用户类型确定所述目标用户所属的用户类型之后，还包括：

基于所述目标用户特征对用户聚类集中的目标类型特征进行更新操作，得到更新后的用户聚类集；

重复执行步骤获取用户聚类集、以及目标用户的目标用户特征。

本申请实施例还提供一种用户分类装置，包括：

获取单元，用于获取用户聚类集、以及目标用户的目标用户特征，所述用户聚类集包括至少一种用户类型对应的类型特征；

度量单元，用于根据所述目标用户的目标用户特征确定相似度度量；

相似度单元，用于基于所述相似度度量对目标用户特征进行相似度分析，得到目标用户特征与类型特征之间的特征相似度；

最相似单元，用于根据所述特征相似度从用户聚类集中确定与目标用户特征最相似的类型特征，得到目标类型特征；

确定单元，用于基于所述目标类型特征对应的用户类型确定所述目标用户所属的用户类型。

本申请实施例可以获取用户聚类集、以及目标用户的目标用户特征，用户聚类集包括至少一种用户类型对应的类型特征；根据目标用户的目标用户特征确定相似度度量；基于相似度度量对目标用户特征进行相似度分析，得到目标用户特征与类型特征之间的特征相似度；根据特征相似度从用户聚类集中确定与目标用户特征最相似的类型特征，得到目标类型特征；基于目标类型特征对应的用户类型确定目标用户所属的用户类型。在本申请实施例中可以针对不同的用户特征，来采用不同的相似度度量，从而确定与目标用户最相似的用户类型。由此，该方案可以提升用户分类的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的用户分类方法的场景示意图；

图1b是本申请实施例提供的用户分类方法的流程示意图；

图1c是本申请实施例提供的用户聚类集的结构示意图；

图1d是本申请实施例提供的类型特征格式的示意图；

图1e是本申请实施例提供的数据预处理的流程示意图；

图1f是本申请实施例提供的目标用户特征与类型特征之间的参数关系示意图；

图2a是本申请实施例提供的玩家聚类集的特征维度示意图；

图2b是本申请实施例提供的异常消解处理的过程示意图；

图2c是本申请实施例提供的弱相关处理的过程示意图；

图2d是本申请实施例提供的剔除低稳定性子特征的过程示意图；

图2e是本申请实施例提供的数据变换的过程示意图；

图3是本申请实施例提供的用户分类装置的结构示意图；

图4是本申请实施例提供的网络设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种用户分类方法以及装置。

其中，该用户分类装置具体可以集成在电子设备中，该电子设备可以为终端、服务器、个人电脑(Personal Computer，PC)等设备，例如网络服务器。

参考图1a提供的用户分类方法场景示意图，该电子设备可以集成在聚类服务器中，该聚类服务器可以从用户数据库服务器中获取目标用户的目标用户特征，该用户聚类集包括至少一种用户类型对应的类型特征，以及读取本地内存中的用户聚类集，然后根据目标用户的目标用户特征确定相似度度量；并基于相似度度量对目标用户特征进行相似度分析，得到目标用户特征与类型特征之间的特征相似度；最后根据特征相似度从用户聚类集中确定与目标用户特征最相似的类型特征，得到目标类型特征，基于目标类型特征对应的用户类型确定目标用户所属的用户类型。

以下分别进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。

在本实施例中，提供了一种用户分类方法，参考图1b所示的用户分类方法流程示意图，该用户分类方法的具体流程可以如下：

101、获取用户聚类集、以及目标用户的目标用户特征，用户聚类集包括至少一种用户类型对应的类型特征。

其中，用户聚类集是指以类型特征来进行聚类(Clustering)所得到的多个聚类簇(Cluster)，如图1c所示的用户聚类集的结构示意图，图中包括三个聚类簇，分别为聚类簇A、聚类簇B、聚类簇C，每个聚类簇都可以代表一种用户类型，其中，每个聚类簇可以由相似维度(X，Y)的类型特征组成，即每个聚类簇都包括一种用户类型所对应的类型特征。

其中，类型特征(也可称为类型变量)指可以对用户进行分类的特征参数，比如，用户的类型特征可以包括用户的每日登陆时长、用户年龄、用户所在地区，等等。

该类型特征可以为多维特征，每一维度的特征可以代表对用户进行分类的某一特征参数，比如，该用户类型特征可以同时包括用户的每日登陆时长、用户年龄、以及用户所在地区。

该类型特征可以以向量的形式保存，参考图1d所示的类型特征格式的示意图，该用户的类型特征以向量的形式保存，表示了4个维度的特征参数，分别为用户年龄、用户性别、用户登陆时长、用户充值金额，该用户的类型特征可以被记作4维向量[32，1，122，128]。

其中，用户类型是指该聚类簇中所有类型特征所对应的共有类型，比如，假设图1c中聚类簇A的多个类型特征相似，其类型特征所对应的共有类型均为用户年龄约18、性别为男性，该聚类簇中所有类型特征所对应的共有类型(即用户类型)可被定义为青少年男性。

其中，目标用户特征指目标用户的类型特征，目标用户是指当前将要对其进行分类的用户对象(target)。

在一些实施例中，为了降低特殊的、错误的用户特征对用户分类带来的影响，进一步地提高用户分类准确性，步骤101可以包括以下步骤：

(1)获取用户聚类集、以及目标用户的待处理目标用户特征；

(2)对待处理目标用户特征进行数据预处理，得到目标用户的目标用户特征。

其中，数据预处理(data preprocessing)是指在进行用户分类之前，将待处理目标用户特征进行一些处理，将具有不完整、不一致、不可靠性质的待处理目标用户特征转化为可用、可靠的目标用户特征。

比如，按照处理方法分类，数据预处理可以包括数据清理、数据集成、数据变换、数据归约等预处理方法。

其中，待处理目标用户特征可以包括多个子特征，参考图1e所示的数据预处理流程示意图，对待处理目标用户特征进行数据预处理可以包括以下具体步骤：

A、对待处理目标用户特征中包含异常值的子特征进行异常消解处理，得到第一待处理目标用户特征。

其中，目标用户特征可以包括多个子特征，比如，目标用户特征可以为K维向量[N₁，N₂，...N_K]，N为目标用户特征中的子特征，N_K为目标用户特征中的第K个子特征。

其中，异常值是指待处理目标用户特征中不符合预设数值的子特征数值，比如，子特征N_K不符合预设N_K的数值区间[P_K，Q_K]。譬如，目标用户特征中的子特征“性别”的预设数值为{0，1}，当该“性别”子特征的数值为3，则可以判断该子特征的数值为异常值，需要对该包含异常值的子特征进行异常消解处理。

其中，异常消解处理具有多种方法，比如，异常消解处理方法可以为修改包含异常值的子特征的数值，将其修改为符合预设数值的数值。

比如，在一些实施例中，对待处理目标用户特征中包含异常值的子特征进行异常消解处理，得到第一待处理目标用户特征的具体步骤如下：

a1)确定待处理目标用户特征中包含异常值的子特征；

a2)对所述待处理目标用户特征中包含异常值的子特征进行赋值处理，得到目标用户的目标用户特征。

B、对第一待处理目标用户特征进行弱相关处理，得到第二待处理目标用户特征。

其中，弱相关处理是指将第一待处理目标用户特征中关联性强的多个子特征进行一系列操作，来降低这些子特征的关联性对用户分类影响。

比如，在一些实施例中，对第一待处理目标用户特征进行弱相关处理，得到第二待处理目标用户特征的具体步骤如下：

b1)对待处理目标用户特征中的子特征进行关联性计算，得到子特征之间的相关系数；

b2)剔除所述待处理目标用户特征中相关系数大于预设区间的多个子特征，得到第二处理目标用户特征；或

b3)对所述待处理目标用户特征中相关系数大于预设区间的多个子特征进行降维处理，得到第二处理目标用户特征。

C、剔除第二处理目标用户特征中稳定性低于预设阈值的子特征，得到第三待处理目标用户特征。

其中，为了降低子特征的数值波动范围过大对用户分类的影响，可以通过剔除稳定性低于预设阈值的子特征来清理过低稳定性的子特征。

比如，在一些实施例中，剔除第二处理目标用户特征中稳定性低于预设阈值的子特征，得到第三待处理目标用户特征的具体步骤如下：

c1)计算待处理目标用户特征中子特征的数值稳定性；

c2)对所述待处理目标用户特征中数值稳定性低于预设阈值的子特征进行剔除操作，得到目标用户的目标用户特征

D、对第三待处理目标用户特征进行数据变换，到目标用户的目标用户特征。

其中，可以通过数据变换的方式来降低数据分布不均所导致的用户分类不准确的问题，比如，通过Box-cox变换函数、Johnson变换函数等改变第三待处理目标用户特征的分布形态。

需要注意的是，当实施上述数据预处理的具体步骤A、B、C、D时，其实施顺序可以任意组合，也可以不实施其中的一部分步骤，或者在步骤中增加其它的处理方式，在此不做限定。

102、根据目标用户的目标用户特征确定相似度度量。

相似度度量是指可以评定两个事物之间相近程度的度量(metric)，比如，根据相似度度量可以是计算两个特征之间的相似度的数学函数。

例如，按照种类来分类，相似度度量可以包括距离相似度度量、角度相似度度量、相关稀疏相似度度量，等等。

为了针对某些用户特征可能会集中出现在极少部分用户身上的情况，可以采用不同的相似度度量来计算目标用户特征和类型特征之间的相似度，从而在用户分类时更多的考虑到用户的某些特殊的数据分布，提高用户分类的准确度。

其中，相似度度量可以包括多个，保存在本地内存中，当需要根据目标用户的目标用户特征确定相似度度量时，可以读取本地内存中的多个相似度度量，并从中确定需要使用的相似度度量。

除此之外，用户分类装置还可以通过网络从数据库服务器中获取相似度度量，等等。

比如，在一些实施例中，步骤102可以包括以下步骤：

(1)对目标用户的目标用户特征进行密度统计，确定目标用户特征的密度范围。

当某些用户特征可能会集中出现在极少部分用户身上，则该极少部分用户的用户特征会以稀疏形式存在，故通过确定目标用户特征的密度，则可以判别该目标用户是否属于上述极少部分用户。

在一些实施例中，目标用户特征包括子特征；对目标用户的目标用户特征进行密度统计，确定目标用户特征的密度范围可以包括以下具体步骤：

a.统计目标用户特征中子特征的数量，得到总信息量；

b.统计目标用户特征中信息值为预设无效值的子特征数量，得到无效信息量；

c.根据无效信息量与总信息量计算目标用户特征的特征密度值；

d.基于预设密度区间确定特征密度值所属的密度范围，得到目标用户特征所属的密度范围。

其中，为预设无效值是指技术人员预设的子特征对应的数值，对应所述无预设无效值的子特征可以为某些小部分用户群体的偏向性行为，比如，预设无效值为0，目标用户特征为[2，0，0，0]，则该目标用户特征中信息值为预设无效值的子特征数量为3，即无效信息量为3。

其中，特征密度值的计算公式如下，I_invalid为目标用户特征中子特征的数量，即总信息量，I_total为目标用户特征中信息值为预设无效值的子特征数量，即无效信息量：

Dens＝I_invalid/I_total

比如，参考图1d所示的类型特征格式的示意图，可知地，该用户特征的总信息量为4，假设预设无效值的子特征为特征“用户充值金额”，即该用户特征的无效信息特征量为1，可知该用户特征的密度值为0.25，假设预设密度区间为[0，0.3]，目标用户特征符合该密度区间，则得到目标用户特征所属的密度范围为[0，0.3]。

(2)当目标用户特征的密度范围为稀疏密度范围时，获取稀疏密度范围对应的第一相似度度量作为相似度度量。

(3)当目标用户特征的密度范围为稠密密度范围时，获取稠密密度范围对应的第二相似度度量作为相似度度量。

其中，稀疏密度范围和稠密密度范围可以由技术人员设定，比如，密度范围[0，0.3]为稀疏密度范围、密度范围(0.3，1]为稠密范围时，目标用户特征所属的密度范围即为稀疏密度范围。

其中，相似度度量可以按类型分类，被称为第一相似度度量、第二相似度度量，比如可以将角度相似度度量称为第一相似度度量，将距离相似度度量称为第二相似度度量，等等。

由于角度相似度可以更好地区分特征差异而不考虑特征的数值，距离相似度可以更好地表现特征的数值，在一些实施例中，为了更好地关注用户特征中表达的用户行为倾向性，可以采用角度相似度度量作为第一相似度度量，来计算用户兴趣上稀疏密度特征的相似度，以及采用距离相似度度量作为第一相似度度量，来计算用户数值上稠密密度特征的相似度。

103、基于相似度度量对目标用户特征进行相似度分析，得到目标用户特征与类型特征之间的特征相似度。

比如，在一些实施例中，步骤103可以包括以下步骤：

(1)当相似度度量为第一相似度度量时，基于第一相似度度量计算目标用户特征与类型特征之间的余弦相似度，得到目标用户特征与类型特征之间的特征相似度。

比如，第一相似度度量为余弦(cosine)时，余弦相似度的计算公式如下：

其中，参考图1f提供的目标用户特征与类型特征之间的参数关系示意图，a、b为两个向量(目标用户特征向量与类型特征向量)，|a|为向量a的绝对值，|b|为向量b的绝对值，a·b为向量a和向量b的内积，cosθ是夹角余弦值(也叫余弦距离、余弦相似度)，将该夹角余弦值作为特征相似度，其数值约接近1，表明目标用户特征与类型特征越相似。

比如，具体基于第一相似度度量计算目标用户特征与类型特征之间的余弦相似度，得到目标用户特征与类型特征之间的特征相似度可以参考以下具体步骤：

a.计算目标用户特征的特征向量长度、以及类型特征的特征向量长度；

b.计算目标用户特征和类型特征之间的特征向量内积；

c.基于第一相似度度量对特征向量内积以及特征向量长度进行余弦夹角值计算，得到目标用户特征与类型特征之间的余弦夹角值，作为目标用户特征与类型特征之间的特征相似度。

(2)当相似度度量为第二相似度度量时，基于第二相似度度量计算目标用户特征与类型特征之间的距离相似度，得到目标用户特征与类型特征之间的特征相似度。

比如，第二相似度度量为欧几里得距离(一种距离相似度)，采用欧几里得距离计算距离相似度的公式如下：

sim＝softmax(d)

其中，参考图1f，向量a的坐标为(x₁，y₁)，d为向量a和向量b之间的欧几里得距离，softmax为归一化函数，sim为特征相似度，其数值约接近1，表明目标用户特征与类型特征越相似。

比如，基于第二相似度度量计算目标用户特征与类型特征之间的距离相似度，得到目标用户特征与类型特征之间的特征相似度可以参考以下具体步骤：

a.计算目标用户特征和类型特征之间的特征向量差；

b.基于特征向量差计算目标用户特征和类型特征之间的相对距离；

c.对相对距离进行归一化处理，得到目标用户特征与类型特征之间的特征相似度。

104、根据特征相似度从用户聚类集中确定与目标用户特征最相似的类型特征，得到目标类型特征。

比如，以及通过步骤103求得目标用户特征与用户聚类集中类型特征之间的特征相似度，参考图1c，目标用户特征与聚类簇A之间的特征相似度为0.27、与聚类簇B之间的特征相似度为0.93、与聚类簇C之间的特征相似度为0.87，则可以确定与目标用户特征最相似的类型特征为聚类簇B中的类型特征。

105、基于目标类型特征对应的用户类型确定目标用户所属的用户类型。

比如，与目标用户特征最相似的类型特征为聚类簇B中的类型特征，则可以确定目标用户所属的用户类型为聚类簇B。

在一些实施例中，为了提升下一次用户分类的精确度，步骤105之后还可以包括以下步骤：

a.基于目标用户特征对用户聚类集中的目标类型特征进行更新操作，得到更新后的用户聚类集；

b.重复执行步骤获取用户聚类集、以及目标用户的目标用户特征。

比如，在步骤105中已知目标用户所属的用户类型为聚类簇B，参考图1c，将目标用户归类为聚类簇B后可以将目标用户的用户特征添加到聚类簇B的类型特征中，以完成一次聚类过程。

其中，聚类的过程可以通过K均值(K-Means)、均值漂移、基于密度、使用高斯混合模型(Gaussian mixture model，GMM)的最大期望(Exception Maximization，EM)、凝聚层次、图团体检测(Graph Community Detection，GCD)等方式来完成。

比如，可以参考图1c，采用K均值聚类的方式来进行聚类，可以通过重复执行如下具体步骤来完成：

a.获取当前的目标用户，以及目标用户的目标用户特征；

b.计算上一次用户聚类集中聚类簇的类心；

c.计算目标用户特征与类心之间的距离(欧几里得距离或余弦距离)，确定最近距离的类心；

d.将目标用户划分到该距离最近类心所属的聚类簇，并将目标用户特征作为该聚类簇中一个新的类型特征，得到更新后的用户聚类集。

本申请实施例提供的用户分类方案可以应用在各种用户分类场景中，比如。以电子游戏的游戏玩家分类为例，本实施例可以获取玩家聚类集、以及目标玩家的操作行为和状态属性信息作为目标用户特征，根据这些特征可以选取合适的相似度度量，再基于相似度度量对目标用户特征进行相似度分析，得到目标用户特征与类型特征之间的特征相似度、根据特征相似度从用户聚类集中确定与目标用户特征最相似的类型特征，得到目标类型特征，最后基于目标类型特征对应的用户类型确定目标玩家所属的玩家类型。

之后，游戏运营商可以根据目标玩家所属的玩家类型对玩家进行游戏内容的干预，从而达到吸引玩家游玩、提高玩家的用户体验以及留存度等目的。

采用本申请实施例提供的方案能够通过采用不同的相似度度量方式考虑特定玩家群体的某种游戏行为，从而进行精确聚类，进一步地细分用户群体，从而提升游戏玩家的分类准确度。

通过本发明实施例提供的方法可以获取用户聚类集、以及目标用户的目标用户特征，用户聚类集包括至少一种用户类型对应的类型特征；根据目标用户的目标用户特征确定相似度度量；基于相似度度量对目标用户特征进行相似度分析，得到目标用户特征与类型特征之间的特征相似度；根据特征相似度从用户聚类集中确定与目标用户特征最相似的类型特征，得到目标类型特征；基于目标类型特征对应的用户类型确定目标用户所属的用户类型。由上可知，在本申请实施例中可以针对不同的用户特征，来采用不同的相似度度量，从而确定与目标用户最相似的用户类型。由此，该方案可以提升用户分类的准确性。

根据上述实施例所描述的方法，以下将作进一步详细说明。

随着电子游戏的发展以及市场的饱和，电子游戏之间竞争激烈，游戏需要向不同的用户提供个性化的内容，以此来吸引、留存用户，比如，可以向社交型玩家提供玩家社交信息、向竞技型玩家提供赛季奖励、向轻度玩家提供上线奖励，等等。

然而，目前大多数游戏均向所有玩家提供相同的游戏内容，游戏向玩家推送的内容不够个性化，因此，目前玩家分类的准确度低。

玩家在游戏环境下的行为复杂多变，玩家的游戏行为存在一定的倾向性，比如可能会存在小部分用户会有付费的行为，大部分用户没有付费行为，故玩家数据会存在数据类型多、数据异常、数据分布差异大等问题，根据这些玩家数据很难进行准确、精细、多样的玩家分类。

在本实施例中，将以用户分类应用于电子游戏玩家分类为例，提高玩家分类的准确度、精细度以及多样性，对本发明实施例的方法进行详细说明。

以下将以玩家来指代用户，本实施例提供的一种用户分类方法的具体流程如下：

201、获取用户聚类集、以及目标用户的待处理目标用户特征；对待处理目标用户特征进行数据预处理，得到目标用户的目标用户特征。

在本实施例中，可以通过游戏数据库服务器获取目标玩家的玩家数据(即目标用户的待处理目标用户特征)，例如游戏行为信息和状态属性信息，如玩家的付费信息、游戏时长、竞技次数等等。

然后，可以在本地内存中读取上一次的玩家聚类集，该玩家聚类集可以由技术人员分配其对应的标签，作为玩家类型特征的多个考虑维度。

比如，参考图2a提供的一种玩家聚类集的特征维度示意图，该玩家聚类集中的玩家聚类簇的类型特征可以包括付费属性、竞技信息、角色时装、任务、基础属性等几个大的维度，每个大维度中还可以包括多个小维度，比如，付费属性维度可以包括vip维度和钻石消耗维度。

然后，基于维度对待处理目标玩家特征进行数据预处理，得到目标玩家的目标玩家特征。

比如，可以参考图1e中数据预处理的流程示意图进行数据预处理。

具体地，参考图2b提供的异常消解处理的过程示意图，异常消解处理的方式是通过计算子特征(维度)的异常值，并将其与预设数值进行对比从而判断该子特征是否异常，若该子特征异常，则可以直接过滤该子特征，或者，对其进行数据的插补、剔除。

例如，目标玩家的战力低于预设阈值0，可以直接剔除掉该目标玩家的战力子特征；或者对上一次用户聚类集中目标玩家的战力进行由大到小的战力数值排序，取其前30％战力数值的平均值作为该目标玩家战力子特征的数值；或者计算上一次用户聚类集中目标玩家的战力的标准差目标玩家战力子特征的数值，等等。

具体地，参考图2c提供的弱相关处理的过程示意图，弱相关处理的方式是通过计算相关系数，并将其与阈值进行对比从而判断该子特征是否强相关，对于高于阈值的数据可以对其进行指标筛选、降维，从而降低其相关性。

例如，通过计算不同子特征之间的Pearson相关系数(Pearson CorrelationCoefficient，PCC)，寻找这些子特征之间的关联，对于关联性很高的子特征，可以由技术人员筛选并保留其中相对具有代表性的子特征，譬如，玩家的对局时长和对局次数是强相关的，选取其一即可，其它子特征可以清理；再譬如，通过主成分分析(Principal ComponentAnalysis，PCA)等降维等方式，将强相关的子特征映射到更低维的空间，可以减少此种子特征的关系对聚类算法的影响。

其中，Pearson相关系数r的计算公式如下，x、y为子特征，PCC数值越大，子特征x和y之间的相关性越强：

具体地，参考图2d提供的剔除低稳定性子特征的过程示意图，剔除低稳定性子特征的方式可以通过计算子特征的群体稳定性指数(Population Stability Index，PSI)来判别子特征的稳定性，当子特征的PSI高于阈值时，可以对子特征进行替换、去除操作。

其中，PSI的定义式如下：

比如，选择两个日期不同的玩家特征数据，一个作为test集，一个作为base集，其计算步骤是：对玩家特征数据集中的玩家特征数据进行等频分段，i代表第i个分类区间，计算test集中落在不同区间的数量占比、以及计算base集中落在不同区间的数量占比。

具体地，参考图2e提供的数据变换的过程示意图，对子特征进行数据变换的方式可以通过计算子特征的偏态(skewness)和/或峰态(kurtosis)，对于高于预设阈值的偏态和/或峰态的子特征，可以对其进行数据变换，比如，Box-cox变换、Johnson变换，等等。

其中，由于玩家的某些子特征可能会存在数据分布不均的情况，可以用偏态和峰态来刻画这种数据的对称程度和偏平程度，其中，偏态系数和峰态系数公式如下：

其中，

为平均子特征，SD为子特征平均数与子特征中位数之差。

其中，Box-cox变换公式如下：

202、对目标用户的目标用户特征进行密度统计，确定目标用户特征的密度范围；当目标用户特征的密度范围为稀疏密度范围时，获取稀疏密度范围对应的第一相似度度量作为相似度度量；当目标用户特征的密度范围为稠密密度范围时，获取稠密密度范围对应的第二相似度度量作为相似度度量。

在本实施例中，假设目标用户特征的密度范围为0.25，属于稀疏密度范围，可以使用余弦距离(第一相似度)作为相似度度量。

具体实施方式参考步骤102，在此不做赘述。

203、基于相似度度量对目标用户特征进行相似度分析，得到目标用户特征与类型特征之间的特征相似度。

其中，j是聚类簇，p_j是用户聚类集中聚类簇的聚心，x_i是目标玩家特征的特征向量，二者在相同的特征空间，关系矩阵u_ij如下：

其中，cos(x_i，p_j)的公式如下：

204、根据特征相似度从用户聚类集中确定与目标用户特征最相似的类型特征，得到目标类型特征。

具体步骤参考步骤104，在此不做赘述。

205、基于目标类型特征对应的用户类型确定目标用户所属的用户类型。

在本实施例中，技术人员可以预先给获取到的上一次玩家聚类集中聚类簇配置标签，目标玩家的玩家类型可以以目标类型特征对应的标签表示。

206、基于目标用户特征对用户聚类集中的目标类型特征进行更新操作，得到更新后的用户聚类集；重复执行步骤获取用户聚类集、以及目标用户的目标用户特征。

比如，已经确定目标玩家属于获取到的上一次玩家聚类集中标签为X的聚类簇，则将目标玩家的玩家特征添加入该标签为X的聚类簇，该聚类簇的类心也可以因目标玩家的玩家特征的加入而改变，以生成当前更新后的玩家聚类集，用以下一个目标玩家的聚类。

由上可知，本申请实施例可以获取用户聚类集、以及目标用户的待处理目标用户特征；对待处理目标用户特征进行数据预处理，得到目标用户的目标用户特征。对目标用户的目标用户特征进行密度统计，确定目标用户特征的密度范围；当目标用户特征的密度范围为稀疏密度范围时，获取稀疏密度范围对应的第一相似度度量作为相似度度量；当目标用户特征的密度范围为稠密密度范围时，获取稠密密度范围对应的第二相似度度量作为相似度度量。基于相似度度量对目标用户特征进行相似度分析，得到目标用户特征与类型特征之间的特征相似度。根据特征相似度从用户聚类集中确定与目标用户特征最相似的类型特征，得到目标类型特征。基于目标类型特征对应的用户类型确定目标用户所属的用户类型。基于目标用户特征对用户聚类集中的目标类型特征进行更新操作，得到更新后的用户聚类集；重复执行步骤获取用户聚类集、以及目标用户的目标用户特征。

由于该方案可以根据目标用户特征的密度来确定适于目标用户分类的相似度度量，通过该度量来进行用户分类，由此，本方案可以考虑更多的特征，从而更加精细地对用户分类，从而提升用户分类的准确性。

为了更好地实施以上方法，本申请实施例还提供一种用户分类装置，该用户分类装置具体可以集成在电子设备中，该电子设备可以为终端、服务器、个人电脑等设备。比如，在本实施例中，将以用户分类装置集成在服务器中进行用户分类为例，对本发明实施例的方法进行详细说明。

例如，如图3所示，该用户分类装置可以包括获取单元301、度量单元302、相似度单元303、最相似单元304以及确定单元305如下：

(一)获取单元301：

获取单元301用于获取用户聚类集、以及目标用户的目标用户特征，用户聚类集包括至少一种用户类型对应的类型特征。

在一些实施例中，为了降低特殊的、错误的用户特征对用户分类带来的影响，进一步地提高用户分类准确性，获取单元301可以包括获取子单元和预处理子单元，如下：

(1)获取子单元：

获取子单元，用于获取用户聚类集、以及目标用户的待处理目标用户特征；

(2)预处理子单元：

预处理子单元，用于对待处理目标用户特征进行数据预处理，得到目标用户的目标用户特征。

其中，待处理目标用户特征可以包括多个子特征，预处理子单元具体可以包括异常子模块、相关子模块、稳定子模块以及变换子模块，如下：

A、异常子模块：

异常子模块，用于对待处理目标用户特征中包含异常值的子特征进行异常消解处理，得到第一待处理目标用户特征。

在一些实施例中，异常子模块具体可以用于执行以下步骤：

确定待处理目标用户特征中包含异常值的子特征；

对所述待处理目标用户特征中包含异常值的子特征进行赋值处理，得到目标用户的目标用户特征；或

剔除所述待处理目标用户特征中包含异常值的子特征，得到目标用户的目标用户特征。

B、相关子模块：

相关子模块，用于对第一待处理目标用户特征进行弱相关处理，得到第二待处理目标用户特征。

在一些实施例中，相关子模块具体可以用于执行以下步骤：

对待处理目标用户特征中的子特征进行关联性计算，得到子特征之间的相关系数；

对所述待处理目标用户特征中相关系数大于预设区间的子特征进行弱相关处理，得到目标用户的目标用户特征。

C、稳定子模块：

稳定子模块，用于剔除第二处理目标用户特征中稳定性低于预设阈值的子特征，得到第三待处理目标用户特征。

在一些实施例中，稳定子模块具体可以用于执行以下步骤：

计算待处理目标用户特征中子特征的数值稳定性；

对所述待处理目标用户特征中数值稳定性低于预设阈值的子特征进行剔除操作，得到目标用户的目标用户特征

D、变换子模块：

变换子模块，用于对第三待处理目标用户特征进行数据变换，到目标用户的目标用户特征。

(二)度量单元302：

度量单元302用于根据目标用户的目标用户特征确定相似度度量。

在一些实施例中，度量单元302可以包括统计子模块、稀疏子模块以及稠密子模块，如下：

(1)统计子模块：

统计子模块用于，对目标用户的目标用户特征进行密度统计，确定目标用户特征的密度范围。

在一些实施例中，目标用户特征包括子特征；统计子模块可以具体用于：

统计目标用户特征中子特征的数量，得到总信息量；

统计目标用户特征中信息值为预设无效值的子特征数量，得到无效信息量；

根据无效信息量与总信息量计算目标用户特征的特征密度值；

基于预设密度区间确定特征密度值所属的密度范围，得到目标用户特征所属的密度范围。

(2)稀疏子模块：

稀疏子模块，用于当目标用户特征的密度范围为稀疏密度范围时，获取稀疏密度范围对应的第一相似度度量作为相似度度量。

(3)稠密子模块：

稠密子模块，用于当目标用户特征的密度范围为稠密密度范围时，获取稠密密度范围对应的第二相似度度量作为相似度度量。

(三)相似度单元303：

相似度单元303用于基于相似度度量对目标用户特征进行相似度分析，得到目标用户特征与类型特征之间的特征相似度。

在一些实施例中，相似度单元303可以包括余弦子模块、距离子模块，如下：

(1)余弦子模块：

余弦子模块，用于当相似度度量为第一相似度度量时，基于第一相似度度量计算目标用户特征与类型特征之间的余弦相似度，得到目标用户特征与类型特征之间的特征相似度。

在一些实施例中，余弦子模块具体可以用于：

计算目标用户特征的特征向量长度、以及类型特征的特征向量长度；

计算目标用户特征和类型特征之间的特征向量内积；

基于第一相似度度量对特征向量内积以及特征向量长度进行余弦夹角值计算，得到目标用户特征与类型特征之间的余弦夹角值，作为目标用户特征与类型特征之间的特征相似度。

(2)距离子模块：

距离子模块，用于当相似度度量为第二相似度度量时，基于第二相似度度量计算目标用户特征与类型特征之间的距离相似度，得到目标用户特征与类型特征之间的特征相似度。

在一些实施例中，距离子模块具体可以用于：

计算目标用户特征和类型特征之间的特征向量差；

基于特征向量差计算目标用户特征和类型特征之间的相对距离；

对相对距离进行归一化处理，得到目标用户特征与类型特征之间的特征相似度。

(四)最相似单元304：

最相似单元304用于根据特征相似度从用户聚类集中确定与目标用户特征最相似的类型特征，得到目标类型特征。

(五)确定单元305：

确定单元305用于基于目标类型特征对应的用户类型确定目标用户所属的用户类型。

在一些实施例中，为了提升下一次用户分类的精确度，确定单元305还可以用于执行以下步骤：

基于目标用户特征对用户聚类集中的目标类型特征进行更新操作，得到更新后的用户聚类集；

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本实施例的用户分类装置由获取单元获取用户聚类集、以及目标用户的目标用户特征，用户聚类集包括至少一种用户类型对应的类型特征；由度量单元根据目标用户的目标用户特征确定相似度度量；由相似度单元基于相似度度量对目标用户特征进行相似度分析，得到目标用户特征与类型特征之间的特征相似度；由最相似单元根据特征相似度从用户聚类集中确定与目标用户特征最相似的类型特征，得到目标类型特征；由确定单元基于目标类型特征对应的用户类型确定目标用户所属的用户类型。由于在本申请实施例中可以针对不同的用户特征，来采用不同的相似度度量，从而确定与目标用户最相似的用户类型。由此，该方案可以提升用户分类的准确性。

本申请实施例还提供一种服务器，该服务器可以是手机、平板电脑、微型处理盒子、无人机、或者图像采集设备等等。如图4所示，其示出了本申请实施例所涉及的服务器的结构示意图，具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403、输入模块404以及通信模块405等部件。本领域技术人员可以理解，图4中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。在一些实施例中，处理器401可包括一个或多个处理核心；在一些实施例中，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

服务器还包括给各个部件供电的电源403，在一些实施例中，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入模块404，该输入模块404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

该服务器还可包括通信模块405，在一些实施例中通信模块405可以包括无线模块，服务器可以通过该通信模块405的无线模块进行短距离无线传输，从而为用户提供了无线的宽带互联网访问。比如，该通信模块405可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。

尽管未示出，服务器还可以包括显示单元等，在此不再赘述。具体在本实施例中，服务器中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取用户聚类集、以及目标用户的目标用户特征，用户聚类集包括至少一种用户类型对应的类型特征；根据目标用户的目标用户特征确定相似度度量；基于相似度度量对目标用户特征进行相似度分析，得到目标用户特征与类型特征之间的特征相似度；根据特征相似度从用户聚类集中确定与目标用户特征最相似的类型特征，得到目标类型特征；基于目标类型特征对应的用户类型确定目标用户所属的用户类型。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本申请实施例提供的服务器可以获取用户聚类集、以及目标用户的目标用户特征，用户聚类集包括至少一种用户类型对应的类型特征；根据目标用户的目标用户特征确定相似度度量；基于相似度度量对目标用户特征进行相似度分析，得到目标用户特征与类型特征之间的特征相似度；根据特征相似度从用户聚类集中确定与目标用户特征最相似的类型特征，得到目标类型特征；基于目标类型特征对应的用户类型确定目标用户所属的用户类型。在本申请实施例中可以针对不同的用户特征，来采用不同的相似度度量，从而确定与目标用户最相似的用户类型。由此，该方案可以提升用户分类的准确性。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种用户分类方法中的步骤。例如，该指令可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种用户分类方法中的步骤，因此，可以实现本申请实施例所提供的任一种用户分类方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种用户分类方法、装置、服务器以及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种用户分类方法，其特征在于，包括：

当所述目标用户特征的密度范围为稠密密度范围时，获取稠密密度范围对应的第二相似度度量作为相似度度量；

2.如权利要求1所述的用户分类方法，其特征在于，所述目标用户特征包括子特征；对所述目标用户的目标用户特征进行密度统计，确定目标用户特征的密度范围，包括：

统计所述目标用户特征中子特征的数量，得到总信息量；

3.如权利要求1所述的用户分类方法，其特征在于，基于所述相似度度量对目标用户特征进行相似度分析，得到目标用户特征与类型特征之间的特征相似度，包括：

4.如权利要求3所述的用户分类方法，其特征在于，基于所述第一相似度度量计算目标用户特征与类型特征之间的余弦相似度，得到目标用户特征与类型特征之间的特征相似度，包括：

计算所述目标用户特征和类型特征之间的特征向量内积；

5.如权利要求3所述的用户分类方法，其特征在于，基于所述第二相似度度量计算目标用户特征与类型特征之间的距离相似度，得到目标用户特征与类型特征之间的特征相似度，包括：

计算所述目标用户特征和类型特征之间的特征向量差；

6.如权利要求1所述的用户分类方法，其特征在于，获取用户聚类集、以及目标用户的目标用户特征，包括：

获取用户聚类集、以及目标用户的待处理目标用户特征；

7.如权利要求6所述的用户分类方法，其特征在于，所述待处理目标用户特征包括多个子特征；对所述待处理目标用户特征进行数据预处理，得到目标用户的目标用户特征，包括：

剔除所述第二待处理目标用户特征中稳定性低于预设阈值的子特征，得到第三待处理目标用户特征；

8.如权利要求1～7任一项所述的用户分类方法，其特征在于，基于所述目标类型特征对应的用户类型确定所述目标用户所属的用户类型之后，还包括：

9.一种用户分类装置，其特征在于，包括：

度量单元，用于对所述目标用户的目标用户特征进行密度统计，确定目标用户特征的密度范围；当所述目标用户特征的密度范围为稀疏密度范围时，获取稀疏密度范围对应的第一相似度度量作为相似度度量；当所述目标用户特征的密度范围为稠密密度范围时，获取稠密密度范围对应的第二相似度度量作为相似度度量；

10.一种服务器，其特征在于，包括处理器和存储器，所述存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行如权利要求1～7任一项所述的用户分类方法中的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1～7任一项所述的用户分类方法中的步骤。