CN113806637A

CN113806637A - 用户分类方法及装置、项目推荐方法及装置

Info

Publication number: CN113806637A
Application number: CN202111117007.8A
Authority: CN
Inventors: 谷加祥; 郭玮; 张翔
Original assignee: Hubei Tiantian Digital Chain Technology Co ltd
Current assignee: Hubei Tiantian Digital Chain Technology Co ltd
Priority date: 2021-09-23
Filing date: 2021-09-23
Publication date: 2021-12-17

Abstract

本申请提供一种用户分类方法及装置、项目推荐方法及装置、电子设备和计算机存储介质，该用户分类方法包括：获取用户属性数据集及初始聚类中心数量；对用户属性数据集中的数据点进行聚类，直至收敛，生成与初始聚类中心数量对应的多个第一簇；确定各个第一簇的簇内评价指标和簇内用户数量；在确定簇内评价指标不满足标准簇内评价指标和/或簇内用户数量不满足标准簇内用户数量时，对聚类中心的数量进行调整并根据调整后的聚类中心的数量对用户属性数据集中的数据点进行再次聚类，直至收敛，生成与调整后的聚类中心数量对应的多个第二簇，通过对聚类中心的数量进行调整以提高聚类结果的准确性。

Description

用户分类方法及装置、项目推荐方法及装置

技术领域

本申请涉及信息处理领域，具体而言，涉及一种用户分类方法及装置、项目推荐方法及装置、电子设备和计算机存储介质。

背景技术

K均值聚类算法(K-means clustering algorithm，k-means算法)是一种迭代求解的聚类分析算法，其步骤是，选取K个聚类中心，然后计算每个对象与各个聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。

然而，现有的K-means算法中，在进行聚类前，需要事先给定聚类中心个数。但在实际中，聚类中心个数的选定是难以估计的。选取不同的聚类中心个数可能会导致完全不同的聚类结果，因此，若选取不合适的聚类中心个数，会影响聚类结果的准确性。

发明内容

本申请实施例的目的在于提供一种用户分类方法及装置、项目推荐方法及装置、电子设备和计算机存储介质，用以解决难以确定合适的聚类中心个数的问题。

第一方面，本申请提供一种用户分类方法，所述方法包括：获取用户属性数据集及初始聚类中心数量，所述用户属性数据集包括多个数据点，每个所述数据点对应一个用户的至少一维的用户属性；对所述用户属性数据集中的数据点进行聚类，直至收敛，生成与所述初始聚类中心数量对应的多个第一簇；确定各个所述第一簇的簇内评价指标和簇内用户数量，所述簇内评价指标用于表征簇内各数据点到聚类中心的平均距离，所述簇内用户数量与相应的第一簇中的数据点的数量对应；在确定所述簇内评价指标不满足标准簇内评价指标和/或所述簇内用户数量不满足标准簇内用户数量时，根据所述簇内评价指标、所述簇内用户数量、所述标准簇内评价指标和所述标准簇内用户数量对聚类中心的数量进行调整并根据调整后的聚类中心的数量对所述用户属性数据集中的数据点进行再次聚类，直至收敛，生成与所述调整后的聚类中心数量对应的多个第二簇。

在本申请实施例中，相较于传统的K-means算法中需要根据经验确定出合适的K值(即聚类中心的数量)，本申请实施例提供的用户分类方法先随机确定一个K值，进行聚类，然后根据簇内评价指标和簇内用户数量与预设的标准簇内评价指标和标准簇内用户数量对聚类中心的数量进行调整，再根据调整后的聚类中心数量进行聚类，直至收敛。在簇内评价指标和簇内用户数量不满足预设条件时，对聚类中心的数量进行调整，从而在一定程度上提升最终的聚类结果的准确性。

在可选的实施方式中，所述对所述用户属性数据集中的数据点进行聚类，直至收敛，生成与所述初始聚类中心数量对应的多个第一簇，包括：从所述用户属性数据集中随机选取与所述初始聚类中心数量对应的多个数据点作为初始聚类中心；根据预设公式计算所述用户属性数据集中的每个非聚类中心的数据点到各个初始聚类中心的距离；将各个非聚类中心的数据点分到与其距离最近的初始聚类中心对应的簇中；将每个簇的质心作为新的聚类中心，若新的聚类中心与当前聚类中心不同，则再次根据所述预设公式计算所述用户属性数据集中非聚类中心的数据点到各个新的聚类中心的距离，并将非聚类中心的数据点分到与其距离最近的聚类中心对应的簇中；以此类推，直至聚类后的每个簇的质心与前次的聚类中心相同。

在可选的实施方式中，所述确定各个所述第一簇的簇内评价指标，包括：基于公式：

计算各个簇的簇内评价指标；其中，Je_j为第j个簇的簇内评价指标，N(C_j)为第j个簇的簇内用户数量，x_i为第j个簇中用户的数据点，μ_j为第j个簇的聚类中心，Dist(x_i,μ_j)表征x_i和Je_j的海明距离。

在可选的实施方式中，所述在确定所述簇内评价指标不满足标准簇内评价指标和/或所述簇内用户数量不满足标准簇内用户数量时，根据所述簇内评价指标、所述簇内用户数量、所述标准簇内评价指标和所述标准簇内用户数量对聚类中心的数量进行调整，包括：针对每个第一簇，判断所述簇内用户数量是否小于所述标准簇内用户数量；若所述簇内用户数量小于所述标准簇内用户数量，删除该第一簇对应的聚类中心；若所述簇内用户数量大于所述标准簇内用户数量，判断所述簇内评价指标是否大于所述标准簇内评价指标；若所述簇内评价指标大于所述标准簇内评价指标，将该第一簇内与聚类中心距离最近的用户的数据点作为新增的聚类中心。

在本申请实施例中，将簇内各数据点到聚类中心的平均距离作为簇内评价指标。当簇内用户数量小于标准簇内用户数量，说明该簇中的用户数量较少，于是将该簇对应的聚类中心删除以减少聚类中心的个数；当簇内用户数量大于等于标准簇内用户数量但簇内评价指标大于标准簇内评价指标时，说明该簇中存在距离聚类中心较远的数据点，需要增加聚类中心的数量。通过上述方式对聚类中心的数量进行调整，使得最终的聚类结果更准确。

第二方面，本申请提供一种项目推荐方法，所述方法包括：获取用户属性数据集及初始聚类中心数量，所述用户属性数据集包括多个数据点，每个所述数据点对应一个用户的至少一维的用户属性；对所述用户属性数据集中的数据点进行聚类，直至收敛，生成与所述初始聚类中心数量对应的多个第一簇；确定各个所述第一簇的簇内评价指标和簇内用户数量，所述簇内评价指标用于表征簇内各数据点到聚类中心的平均距离，所述簇内用户数量与相应的第一簇中的数据点的数量对应；在确定所述簇内评价指标不满足标准簇内评价指标和/或所述簇内用户数量不满足标准簇内用户数量时，根据所述簇内评价指标、所述簇内用户数量、所述标准簇内评价指标和所述标准簇内用户数量对聚类中心的数量进行调整并根据调整后的聚类中心的数量对所述用户属性数据集中的数据点进行再次聚类，直至收敛，生成与所述调整后的聚类中心数量对应的多个第二簇；获取目标用户所在簇中各个用户对应的用户-评分矩阵；基于所述用户-评分矩阵确定多个项目，其中，每个所述项目均被超过预设数量的处于所述目标用户所在簇中的用户进行评分；计算每个项目的平均评分，并基于所述平均评分向所述目标用户推荐项目。

在本申请实施例中，上述推荐方法可以解决协同过滤算法中存在的冷启动问题。目标用户可以为没有对任何项目进行过评分的新用户。由于新用户没有对任何项目进行过评分，无法确定用户的喜好，进而无法进行准确的推荐。本申请实施例先通过前述实施方式中的用户分类方法确定该目标用户所处的簇，从而确定出与该用户行为或兴趣相似的用户群体，进而根据该用户群体对应用户-评分矩阵确定出被多数用户评过分的项目，计算此类项目的平均评分，基于平均评分向目标用户进行推荐，由此解决了协同过滤算法中的冷启动问题。此外，推荐的准确性也较高。

在可选的实施方式中，所述基于所述平均评分向所述目标用户推荐项目，包括：将所述多个项目的平均评分从大到小排序；由大到小选取预设数量的项目作为待推荐项目向所述目标用户推荐。

在本申请实施例中，将平均评分高的项目推荐给目标用户，提高推荐的准确性。

第三方面，本申请提供一种用户分类装置，所述装置包括：数据获取模块，用于获取用户属性数据集及初始聚类中心数量，所述用户属性数据集包括多个数据点，每个所述数据点对应一个用户的至少一维的用户属性；数据处理模块，用于对所述用户属性数据集中的数据点进行聚类，直至收敛，生成与所述初始聚类中心数量对应的多个第一簇；确定各个所述第一簇的簇内评价指标和簇内用户数量，所述簇内评价指标用于表征簇内各数据点到聚类中心的平均距离，所述簇内用户数量与相应的第一簇中的数据点的数量对应；在确定所述簇内评价指标不满足标准簇内评价指标和/或所述簇内用户数量不满足标准簇内用户数量时，根据所述簇内评价指标、所述簇内用户数量、所述标准簇内评价指标和所述标准簇内用户数量对聚类中心的数量进行调整并根据调整后的聚类中心的数量对所述用户属性数据集中的数据点进行再次聚类，直至收敛，生成与所述调整后的聚类中心数量对应的多个第二簇。

在可选的实施方式中，所述数据处理模块用于从所述用户属性数据集中随机选取与所述初始聚类中心数量对应的多个数据点作为初始聚类中心；根据预设公式计算所述用户属性数据集中的每个非聚类中心的数据点到各个初始聚类中心的距离；将各个非聚类中心的数据点分到与其距离最近的初始聚类中心对应的簇中；将每个簇的质心作为新的聚类中心，若新的聚类中心与当前聚类中心不同，则再次根据所述预设公式计算所述用户属性数据集中非聚类中心的数据点到各个新的聚类中心的距离，并将非聚类中心的数据点分到与其距离最近的聚类中心对应的簇中；以此类推，直至聚类后的每个簇的质心与前次的聚类中心相同。

在可选的实施方式中，所述数据处理模块用于基于公式：

计算各个簇的簇内评价指标；

其中，Je_j为第j个簇的簇内评价指标，N(C_j)为第j个簇的簇内用户数量，x_i为第j个簇中用户的数据点，μ_j为第j个簇的聚类中心，Dist(x_i,μ_j)表征x_i和μ_j的海明距离。

在可选的实施方式中，所述数据处理模块用于针对每个第一簇，判断所述簇内用户数量是否小于所述标准簇内用户数量；若所述簇内用户数量小于所述标准簇内用户数量，删除该第一簇对应的聚类中心；若所述簇内用户数量大于所述标准簇内用户数量，判断所述簇内评价指标是否大于所述标准簇内评价指标；若所述簇内评价指标大于所述标准簇内评价指标，将该第一簇内与聚类中心距离最近的用户的数据点作为新增的聚类中心。

第四方面，本申请提供一种项目推荐装置，所述装置包括：数据获取模块，用于获取用户属性数据集及初始聚类中心数量，所述用户属性数据集包括多个数据点，每个所述数据点对应一个用户的至少一维的用户属性；数据处理模块，用于对所述用户属性数据集中的数据点进行聚类，直至收敛，生成与所述初始聚类中心数量对应的多个第一簇；确定各个所述第一簇的簇内评价指标和簇内用户数量，所述簇内评价指标用于表征簇内各数据点到聚类中心的平均距离，所述簇内用户数量与相应的第一簇中的数据点的数量对应；在确定所述簇内评价指标不满足标准簇内评价指标和/或所述簇内用户数量不满足标准簇内用户数量时，根据所述簇内评价指标、所述簇内用户数量、所述标准簇内评价指标和所述标准簇内用户数量对聚类中心的数量进行调整并根据调整后的聚类中心的数量对所述用户属性数据集中的数据点进行再次聚类，直至收敛，生成与所述调整后的聚类中心数量对应的多个第二簇；推荐模块，用于获取目标用户所在簇中各个用户对应的用户-评分矩阵；基于所述用户-评分矩阵确定多个项目，其中，每个所述项目均被超过预设数量的处于所述目标用户所在簇中的用户进行评分；计算每个项目的平均评分，并基于所述平均评分向所述目标用户推荐项目。

在可选的实施方式中，所述推荐模块还用于将所述多个项目的平均评分从大到小排序；由大到小选取预设数量的项目作为待推荐项目向所述目标用户推荐。

第五方面，本申请提供一种电子设备，包括：处理器、存储器和总线；所述处理器和所述存储器通过所述总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如前述实施方式任一项所述的方法。

第六方面，本申请提供一种计算机存储介质，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被计算机读取并运行时，执行如前述实施方式中任一项所述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种用户分类方法的流程图；

图2为本申请实施例提供的一种项目推荐方法的流程图；

图3为本申请实施例提供的一种用户分类装置的结构框图；

图4为本申请实施例提供的一种项目推荐装置的结构框图；

图5为本申请实施例的电子设备的结构示意图。

图标：300-用户分类装置；301、401-数据获取模块；302、402-数据处理模块；400-项目推荐装置；403-推荐模块；500-电子设备；501-处理器；502-通信接口；503-存储器；504-总线。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

请参阅图1，图1为本申请实施例提供的一种用户分类方法的流程图，该用户分类方法可以包括如下步骤：

步骤101：获取用户属性数据集及初始聚类中心数量。

步骤102：对用户属性数据集中的数据点进行聚类，直至收敛，生成与初始聚类中心数量对应的多个第一簇。

步骤103：确定各个第一簇的簇内评价指标和簇内用户数量。

步骤104：在确定簇内评价指标不满足标准簇内评价指标和/或簇内用户数量不满足标准簇内用户数量时，根据簇内评价指标、簇内用户数量、标准簇内评价指标和标准簇内用户数量对聚类中心的数量进行调整并根据调整后的聚类中心的数量对用户属性数据集中的数据点进行再次聚类，直至收敛，生成与调整后的聚类中心数量对应的多个第二簇。

下面将结合示例对上述流程进行详细说明。

步骤101：获取用户属性数据集及初始聚类中心数量。

本申请实施例中，首先获取用户属性数据。获取用户属性数据的方式有多种，例如：当需要对使用某一APP的用户进行分类时，可以获取用户在注册账号时填写的自身属性数据作为用户属性数据；或是从预先存储的用户属性数据库中，获取对应用户的属性数据。

用户属性数据可以包括：用户ID、年龄、性别、职业、所在城市等。

获取用户属性数据后，对用户属性数据进行预处理，将不连续的数字或是文本进行数字化处理。举例来说，对于年龄数据，“0-18”岁编码为“1”，“19-40”岁编码为“2”，“41-65”岁编码为“3”,“66岁及以上”编码为“4”；对于性别数据，将“男”编码为“1”，“女”编码为“2”。可以理解，上述编码方式仅为本申请实施例提供的一种具体实例，本申请不以此为限。

在对用户属性数据进行预处理时，还可以采用例如：独热编码、标签编码等方式。

对用户属性数据进行预处理后，形成用户属性数据集。用户属性数据集包括多个数据点，每个数据点对应一个用户的至少一维的用户属性。

初始聚类中心数量可以随机选取。本申请实施例对初始聚类中心数量的确定方法不做限定。

作为一种可选的实施方式，步骤102可以包括如下步骤：

第一步，从用户属性数据集中随机选取与初始聚类中心数量对应的多个数据点作为初始聚类中心。

第二步，根据预设公式计算用户属性数据集中的每个非聚类中心的数据点到各个初始聚类中心的距离。

本申请实施例中，预设公式为：

其中，x_k表示用户属性数据集中非聚类中心对应的用户的数据点，k为大于0的自然数，x₁x₂x₃…x_k对应用户属性数据集中非聚类中心对应的用户的数据点。

表示x_k对应的用户属性数据，e表示用户属性数据，m为用户属性数据对应的集合。举例来说，当用户属性数据包括：年龄、性别和职业时，m则表示年龄、性别和职业，

表示x_k对应的年龄数据，

表示x_k对应的性别数据，

表示x_k对应的职业数据。

μ_j表示用户属性数据集中聚类中心对应的用户的数据点，j为大于0的自然数，u₁u₂u₃…u_j对应用户属性数据集中聚类中心对应的用户的数据点。

表示μ_j对应的用户属性数据。

表示x_k和μ_j的海明距离。

第三步，将各个非聚类中心的数据点分到与其距离最近的初始聚类中心对应的簇中。

在确定每个非聚类中心的数据点与每个初始聚类中心的距离后，将各个非聚类中心的数据点分到与其距离最近的初始聚类中心对应的簇中。

第四步，将每个簇的质心作为新的聚类中心，若新的聚类中心与当前聚类中心不同，则再次根据预设公式计算用户属性数据集中非聚类中心的数据点到各个新的聚类中心的距离，并将非聚类中心的数据点分到与其距离最近的聚类中心对应的簇中；以此类推，直至聚类后的每个簇的质心与前次的聚类中心相同。

在将所有非聚类中心的数据点分到与其距离最近的初始聚类中心对应的簇后，将每个簇的质心作为新的聚类中心。判断新的聚类中心与当前聚类中心(即第三步确定的聚类中心)是否相同。若不相同，则再次根据预设公式计算用户属性数据集中非聚类中心的数据点到各个新的聚类中心的距离，并将非聚类中心的数据点分到与其距离最近的聚类中心对应的簇中。如此循环，直至聚类后的每个簇的质心与前次的聚类中心相同，则表示聚类收敛，此时各个聚类中心对应的簇即为步骤102中的多个第一簇。

步骤103：确定各个第一簇的簇内评价指标和簇内用户数量。

本申请实施例中，簇内评价指标用于表征簇内各数据点到聚类中心的平均距离，簇内用户数量与相应的第一簇中的数据点的数量对应。

可以理解，簇内用户数量通过统计每个簇中数据点的个数即可确定。

簇内评价指标可以基于以下公式计算得到：

本申请实施例中，在确定各个簇的簇内评价指标和簇内用户数量后，将各个簇的簇内评价指标和簇内用户数量与预设的标准簇内评价指标和标准簇内用户数量进行比较，根据比较结果对聚类中心的数量进行调整。

具体地，步骤104中，在确定簇内评价指标不满足标准簇内评价指标和/或簇内用户数量不满足标准簇内用户数量时，根据簇内评价指标、簇内用户数量、标准簇内评价指标和标准簇内用户数量对聚类中心的数量进行调整，可以包括如下步骤：

第一步，针对每个第一簇，判断簇内用户数量是否小于标准簇内用户数量。

第二步，若簇内用户数量小于标准簇内用户数量，删除该第一簇对应的聚类中心。

第三步，若簇内用户数量大于标准簇内用户数量，判断簇内评价指标是否大于标准簇内评价指标。

第四步，若簇内评价指标大于标准簇内评价指标，将该第一簇内与聚类中心距离最近的用户的数据点作为新增的聚类中心。

上述比较规则可以表示为：

当N(C_j)＜N时，删除该第一簇对应的聚类中心；

当N(C_j)＞N,Je_j＞Je时，将该第一簇内与聚类中心距离最近的用户的数据点作为新增的聚类中心；

当N(C_j)＞N,Je_j＜Je时，保持现在的聚类中心数量不变。

其中，N为标准簇内用户数量，Je为标准簇内评价指标。

在对聚类中心的数量进行调整后，根据调整后的聚类中心的数量对用户属性数据集中的数据点进行再次聚类，直至收敛，生成与调整后的聚类中心数量对应的多个第二簇。可以理解，根据聚类中心的数量对用户属性数据集中的数据点进行聚类的方式与上述步骤102的方式相同，为使说明书简洁，在此不做赘述。

本申请实施例中，相较于传统的K-means算法中需要根据经验确定出合适的K值(即聚类中心的数量)，本申请实施例提供的用户分类方法先随机确定一个K值，进行聚类，然后根据簇内评价指标和簇内用户数量与预设的标准簇内评价指标和标准簇内用户数量对聚类中心的数量进行调整，再根据调整后的聚类中心数量进行聚类，直至收敛。在簇内评价指标和簇内用户数量不满足预设条件时，对聚类中心的数量进行调整，从而在一定程度上提升最终的聚类结果的准确性。

作为一种可选的实施方式，本申请提供的用户分类方法还可以包括：针对多个第二簇，确定各个第二簇的簇内评价指标和簇内用户数量。然后根据上述比较规则判断是否需要对聚类中心数量进行调整，若需要调整，则根据上述规则对聚类中心数量进行调整。如此循环，直至聚类后的各个簇均满足N(C_j)＞N,Je_j＞Je时，输出各个簇的聚类结果，完成对用户的分类。

通过不断循环调整聚类中心的数量，直至聚类后各个簇均满足预设的标准簇内评价指标和标准簇内用户数量后，完成聚类，从而提高聚类结果的准确性。

基于同一发明构思，本申请还提出一种项目推荐方法。该项目推荐方法包括前述实施例所介绍的用户分类方法的步骤。请参阅图2，图2为本申请实施例提供的一种项目推荐方法在通过前述实施例所介绍的用户分类方法完成用户分类之后的流程图，具体地，该项目推荐方法在通过前述实施例所介绍的用户分类方法完成用户分类之后还可以包括如下步骤：

步骤201：获取目标用户所在簇中各个用户对应的用户-评分矩阵。

步骤202：基于用户-评分矩阵确定多个项目，其中，每个项目均被超过预设数量的处于目标用户所在簇中的用户进行评分。

步骤203：计算每个项目的平均评分，并基于平均评分向目标用户推荐项目。

需要说明的是，上述步骤201-203是在前述步骤104之后执行的。

下面将结合示例对上述流程进行详细说明。

本申请实施例中，根据前述步骤101-104后，可以确定出目标用户所在的簇。与目标用户在同一个簇的用户可以认为是与目标用户行为或是兴趣相似的用户群体。

获取目标用户所在簇中各个用户对应的用户-评分矩阵。该用户-评分矩阵可以为：

其中，c_wn表示用户w对项目n的实际评分。若用户未对某个项目评分，则用0表示。

确定用户-评分矩阵后，考虑到用户并没有对所有项目进行评分，为了提高推荐的准确性，选出被超过预设数量的用户进行评分的项目。举例来说，预设数量可以为20，则选出被超过20个用户评分的项目。

计算选出的每个项目的平均评分，然后基于平均评分向目标用户推荐项目。

作为一种可选的实施方式，将计算的出的每个项目的平均评分从大到小排序，然后由大到小选取预设数量的项目作为待推荐项目向目标用户推荐。预设数量可以根据实际情况确定，例如20、30，本申请对此不做限定。

作为另一种可选的实施方式，判断计算出的项目的平均评分是否大于预设阈值，将平均评分大于预设阈值的项目作为待推荐项目向目标用户推荐。

本申请实施例中，上述推荐方法可以解决协同过滤算法中存在的冷启动问题。目标用户可以为没有对任何项目进行过评分的新用户。由于新用户没有对任何项目进行过评分，无法确定用户的喜好，进而无法进行准确的推荐。本申请实施例先通过前述实施方式中的用户分类方法确定该目标用户所处的簇，从而确定出与该用户行为或兴趣相似的用户群体，进而根据该用户群体对应用户-评分矩阵确定出被多数用户评过分的项目，计算此类项目的平均评分，基于平均评分向目标用户进行推荐，由此解决了协同过滤算法中的冷启动问题。此外，推荐的准确性也较高。

基于同一发明构思，本申请实施例中还提供一种用户分类装置。请参阅图3，图3为本申请实施例提供的一种用户分类装置的结构框图，该用户分类装置300可以包括：

数据获取模块301，用于获取用户属性数据集及初始聚类中心数量，所述用户属性数据集包括多个数据点，每个所述数据点对应一个用户的至少一维的用户属性；

数据处理模块302，用于对所述用户属性数据集中的数据点进行聚类，直至收敛，生成与所述初始聚类中心数量对应的多个第一簇；确定各个所述第一簇的簇内评价指标和簇内用户数量，所述簇内评价指标用于表征簇内各数据点到聚类中心的平均距离，所述簇内用户数量与相应的第一簇中的数据点的数量对应；在确定所述簇内评价指标不满足标准簇内评价指标和/或所述簇内用户数量不满足标准簇内用户数量时，根据所述簇内评价指标、所述簇内用户数量、所述标准簇内评价指标和所述标准簇内用户数量对聚类中心的数量进行调整并根据调整后的聚类中心的数量对所述用户属性数据集中的数据点进行再次聚类，直至收敛，生成与所述调整后的聚类中心数量对应的多个第二簇。

在可选的实施方式中，所述数据处理模块302用于从所述用户属性数据集中随机选取与所述初始聚类中心数量对应的多个数据点作为初始聚类中心；根据预设公式计算所述用户属性数据集中的每个非聚类中心的数据点到各个初始聚类中心的距离；将各个非聚类中心的数据点分到与其距离最近的初始聚类中心对应的簇中；将每个簇的质心作为新的聚类中心，若新的聚类中心与当前聚类中心不同，则再次根据所述预设公式计算所述用户属性数据集中非聚类中心的数据点到各个新的聚类中心的距离，并将非聚类中心的数据点分到与其距离最近的聚类中心对应的簇中；以此类推，直至聚类后的每个簇的质心与前次的聚类中心相同。

在可选的实施方式中，所述数据处理模块302用于基于公式：

计算各个簇的簇内评价指标；

在可选的实施方式中，所述数据处理模块302用于针对每个第一簇，判断所述簇内用户数量是否小于所述标准簇内用户数量；若所述簇内用户数量小于所述标准簇内用户数量，删除该第一簇对应的聚类中心；若所述簇内用户数量大于所述标准簇内用户数量，判断所述簇内评价指标是否大于所述标准簇内评价指标；若所述簇内评价指标大于所述标准簇内评价指标，将该第一簇内与聚类中心距离最近的用户的数据点作为新增的聚类中心。

此外，本申请实施例还提供一种项目推荐装置。请参阅图4，图4为本申请实施例提供的一种项目推荐装置的结构框图，该项目推荐装置400可以包括：

数据获取模块401，用于获取用户属性数据集及初始聚类中心数量，所述用户属性数据集包括多个数据点，每个所述数据点对应一个用户的至少一维的用户属性；

数据处理模块402，用于对所述用户属性数据集中的数据点进行聚类，直至收敛，生成与所述初始聚类中心数量对应的多个第一簇；确定各个所述第一簇的簇内评价指标和簇内用户数量，所述簇内评价指标用于表征簇内各数据点到聚类中心的平均距离，所述簇内用户数量与相应的第一簇中的数据点的数量对应；在确定所述簇内评价指标不满足标准簇内评价指标和/或所述簇内用户数量不满足标准簇内用户数量时，根据所述簇内评价指标、所述簇内用户数量、所述标准簇内评价指标和所述标准簇内用户数量对聚类中心的数量进行调整并根据调整后的聚类中心的数量对所述用户属性数据集中的数据点进行再次聚类，直至收敛，生成与所述调整后的聚类中心数量对应的多个第二簇；

推荐模块403，用于获取目标用户所在簇中各个用户对应的用户-评分矩阵；基于所述用户-评分矩阵确定多个项目，其中，每个所述项目均被超过预设数量的处于所述目标用户所在簇中的用户进行评分；计算每个项目的平均评分，并基于所述平均评分向所述目标用户推荐项目。

在可选的实施方式中，所述推荐模块403还用于将所述多个项目的平均评分从大到小排序；由大到小选取预设数量的项目作为待推荐项目向所述目标用户推荐。

请参阅图5，图5为本申请实施例的电子设备500的结构示意图，该电子设备500包括：至少一个处理器501，至少一个通信接口502，至少一个存储器503和至少一个总线504。其中，总线504用于实现这些组件直接的连接通信，通信接口502用于与其他节点设备进行信令或数据的通信，存储器503存储有处理器501可执行的机器可读指令。当电子设备500运行时，处理器501与存储器503之间通过总线504通信，机器可读指令被处理器501调用时执行如上述用户分类方法或项目推荐方法。

处理器501可以是一种集成电路芯片，具有信号处理能力。上述处理器501可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本申请实施例中公开的各种方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器503可以包括但不限于随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

可以理解，图5所示的结构仅为示意，电子设备500还可包括比图5中所示更多或者更少的组件，或者具有与图5所示不同的配置。图5中所示的各组件可以采用硬件、软件或其组合实现。于本申请实施例中，电子设备500可以是，但不限于台式机、笔记本电脑、智能手机、智能穿戴设备、车载设备等实体设备，还可以是虚拟机等虚拟设备。另外，电子设备500也不一定是单台设备，还可以是多台设备的组合，例如服务器集群，等等。

此外，本申请实施例还提供一种计算机存储介质，该计算机存储介质上存储有计算机程序，该计算机程序被计算机运行时，执行如上述实施例中用户分类方法或项目推荐方法的步骤。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

需要说明的是，功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种用户分类方法，其特征在于，所述方法包括：

获取用户属性数据集及初始聚类中心数量，所述用户属性数据集包括多个数据点，每个所述数据点对应一个用户的至少一维的用户属性；

对所述用户属性数据集中的数据点进行聚类，直至收敛，生成与所述初始聚类中心数量对应的多个第一簇；

确定各个所述第一簇的簇内评价指标和簇内用户数量，所述簇内评价指标用于表征簇内各数据点到聚类中心的平均距离，所述簇内用户数量与相应的第一簇中的数据点的数量对应；

在确定所述簇内评价指标不满足标准簇内评价指标和/或所述簇内用户数量不满足标准簇内用户数量时，根据所述簇内评价指标、所述簇内用户数量、所述标准簇内评价指标和所述标准簇内用户数量对聚类中心的数量进行调整并根据调整后的聚类中心的数量对所述用户属性数据集中的数据点进行再次聚类，直至收敛，生成与所述调整后的聚类中心数量对应的多个第二簇。

2.根据权利要求1所述的方法，其特征在于，所述对所述用户属性数据集中的数据点进行聚类，直至收敛，生成与所述初始聚类中心数量对应的多个第一簇，包括：

从所述用户属性数据集中随机选取与所述初始聚类中心数量对应的多个数据点作为初始聚类中心；

根据预设公式计算所述用户属性数据集中的每个非聚类中心的数据点到各个初始聚类中心的距离；

将各个非聚类中心的数据点分到与其距离最近的初始聚类中心对应的簇中；

将每个簇的质心作为新的聚类中心，若新的聚类中心与当前聚类中心不同，则再次根据所述预设公式计算所述用户属性数据集中非聚类中心的数据点到各个新的聚类中心的距离，并将非聚类中心的数据点分到与其距离最近的聚类中心对应的簇中；以此类推，直至聚类后的每个簇的质心与前次的聚类中心相同。

3.根据权利要求1所述的方法，其特征在于，所述确定各个所述第一簇的簇内评价指标，包括：

基于公式：

计算各个簇的簇内评价指标；

4.根据权利要求1所述的方法，其特征在于，所述在确定所述簇内评价指标不满足标准簇内评价指标和/或所述簇内用户数量不满足标准簇内用户数量时，根据所述簇内评价指标、所述簇内用户数量、所述标准簇内评价指标和所述标准簇内用户数量对聚类中心的数量进行调整，包括：

针对每个第一簇，判断所述簇内用户数量是否小于所述标准簇内用户数量；

若所述簇内用户数量小于所述标准簇内用户数量，删除该第一簇对应的聚类中心；

若所述簇内用户数量大于所述标准簇内用户数量，判断所述簇内评价指标是否大于所述标准簇内评价指标；

若所述簇内评价指标大于所述标准簇内评价指标，将该第一簇内与聚类中心距离最近的用户的数据点作为新增的聚类中心。

5.一种项目推荐方法，其特征在于，所述方法包括：

在确定所述簇内评价指标不满足标准簇内评价指标和/或所述簇内用户数量不满足标准簇内用户数量时，根据所述簇内评价指标、所述簇内用户数量、所述标准簇内评价指标和所述标准簇内用户数量对聚类中心的数量进行调整并根据调整后的聚类中心的数量对所述用户属性数据集中的数据点进行再次聚类，直至收敛，生成与所述调整后的聚类中心数量对应的多个第二簇；

获取目标用户所在簇中各个用户对应的用户-评分矩阵；

基于所述用户-评分矩阵确定多个项目，其中，每个所述项目均被超过预设数量的处于所述目标用户所在簇中的用户进行评分；

计算每个项目的平均评分，并基于所述平均评分向所述目标用户推荐项目。

6.根据权利要求5所述的方法，其特征在于，所述基于所述平均评分向所述目标用户推荐项目，包括：

将所述多个项目的平均评分从大到小排序；

由大到小选取预设数量的项目作为待推荐项目向所述目标用户推荐。

7.一种用户分类装置，其特征在于，所述装置包括：

数据获取模块，用于获取用户属性数据集及初始聚类中心数量，所述用户属性数据集包括多个数据点，每个所述数据点对应一个用户的至少一维的用户属性；

数据处理模块，用于对所述用户属性数据集中的数据点进行聚类，直至收敛，生成与所述初始聚类中心数量对应的多个第一簇；确定各个所述第一簇的簇内评价指标和簇内用户数量，所述簇内评价指标用于表征簇内各数据点到聚类中心的平均距离，所述簇内用户数量与相应的第一簇中的数据点的数量对应；在确定所述簇内评价指标不满足标准簇内评价指标和/或所述簇内用户数量不满足标准簇内用户数量时，根据所述簇内评价指标、所述簇内用户数量、所述标准簇内评价指标和所述标准簇内用户数量对聚类中心的数量进行调整并根据调整后的聚类中心的数量对所述用户属性数据集中的数据点进行再次聚类，直至收敛，生成与所述调整后的聚类中心数量对应的多个第二簇。

8.一种项目推荐装置，其特征在于，所述装置包括：

数据处理模块，用于对所述用户属性数据集中的数据点进行聚类，直至收敛，生成与所述初始聚类中心数量对应的多个第一簇；确定各个所述第一簇的簇内评价指标和簇内用户数量，所述簇内评价指标用于表征簇内各数据点到聚类中心的平均距离，所述簇内用户数量与相应的第一簇中的数据点的数量对应；在确定所述簇内评价指标不满足标准簇内评价指标和/或所述簇内用户数量不满足标准簇内用户数量时，根据所述簇内评价指标、所述簇内用户数量、所述标准簇内评价指标和所述标准簇内用户数量对聚类中心的数量进行调整并根据调整后的聚类中心的数量对所述用户属性数据集中的数据点进行再次聚类，直至收敛，生成与所述调整后的聚类中心数量对应的多个第二簇；

推荐模块，用于获取目标用户所在簇中各个用户对应的用户-评分矩阵；基于所述用户-评分矩阵确定多个项目，其中，每个所述项目均被超过预设数量的处于所述目标用户所在簇中的用户进行评分；计算每个项目的平均评分，并基于所述平均评分向所述目标用户推荐项目。

9.一种电子设备，其特征在于，包括：处理器、存储器和总线；所述处理器和所述存储器通过所述总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1-6任一项所述的方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被计算机读取并运行时，执行如权利要求1-6中任一项所述的方法。