CN105139020A

CN105139020A - 一种用户聚类方法及装置

Info

Publication number: CN105139020A
Application number: CN201510400155.9A
Authority: CN
Inventors: 高云翔
Original assignee: Wireless Living (hangzhou) Mdt Infotech Ltd
Current assignee: Wireless Living (hangzhou) Mdt Infotech Ltd
Priority date: 2015-07-06
Filing date: 2015-07-06
Publication date: 2015-12-09
Anticipated expiration: 2035-07-06
Also published as: CN105139020B

Abstract

本发明公开了一种用户聚类方法及装置。所述方法包括：将用户分配到离自己最近的用户群；根据用户浏览过的商品和预设的目标函数，计算用户群的目标函数的值，所述目标函数用于表示所述用户群之间针对商品的相似程度；当所述目标函数的值小于或等于预设阈值时，将所有的用户群作为聚类结果；当所述目标函数的值大于预设阈值时，按照目标函数值下降的方向，调整用户的每个身份属性特征向量的权重，重新将用户分配到离自己最近的用户群，直至所述目标函数的值小于或等于预设阈值。上述技术方案，将无监督的聚类变成了有监督的聚类、聚类效果更好。

Description

一种用户聚类方法及装置

技术领域

本发明涉及互联网技术领域，特别涉及一种用户聚类方法及装置。

背景技术

用户聚类是推荐系统之中常见的课题，利用kmeans算法进行聚类时，现有的技术方案往往是人工依靠经验对用户特征进行赋权，而且是无监督的，无法用训练集来告知模型哪些结果是好的。这种人工调权过程效率低下。需要反复的根据结果调整权重；而且人工调权效果较差，效果好坏依赖工程师经验；人工调权只支持少量的特征维度，项目周期会随着维度的增加而增大，维度增大到10维以上，项目无法接受。

发明内容

本发明提供一种用户聚类方法及装置，用以准确、快速的将用户进行聚类。

本发明提供一种用户聚类方法，包括：

将用户分配到离自己最近的用户群；

根据用户浏览过的商品和预设的目标函数，计算用户群的目标函数的值，所述目标函数用于表示所述用户群之间针对商品的相似程度；

当所述目标函数的值小于或等于预设阈值时，将所有的用户群作为聚类结果；

当所述目标函数的值大于预设阈值时，按照目标函数值下降的方向，调整用户的每个身份属性特征向量的权重，重新将用户分配到离自己最近的用户群，直至所述目标函数的值小于或等于预设阈值。

在一个实施例中，在将用户分配到离自己最近的用户群之前，所述方法还包括：

随机将用户分到K个用户群中，其中K为大于1的整数，对用户的每个身份属性特征向量分别赋予权重。

在一个实施例中，所述按照目标函数下降的方向，调整所述用户的每个身份属性特征向量的权重，可包括：

为用户的每个身份属性特征向量的权重分别增加预设步长；并分别确定所述每个身份属性特征向量的权重增加预设步长后的目标函数的值；

将所述每个身份属性特征向量的权重调整为最小的目标函数的值所对应的每个身份属性特征向量的权重。

在一个实施例中，所述为所述用户重新分配到离自己最近的用户群，可包括：

根据每个用户群中用户的每个身份属性特征向量的权重确定每个用户群的中心点；

确定每一个用户分别与K个用户群的中心点的距离，将用户重新分配到与所述用户距离最近的中心点所在的用户群。

在一个实施例中，所述目标函数可以为：

\frac{M}{a \times K}

将用户群作为一个整体，对用户群中的每个用户浏览过的商品进行统计，按照浏览次数由多到少的顺序对所述商品进行排序；a为预设的按照降序从排序中选取的商品个数，M为其中一个用户群与除所述用户群之外的任一用户群之间重复的商品数，K为用户群的个数。

在一个实施例中，所述用户的身份属性特征向量可包括以下信息中的一项或多项：年龄、职业、性别、居住地、学历。

本发明提供还一种用户聚类装置，包括：

分配模块，用于将用户分配到离自己最近的用户群；

计算模块，用于根据用户浏览过的商品和预设的目标函数，计算用户群的目标函数的值，所述目标函数用于表示所述用户群之间针对商品的相似程度；

聚类结果模块，用于当所述目标函数的值小于或等于预设阈值时，将所有的用户群作为聚类结果；

权重调整模块，用于当所述目标函数的值大于预设阈值时，按照目标函数值下降的方向，调整用户的每个身份属性特征向量的权重，重新将用户分配到离自己最近的用户群，直至所述目标函数的值小于或等于预设阈值。

在一个实施例中，所述装置还包括：

初始模块，用于随机将用户分到K个用户群中，其中K为大于1的整数，对用户的每个身份属性特征向量分别赋予权重。

在一个实施例中，所述权重调整模块，可包括：

步长增加子模块，用于为用户的每个身份属性特征向量的权重分别增加预设步长；

第一确定子模块，用于分别确定所述每个身份属性特征向量的权重增加预设步长后的目标函数的值；

调整子模块，用于将所述每个身份属性特征向量的权重调整为最小的目标函数的值所对应的每个身份属性特征向量的权重。

在一个实施例中，所述分配模块，可包括：

第二确定子模块，用于根据每个用户群中用户的每个身份属性特征向量的权重确定每个用户群的中心点；

重新分配子模块，用于确定每一个用户分别与K个用户群的中心点的距离，将用户重新分配到与所述用户距离最近的中心点所在的用户群。

在一个实施例中，所述目标函数可以为：

\frac{M}{a \times K}

本发明实施例的上述技术方案，由于将用户群之间的相似程度定义为目标函数，在聚类的过程中，始终朝着目标函数下降的方向调整身份属性特征向量的权重，因此本方案将无监督的聚类变成了有监督的聚类、聚类效果更好。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种用户聚类方法的流程图；

图2为本发明实施例中一种用户聚类方法中步骤S40的流程图；

图3为本发明实施例中一种用户聚类方法中步骤S10的另一个流程图；

图4为本发明实施例中一种用户聚类装置的框图；

图5为本发明实施例中一种用户聚类装置中权重调整模块44的框图；

图6为本发明实施例中一种用户聚类装置中分配模块41的框图.

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1所示为本发明实施例中一种用户聚类方法的流程图，如图1所示，包括以下步骤S10-S50：

步骤S10，将用户分配到离自己最近的用户群。

步骤S20，根据用户浏览过的商品和预设的目标函数，计算用户群的目标函数的值，目标函数用于表示用户群之间针对商品的相似程度；

步骤S30，判断目标函数的值是否小于或等于预设阈值；

步骤S40，当目标函数的值小于或等于预设阈值时，将所有的用户群作为聚类结果；

步骤S50，当目标函数的值大于预设阈值时，按照目标函数值下降的方向，调整用户的每个身份属性特征向量的权重，重新将用户分配到离自己最近的用户群，直至目标函数的值小于或等于预设阈值。

本发明实施例的上述方法，由于将用户群之间的相似程度定义为目标函数，在聚类的过程中，始终朝着目标函数下降的方向调整身份属性特征向量的权重，因此本方案将无监督的聚类变成了有监督的聚类、聚类效果更好。

在一个实施例中，在将用户分配到离自己最近的用户群之前，方法还包括：随机将用户分到K个用户群中，其中K为大于1的整数，对用户的每个身份属性特征向量分别赋予权重。

初始设定K个用户群，并随机将用户分到K个用户群中。举例说明，有1000个用户，用户想将这1000个用户分成5个用户群，则可以每个用户群中随机分配200个用户，或者，这1000个用户并不是平均分到5个用户群中，比如，某一个用户群中随机分配100个，另一个用户群中随机分配200个，再一个用户群中随机分配250个等，只要分到5个用户群中的用户的数量为1000个即可。

在该步骤中，对用户的每个身份属性特征向量分别赋予初始权重，例如，每个身份属性特征向量的初始权重可以都赋为0或者都赋为1，或者分别赋予不同的值。在一个实施例中，用户的身份属性特征向量可包括以下信息中的一项或多项：年龄、职业、性别、居住地、学历。在聚类的过程中，用户的每个身份属性特征向量的权重不同，比如用户的性别的权重会高于职业的权重，因此，不管初始时赋予每个身份属性特征向量什么值，在聚类的过程中都会不断调整每个身份属性特征向量的权重。

在一个实施例中，如图2所示，步骤S50中的调整用户的每个身份属性特征向量的权重可实施为如下步骤S201-S202：

步骤201，为用户的每个身份属性特征向量的权重分别增加预设步长；并分别确定每个身份属性特征向量的权重增加预设步长后的目标函数的值。

举例说明，为描述方便，只取用户的3个身份属性特征向量，例如是性别、年龄、职业。为每个身份属性特征向量分别赋予初始权重1，预设步长例如为0.5。在该步骤中，将性别的权重增加0.5，这时，身份属性特征向量性别、年龄、职业对应的权重分别为1.5、1、1，此时，将用户重新分配用户群，计算目标函数，得出目标函数的值例如为5；再将年龄的权重增加0.5，这时，身份属性特征向量性别、年龄、职业对应的权重分别为1、1.5、1，此时，将用户重新分配用户群，计算目标函数，得出目标函数的值6；再将职业的权重增加0.5，这时，身份属性特征向量性别、年龄、职业对应的权重分别为1、1、1.5，此时，将用户重新分配用户群，计算目标函数，得出目标函数的值7。

步骤202，将每个身份属性特征向量的权重调整为最小的目标函数的值所对应的每个身份属性特征向量的权重。

在该步骤中，将每个身份属性特征向量的权重调整为最小的目标函数的值所对应的每个身份属性特征向量的权重，在上例中，将性别、年龄、职业的权重调整为1.5、1、1，即最小的目标函数的值对应的每个身份属性特征向量的权重。

在本实施例中，步长是可以变化的，即初始时由于离最优解较远，设置的步长可以较大，如0.5，在执行过程中，为了防止步长过大直接跳过最优解，应逐渐减少步长，直到目标函数的值小于预设的阈值或者目标函数的值的变化范围小于给定值后结束。

在本方案中，按照目标函数下降最快的方向来调整身份属性特征向量的权重，并且按照给定的步长沿着这个方向走，相比完全随机的调整权重，该方法很大程度上降低了网络开销。

在一个实施例中，如图3所示，步骤S10中的将用户分配到离自己最近的用户群，可实施为如下步骤S301-S302：

步骤S301，根据每个用户群中用户的每个身份属性特征向量的权重确定每个用户群的中心点。

步骤S302，确定每一个用户分别与K个用户群的中心点的距离，将用户重新分配到与用户距离最近的中心点所在的用户群。

重复执行步骤S301、S302，一直到每个用户所属的用户群不再变化，即目标函数的值下降到符合用户需求。

在一个实施例中，目标函数可以为：

\frac{M}{a \times K}

将用户群作为一个整体，对用户群中的每个用户浏览过的商品进行统计，按照浏览次数由多到少的顺序对商品进行排序；a为预设的按照降序从排序中选取的商品个数，M为其中一个用户群与除用户群之外的任一用户群之间重复的商品数，K为用户群的个数。

举例说明，假设现在有K个用户群，对每个用户群看过的商品进行计数，每个用户群取出最多的top1000，这样一共有1000×K个商品。里面有一些商品是重复的，假设重复的商品数是M，那么M/(1000×K)就是重合度，我们的目标是要使得重合度越小越好。如果M＝0，那么说明我们的用户群分别喜欢看不同的商品，用户分类效果很好；如果M很大，说明我们的用户群看的商品都是一样的，说明用户分类效果较差。

为什么要设置目标函数？我们的目标是要把用户分群，并且每个群体的用户喜欢的商品有所不同，所以把用户的一些基本特征作为聚类的身份属性特征向量，然后看聚类出来的群是不是喜欢不同的商品。理想情况下只要分出的用户群所看的商品都不一样，这些用户群就是有意义的。用这种方式分好群后，当有新用户时，我们可以根据该用户的基本特征将其快速归入某个群中，并向该新用户推荐该群对应的商品，从而可以有针对性的向用户进行推荐。

基于同一发明构思，本发明实施例还提供了一种用户聚类装置，由于该装置所解决问题的原理与前述用户聚类方法相似，因此该装置的实施可以参见前述方法的实施，重复之处不再赘述。

图4所示为本发明实施例中一种用户聚类装置的框图，如图4所示，该装置包括：

分配模块41，用于将用户分配到离自己最近的用户群；

计算模块42，用于根据用户浏览过的商品和预设的目标函数，计算用户群的目标函数的值，所述目标函数用于表示所述用户群之间针对商品的相似程度；

聚类结果模块43，用于当所述目标函数的值小于或等于预设阈值时，将所有的用户群作为聚类结果；

权重调整模块44，用于当所述目标函数的值大于预设阈值时，按照目标函数值下降的方向，调整用户的每个身份属性特征向量的权重，重新将用户分配到离自己最近的用户群，直至所述目标函数的值小于或等于预设阈值。

在一个实施例中，上述装置还包括：

在一个实施例中，如图5所示，权重调整模块44，可包括：

步长增加子模块421，用于为用户的每个身份属性特征向量的权重分别增加预设步长；

第一确定子模块422，用于分别确定所述每个身份属性特征向量的权重增加预设步长后的目标函数的值；

调整子模块423，用于将每个身份属性特征向量的权重调整为最小的目标函数的值所对应的每个身份属性特征向量的权重。

在一个实施例中，如图6所示，所述分配模块41，可包括：

第二确定子模块411，用于根据每个用户群中用户的每个身份属性特征向量的权重确定每个用户群的中心点；

重新分配子模块412，用于确定每一个用户分别与K个用户群的中心点的距离，将用户重新分配到与所述用户距离最近的中心点所在的用户群。

在一个实施例中，所述目标函数可以为：

\frac{M}{a \times K}

本发明实施例的上述装置，由于将用户群之间的相似程度定义为目标函数，在聚类的过程中，始终朝着目标函数下降的方向调整身份属性特征向量的权重，因此本方案将无监督的聚类变成了有监督的聚类、聚类效果更好。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种用户聚类方法，其特征在于，包括：

将用户分配到离自己最近的用户群；

2.如权利要求1所述的方法，其特征在于，在将用户分配到离自己最近的用户群之前，所述方法还包括：

3.如权利要求1所述的方法，其特征在于，所述按照目标函数下降的方向，调整用户的每个身份属性特征向量的权重，包括：

4.如权利要求1所述的方法，其特征在于，所述将用户重新分配到离自己最近的用户群，包括：

5.如权利要求1-4中任一项所述的方法，其特征在于，所述目标函数为：

\frac{M}{a \times K}

6.如权利要求1所述的方法，其特征在于，所述用户的身份属性特征向量包括以下信息中的一项或多项：年龄、职业、性别、居住地、学历。

7.一种用户聚类装置，其特征在于，包括：

分配模块，用于将用户分配到离自己最近的用户群；

8.如权利要求7所述的方法，其特征在于，所述装置还包括：

9.如权利要求7所述的装置，其特征在于，所述权重调整模块，包括：

10.如权利要求7所述的装置，其特征在于，所述分配模块，包括：

11.如权利要求7-10中任一项所述的装置，其特征在于，所述目标函数为：

\frac{M}{a \times K}

12.如权利要求5所述的装置，其特征在于，所述用户的身份属性特征向量包括以下信息中的一项或多项：年龄、职业、性别、居住地、学历。