CN110532429B

CN110532429B - 一种基于聚类和关联规则的线上用户群体分类方法及装置

Info

Publication number: CN110532429B
Application number: CN201910832959.4A
Authority: CN
Inventors: 代劲; 尹航; 夏鲁宏; 胡峰
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Smart Express (Beijing) Technology Co.,Ltd.
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2021-05-11
Anticipated expiration: 2039-09-04
Also published as: CN110532429A

Abstract

本发明涉及计算机技术领域，特别涉及一种基于聚类和关联规则的线上用户群体分类方法及装置，所述方法包括确定作为聚类中心的用户，利用简单匹配的方法对用户信息数据集中单值离散特征进行相似度计算；将关联规则引入到杰卡德距离的计算过程中，并以此分别计算每个用户与聚类中心的用户之间兴趣特征的相似度；将单值离散特征与兴趣特征计算出的相似度进行加权相加，获得综合用户相似度；根据综合用户相似度对所有用户更新分簇，确定每个簇的中心，当前中心用户的各特征值与上一次更新的中心用户的特征相同，则输出分簇的用户群体，完成分类；本发明解决了簇中心的更新过程中无法对多值离散特征进行合理更新的问题，并提高了用户行为聚类的质量。

Description

一种基于聚类和关联规则的线上用户群体分类方法及装置

技术领域

本发明涉及计算机技术领域，特别涉及一种基于聚类和关联规则的线上用户群体分类方法及装置。

背景技术

随着网络技术的不断发展，网络越来越多复杂，网站内容也越来越丰富，通常可以通过确定网络用户的类别来确定目标用户，以实现信息推荐、网络监测和网站优化。

对线上用户群体分类的目的是分析核心用户的特征，可以应用于精准营销、商业决策、舆情分析、预警等领域；例如运用在精准营销领域，针对某电商品类进行营销时，需要向目标用户推荐相应的信息，通常将浏览过该类产品的网络用户作为目标用户，从而确定目标用户所属的类别信息，通过类别信息向用户精准推荐商品，通过聚类分析可以发现用户之间隐藏的信息，可应用于构建更详细的用户画像，可以发现隐藏的目标用户，向更多用户进行营销。

用户行为分析面临的关键问题是：(1)系统获取的用户行为数据的类型很多，包括数值型、二值型、单值离散型、多值离散型特征等，这些特征对于分析用户行为均具有价值，但由于其结构具有多样性，一般的算法无法进行直接分析；(2)当前对于用户行为聚类分析的研究，大多只针对数值型特征进行分析，而未考虑离散型特征的价值。

目前对用户行为聚类分析的研究主要是分析用户的特征或服务于推荐系统。例如，对直播平台上的高消费群体进行分析，其首先利用在直播平台上采集的直播数据以构建受众特征，并使用Gower距离度量混合特征的相似性，最后通过Medoids聚类方法对高消费群体进行聚类分析；采用k-means聚类算法分析电动汽车用户行为的热图和充电时间分布，总结出电动汽车用户的行为特征；结合改进的k-means算法对用户进行聚类，并挑选一个代表用户以帮助完成后期的推荐工作。

这些方法在一定程度上可以划分出相似特征的用户，并分析其特点。而当前大部分对用户行为进行聚类分析的算法只能通过欧式距离计算用户行为数据中的数值型特征的相似度。虽然其中一些方法可用来度量离散数据的相似性，但它们针对的是单值离散特征，不能处理多值离散特征，如用户的兴趣；另外现有的用户分类方法在数据量过多时，分类的性能会有所下降。

发明内容

有鉴于此，本发明提出了一种基于聚类和关联规则的线上用户群体分类方法，能够直接对用户行为数据中存在的兴趣特征进行相似性度量，并通过聚类分析发现主要用户群体的特点，以提高发现用户群体的质量，具体包括以下步骤：

S1、获取用户群体，根据用户群体的兴趣特征获得关于用户兴趣的关联规则集；

S2、随机确定用户群体中k个用户作为聚类分析的初始中心用户；

S3、利用简单匹配的方法对数据集中单值离散特征进行相似度计算；

S4、将关联规则引入到杰卡德距离的计算过程中，并以此分别计算每个用户与k个中心用户之间兴趣特征的相似度；

S5、将单值离散特征与兴趣特征计算出的相似度进行加权相加，获得综合用户相似度；

S6、分别将每个用户分配到与之相似度最高的中心用户的所属簇中；

S7、利用改进的中心用户更新方法确定簇新中心；

S8、判断当前中心用户的各特征值与上一次更新的中心用户的特征是否相同，若不相同，返回步骤S3；否则，停止迭代并输出能代表k个用户群体的k个用户数据，每个用户群体为一个类别，完成分类。

进一步的，综合用户相似度表示为：

其中，Dis(a,b)表示用户a与用户b之间的综合用户相似度；Dis(a,b)′表示用户a与用户b之间的单值离散特征相似度；μ为单值离散特征相似度的权重；Dis(a,b)″表示用户a与用户b之间的基于兴趣特征的相似度；

为基于兴趣特征的相似度的权重。

进一步的，用户a与用户b之间的基于兴趣特征的相似度Dis(a,b)″表示为：

其中，N_I(a,b)表示用户a与用户b之间交集的个数；N_U(a,b)表示用户a与用户b之间并集的个数；A_a,b为近似交集数的数量。

进一步的，所述近似交集数的数量A_a,b的值为满足判断条件的所有强关联规则的置信度之和，近似交集数的数量A_a,b的计算过程包括：

S400、采用Apriori算法进行关联规则挖掘，获得关联规则集，关联规则集中的一个关联规则表示为：X→Y；

S401、判断是否已经将关联规则集遍历完，若没有遍历完则执行步骤S402继续遍历关联规则集；若遍历完成，则执行步骤S406；

S402、若用户a和用户b同时包含第t个关联规则的前件，则执行S403；

若用户a包含第t个关联规则的前件、而用户b不包含，且用户a不包含第t个关联规则的后件、而用户b包含，则执行S405；

否则，将0赋给V_t并返回S401，判断下一个关联规则；

S403、如果用户a和用户b中的其中一个包含第t个关联规则的后件，则执行S404；否则，返回S401；

S404、从第t+1个关联规则开始向后遍历，比较第t个关联规则的置信度C_t与第t′个关联规则的置信度C_t′，记录较大的置信度，并删除第t个和第t′个关联规则以及对应子集的关联规则；遍历结束后，将最大置信度赋给V_t，返回S401；

S405、将C_t/2赋值给V_t,并删除第t个关联规则以及其子集的关联规则，返回S401；

S406、根据每次遍历的最大置信度为第t个关联规则向后遍历取最大值V_t计算近似交集数的数量A_a,b，表示为：

A_a,b＜N_U(a,b)-N_I(a,b)；

其中，X和Y为非空不相交项集，X为一个关联规则的前件；Y为一个关联规则的后件；d表示关联规则的总数；N_I(a,b)表示用户a与用户b交集的个数；N_U(a,b)表示用户a与用户b并集的个数；V_t由每次遍历关联规则集中的最大置信度转换而来，每次遍历的最大置信度为第t个关联规则向后遍历取最大值；第t′个关联规则是指向后遍历的任意一个关联规则。

一种基于聚类和关联规则的线上用户群体分类装置，包括：

用户信息采集模块，用于从线上获取用户的单值离散特征和兴趣特征；

关联规则挖掘模块，用于根据用户的兴趣特征挖掘出关于用户兴趣的关联规则集；

中心用户初始化模块，用于确定k个初始中心用户；

用户相似度计算模块，用于针对不同类型的特征采用不同的用户相似度计算方法，并进行加权相加，获得综合用户相似度；

用户群体划分模块，用于将每个用户分配到与之相似度最高的中心用户的所属簇中；

中心用户更新模块，用于利用改进的中心用户更新方法确定新中心用户；

核心中心用户识别模块，用于识别更新后的k个用户群体的k个用户数据，完成分类。

本发明的有益效果：本发明具有如下优点：将杰卡德距离应用于用户行为数据中多值离散特征的相似度计算，使得聚类算法可以处理多值离散特征，解决了当前用户行为聚类算法无法处理多值离散特征的问题。将关联规则引入杰卡德距离的计算过程以挖掘潜在信息，提高了用户相似性度量的精度。提出了一种针对多值离散特征的簇中心更新方法，该方法可以合理地反映多值离散特征在当前簇中的分布情况，解决了簇中心的更新过程中无法对多值离散特征进行合理更新的问题；提高了用户行为聚类的质量。

附图说明

图1为本发明一种基于聚类和关联规则的线上用户群体分类方法的流程图；

图2为本发明对比算法的各指标随聚类数k和轮廓系数(SC)的变化折线图；

图3为本发明对比算法的各指标随聚类数k和紧密度(CP)的变化折线图；

图4为本发明对比算法的各指标随聚类数k和分离度(SP)的变化折线图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种基于聚类和关联规则的线上用户群体分类方法及装置，如图1所示，它包括如下步骤：

S7、利用改进的中心用户更新方法确定簇新中心；

在本实施例中，单值离散特征为用户的个人信息，至少包括性别、年龄段、学历；兴趣特征为用户的业余娱乐活动以及在该娱乐活动中喜爱的项目，例如某用户的业余娱乐活动为看电影，该用户在娱乐活动中喜爱的项目即为该用户最喜爱的电影名称；又例如某用户的业余娱乐活动为运动，该用户在娱乐活动中喜爱的项目即为该用户喜爱的运动名称；优选的，用户的可以选择一个或者多个业余娱乐活动，且在一个业余娱乐活动中选择一个或多个喜爱的项目。

作为一种可选方式，本发明基于基础k-modes聚类算法进行了聚类方法的设计。k-modes聚类算法的定义为：

设U＝{x₁,…,x_i,…,x_n}为包含n个对象的分类型数据集，对象x_i被表示为[x_i1,x_i2,…,x_im]，其中，m是特征数量，x_im表示对象x_i的第m个特征；设对象x_i和对象x_i′分别为[x_i1,x_i2,…,x_im]、[x_i′1,x_i′2,…,x_i′m]，则对象x_i与对象x_i′之间距离的计算公式定义如下:

k-modes算法的优化模型定义为：

其中，

表示用户i的第j个特征x_ij与第p个用户群体的中心用户的第j个特征z_pj的相似度；u_ip表示用户i是否属于第p个用户群体，u_ip∈{0,1}，

w_j表示用户特征j的重要性，

0≤w_pj≤1；

U为隶属度矩阵，隶属度矩阵是一个n×k的二元矩阵，在每次迭代的过程中，若对象i归属于簇p，那么令u_ip＝1，否则u_ip＝0；Z为聚类中心的集合，表示为Z＝{z₁,z₂,…,z_k}，z_k为第k个聚类中心，聚类中心的总数量为k；W为数据集中所有特征的权重向量的集合，表示为W＝{w₁,w₂,…,w_m}，w_m表示第m个特征的权重向量。

优选的，关联规则被用来对数据中多值离散特征进行数据挖掘，以发现更有价值的信息，其定义为：

一个关联规则是对形如X→Y形式的推断，其中X和Y为非空不相交项集，X表示该规则的前件，Y表示该规则的后件，一般由三个指标度量关联规则，分别是支持度、置信度和提升度。本发明采用进行关联规则挖掘，以获得关联规则集。优选的，在本实施例中，将支持度设为0.1，置信度设为0.5，提升度设为3。

其中本发明获得的关联规则集的后件的项目数均为1，如图2所示。

优选的，处理单值离散特征的距离计算公式如下：

其中，

代表x_i与z_j特征值不同的数量，m是特征总数。处理单值离散特征的方法是基于简单匹配的思想，将Dis(x_i,z_j)′的值域控制在[0,1]。

优选的，本发明使用杰卡德距离处理多值离散特征。所述杰卡德距离定义为1减去杰卡德系数。杰卡德系数定义为集合的交集的元素个数除以并集的元素个数，其取值范围为[0,1]。公式如下：

优选的，将关联规则引入到杰卡德距离的计算过程中的具体描述如下：

定义了一个近似交集数，该近似交集满足判断条件的所有强关联规则的置信度之和，定义如下：

其中，其中N_I(a,b)和N_U(a,b)分别表示a与b交集和并集的个数。V_t由最大置信度转换而来，最大置信度为第t个关联规则向后遍历取最大值，d表示关联规则的总数。则近似交集数的数量A_a,b的计算过程包括：

否则，将0赋给V_t并返回S401，判断下一个关联规则；

A_a,b＜N_U(a,b)-N_I(a,b)；

对上述提及的某关联规则对应子集的关联规则进行具体描述：

若一个关联规则为1,2,3,4,5→6，其对应子集的关联规则为1,2,3,4→6，1,2,3→6，1,2→6，1→6等，即{1,2,3,4,5}的任意一个非空子集→6。

针对多值离散特征，将关联规则引入到杰卡德距离的计算过程中后的计算公式为：

基于上述处理单值离散特征与多值离散特征的距离计算方法，提出综合距离公式如下:

其中μ和

是调和参数，根据数据特点和实际需求，以设置单值离散特征与多值离散特征的权重。这里将μ设置为0.8，

设置为1，以增强多值离散特征对计算相似度时的影响，即将计算出的综合距离范围控制在[0,1.8]。

作为一种可选方式，聚类数k的取值范围设为[10,50]，步长为5，以观察不同指标在不同聚类数条件下算法性能的变化趋势，从而得到各算法合理的综合评价结果。

优选的，改进的簇中心更新方法具体包括如下：

S701、逐个判断簇j中用户的特征类型，若为单值离散特征，执行步骤S702；否则执行步骤S703；

S702、将簇j的新中心的每个特征的值分别更新为簇j中对应每个特征的最频繁值，转到下个特征执行S701；

S703、若C_j＝[v_j1,...,v_je,...,v_jl]为簇j中所有多值离散特征值的并集，如果簇j中值为v_je的数量N_vje不小于簇j中所有对象的数量的二分之一N_j/2，将v_je添加到簇j的新中心的对应特征中，否则不添加；

S704、判断簇j中所有多值离散特征值的并集中所有的值是否遍历完毕，若遍历完毕则返回步骤S701，判断下一个簇中用户的特征类型；否则返回步骤S703继续遍历；

其中，l表示并集中的元素数量。

在本发明中，为了验证提出的算法的正确性和有效性，对2018年腾讯广告算法大赛提供的用户特征文件进行对比实验。其数据的值，即特征值，已全部替换为数字，数据集中包含11420039个用户的分类型特征信息，包括单值离散数据和多值离散数据，共计23个特征。在本实验中，我们从数据集中提取了数据量为500的数据集(dataset1)、数据量为5000的数据集(dataset2)和数据量为10000的数据集(dataset3)的用户特征，分别作为三个实验数据集，并选择其中的用户id(user id)、年龄(age group)、性别(gender)、教育背景(education)和兴趣爱好(Interest)作为实验特征，如表1所示。

表1特征提取后的部分数据集样本

无法明确地得知用户实际属于哪一类人，无法选择外部聚类验证指标来评估聚类结果。为了评价聚类性能，本实验选择了三个内部聚类验证指标，包括紧密度(CP)、分离度(SP)和轮廓系数(SC)。

紧密度越低，簇内平均距离越近。其定义如下:

其中，CP_j表示用户j的紧密度，x_ij表示对象i的第j个特征；

为平均紧密度。

分离度越高，簇间平均距离越远，簇间平均距离

定义如下：

轮廓系数定义如下：

其中，n为数据集中的对象(用户)总数，k为聚类数，S_i为个体轮廓系数。

其中，S_i的定义如下:

其中，a(i)表示i与i所属集群的其他对象的平均距离；b(i)表示i到其他簇的平均距离的最小值；SC的取值范围为[-1,1]，越接近1，聚类效果越好。

在本发明中，设计了两个基于k-modes的聚类算法进行对比实验以验证本发明方法的有效性。

其一，结合杰卡德距离的k-modes聚类算法(JDKM)。假设数据集同时包含单值离散特征和多值离散特征，将这两种特征全部融合到一个特征中，也就是让数据集只包含一个多值离散特征。然后采用杰卡德距离作为用户相似性度量方法，并利用以下公式计算聚类过程中用户行为之间的距离：

其二，结合杰卡德距离的加权k-modes聚类算法(JDWKM)。该改进方法的流程与本发明的流程相同。唯一不同的是对于多值离散特征的相似度是由以下公式计算得出：

本实验中，将各算法在每个k值下运行5次，并分别计算平均值。再将三个数据集的结果分别在三个指标下求平均值。各指标随聚类数k的变化折线图如图2～4所示。

从表2中可以看出，本发明方法与两个对比方法分别在三个数据集中使用三个指标进行评估的结果。

表2各方法在三个指标上的对比

可观察到，本发明方法在轮廓系数上的性能始终优于其他两种算法。随着数据量的增加，本发明方法逐渐成为三个指标中聚类表现最好的，这说明本发明方法在用户数据量较大时可以取得更好的效果。

如图2，随着聚类中心k数量增加，本发明方法、JDKM方法以及JDWKM方法的轮廓系数SC均上升，但本发明得轮廓系数还是高于其他两个方法的轮廓系数；

如图3，随着聚类中心k数量增加，本发明方法、JDKM方法以及JDWKM方法的紧密度CP均下降，本发明方法与JDWKM方法均优于JDKM方法，且本发明方法略优于JDWKM方法；

如图4，随着聚类中心k数量增加，本发明方法、JDKM方法以及JDWKM方法的分离度SP整体趋势是上升状态，本发明方法与JDKM方法均优于JDWKM方法，本发明方法略低于JDKM方法；

但是综合轮廓系数SC、紧密度CP以及分离度SP，本发明方法优于JDKM方法以及JDWKM，特别是在数据量较大的情况下。

本发明还提出一种基于聚类和关联规则的线上用户群体分类装置，包括：

中心用户初始化模块，用于确定k个初始中心用户；

进一步的，所述用户相似度计算模块包括单值离散特征相似度计算单元、兴趣特征相似度计算单元以及综合加权单元，其中：

单值离散特征相似度计算单元利用简单匹配的方法进行相似度计算；

兴趣特征相似度计算单元将关联规则引入到杰卡德距离的计算过程中，并以此分别计算每个用户与k个中心用户之间兴趣特征的相似度；

综合加权单元将单值离散特征相似度计算单元以及兴趣特征相似度计算单元输出的值进行加权相加，获得综合用户相似度。

进一步的，所述中心用户更新模块包括：用户特征类型判断单元、单值离散特征处理单元、兴趣特征处理单元以及更新完成判断单元；其中：

用户特征类型判断单元用于判断用户特征的类型，若为单值离散特征则将该特征输入单值离散特征处理单元，否则输入兴趣特征处理单元；

单值离散特征处理单元用于将用户的单子离散特征更改为单子离散特征中最频繁的值；

兴趣特征处理单元用于对多值离散特征值进行聚类处理，输出用户的兴趣特征；

更新完成判断单元用于判断中心用户的各个特征值是否与上一次更新的中心用户的特征值一直，若一致，则输出用户分类结果完成分类；否则继续更新中心用户的特征值。

本发明所述的一种基于聚类和关联规则的线上用户群体分类装置还包括存储器和处理器，以上装置可以以计算机程序的形式存储在存储器中，并通过处理器运行该存储器中的计算机程序，得出分类结果。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于聚类和关联规则的线上用户群体分类方法，其特征在于，包括以下步骤：

S1、获取用户群体的用户信息数据集，对用户信息数据集中的兴趣特征进行关联规则挖掘，获得关于用户兴趣的关联规则集；

S3、利用简单匹配的方法对用户信息数据集中单值离散特征进行相似度计算；

S7、利用改进的中心用户更新方法确定簇的新中心；

S8、判断当前中心用户的各特征值与上一次更新的中心用户的特征是否相同，若不相同，返回步骤S3；否则，停止迭代并输出能代表k个用户群体的k个用户数据，每个用户数据为一个类别，完成分类。

2.根据权利要求1所述的一种基于聚类和关联规则的线上用户群体分类方法，其特征在于，单值离散特征为用户的个人信息；兴趣特征为用户的一个或多个业余娱乐活动以及在该娱乐活动中喜爱的一个或多个项目。

3.根据权利要求1所述的一种基于聚类和关联规则的线上用户群体分类方法，其特征在于，综合用户相似度表示为：

为基于兴趣特征的相似度的权重。

4.根据权利要求3所述的一种基于聚类和关联规则的线上用户群体分类方法，其特征在于，用户a与用户b之间的单值离散特征相似度Dis(a,b)′表示为：

其中，N_f(a,b)代表用户a与用户b特征值不同的数量；m为特征总数。

5.根据权利要求3所述的一种基于聚类和关联规则的线上用户群体分类方法，其特征在于，用户a与用户b之间的基于兴趣特征的相似度Dis(a,b)″表示为：

6.根据权利要求5所述的一种基于聚类和关联规则的线上用户群体分类方法，其特征在于，所述近似交集数的数量A_a,b的值为满足判断条件的所有强关联规则的置信度之和，近似交集数的数量A_a,b的计算过程包括：

否则，将0赋给V_t并返回S401，判断下一个关联规则；

A_a,b＜N_U(a,b)-N_I(a,b)；

7.根据权利要求1所述的一种基于聚类和关联规则的线上用户群体分类方法，其特征在于，所述利用改进的中心用户更新方法确定新中心包括：

S703、若C_j＝[v_j1,...,v_je,...,v_jl]为簇j中所有多值离散特征值的并集，如果簇j中第e个多值离散特征值v_je的数量

不小于簇j中所有对象的数量的二分之一，将第e个多值离散特征值v_je添加到簇j的新中心的对应特征中，否则不添加；

其中，l表示并集的多值离散特征值种类的数量。

8.一种基于聚类和关联规则的线上用户群体分类装置，其特征在于，包括：

中心用户初始化模块，用于确定k个初始中心用户；

9.根据权利要求8所述的装置，其特征在于，所述用户相似度计算模块包括单值离散特征相似度计算单元、兴趣特征相似度计算单元以及综合加权单元，其中：

10.根据权利要求8所述的装置，其特征在于，所述中心用户更新模块包括：用户特征类型判断单元、单值离散特征处理单元、兴趣特征处理单元以及更新完成判断单元；其中：