CN112801197A

CN112801197A - 一种基于用户数据分布的K-means方法

Info

Publication number: CN112801197A
Application number: CN202110162781.4A
Authority: CN
Inventors: 任熠营; 陈玉冰; 张立臣
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-05-14

Abstract

本申请公开了一种基于用户数据分布的K‑means方法，包括：采用基于数据分布的canopy算法对样本数据进行粗分类，得到聚类数K；采用改进的遗传算法求取样本数据中适应度最高的前K个样本点作为初始聚类中心。本申请通过基于用户数据分布的K‑means方法提高了聚类算法的稳定性、准确率。

Description

一种基于用户数据分布的K-means方法

技术领域

本申请涉及数据聚类技术领域，尤其涉及一种基于用户数据分布的K-means方法。

背景技术

自MacQueen用数学的方法对K-means进行证明并给出基本步骤，其简单、高效并适用于大规模数据的特性帮助K-means在不同的学科领域被广泛研究与应用，不断优化和改进使得其仍是目前最普遍使用的划分聚类算法之一。但是在面对大规模数据时，容易陷入局部最优、收敛速度慢，以此同时K-means很容易被噪声数据影响，并且聚类数目的不确定和初始聚类中心选取的随机性，大大降低了K-means聚类算法的稳定性、准确率。

发明内容

本申请提供了一种基于用户数据分布的K-means方法，解决了K-means聚类算法的稳定性差且准确率低的技术问题。

有鉴于此，本申请第一方面提供了一种基于用户数据分布的K-means方法，所述方法包括：

采用基于数据分布的canopy算法对样本数据进行粗分类，得到聚类数K；

采用改进的遗传算法求取所述样本数据中适应度最高的前K个样本点作为初始聚类中心。

可选的，所述采用基于数据分布的canopy算法对样本数据进行粗分类，得到聚类数K，具体包括：

S11：取样本集D中所有样本点的平均值作为中心点canopy；

S12：计算所述中心点canopy至所述样本集D中各样本点之间的距离dist，样本点i被归为于聚类canopy的概率prob，以及所述样本集D的所述中心点canopy的密集度dens；

S13：根据所述样本点的分布设定概率值P1和P2；

S14：根据预置规则将所述密集度与所述概率值P1和P2进行比较，得到聚类canopy半径T2和非聚类半径T1；

S15：将dist<T2的第一样本点归类于聚类canopy中，将属于聚类canopy中的样本点求均值，得到均值点，将聚类中靠近所述均值点的样本点作为聚类canopy的中心点；

S16：从所述样本集D中剔除所述第一样本点，将T2<dist<T1的样本点组合成新的样本集D1；

S17：重复步骤S11-S16，直到新的样本集中没有样本点，则得到K个聚类canopy。

可选的，所述计算所述中心点canopy至所述样本集D中各样本点之间的距离dist，样本点i被归为于聚类canopy的概率prob，以及所述样本集D的所述中心点canopy的密集度dens，具体为：

所述中心点canopy至所述样本集D中各样本点之间的距离dist为：

样本点i被归为聚类canopy的概率prob为：

所述样本集D的所述中心点canopy的密集度dens为：

式中，x_i为第i个样本点，x_canopy为中心点canopy；MAX{dist(x₁),…,dist(x_n)}为中心点canopy与样本集D中最远样本点的距离；num(canopy)表示中心点canopy的聚类中样本点个数，num(D)表示样本集D中样本点个数。

可选的，所述根据所述样本点的分布设定概率值P1和P2，具体为：

若样本集中样本点满足标准正态分布或近似正态分布，则设定概率值P2为一个标准差之内的比率，设定概率值P1为两个标准差以内的比率；若样本点不满足正态分布，则概率值P1、P2设置为经验值。

可选的，所述根据预置规则将所述密集度与所述概率值P1和P2进行比较，得到聚类canopy半径T2和非聚类半径T1，具体为：

将样本点的prob从大到小进行排序；

当所述聚类canopy的密集度dens小于等于P2时，按照prob的排序顺序将样本点与概率值P1进行比较，若样本点i的prob大于P1，则将样本点i归入所述聚类canopy，给样本i标上强标记，最后一个归入聚类的样本点的dist赋值T2；

当所述聚类canopy的密集度dens小于等于P2，按照prob的排序顺序将样本点与概率值P1进行比较，若样本点i的prob小于P1且大于P2，则将样本点i不归入所述聚类canopy，给样本点i标上弱标记，最后一个被弱标记的样本点的dist赋值T1；

当所述聚类canopy的密集度dens小于等于P2，按照prob的排序顺序将样本点与概率值P2进行比较，若样本点i的prob小于P2，最后一个被强标记的样本点的dist赋值T2，最后一个被弱标记的样本点的dist赋值T1；

当所述聚类canopy的密集度dens大于P2，按照prob的排序顺序将样本点与概率值P2进行比较，若样本点i的prob大于P2，则给与样本点i弱标记，最后一个被弱标记的样本点的dist赋值T1。

可选的，所述采用改进的遗传算法求取所述样本数据中适应度最高的前K个样本点作为初始聚类中心，具体为：

获取样本集中所有个体，并设置遗传算法的交叉概率、变异概率、优化精度、最大迭代数；

对所有个体进行浮点数编码，并随机产生种群；

S21：计算每个个体的适应度；

S22：将适应度排在前n的个体的数据，根据所述交叉概率对适应度排在后n的个体进行单点交叉操作；

S23：将适应度排在前n的个体的数据，根据所述变异概率对适应度排在后n的个体进行变异操作，使得排在后n的个体产生变异，得到新的个体；

S24：重复步骤S21-S23，直到计算的优化精度达到预置的优化精度或者最大迭代数达到预置的最大迭代数；

S24：将适应度最高的前K个个体作为初始聚类中心。

从以上技术方案可以看出，本申请具有以下优点：

本申请实施例中，提供了一种基于用户数据分布的K-means方法，包括：采用基于数据分布的canopy算法对样本数据进行粗分类，得到聚类数K；采用改进的遗传算法求取样本数据中适应度最高的前K个样本点作为初始聚类中心。

本申请通过对聚类数K和初始聚类中心采取两种方案进行处理，首先采用改进的Canopy算法对原始数据进行基于用户真实数据分布情况粗分类得到聚类数K，在然后使用改进的遗传算法对原始数据进行适应度计算，基于改进的遗传算法的快速搜索和遗传进化能力，可以快速的得到原始数据点中适应度最高的K个初始聚类中心。

附图说明

图1为本申请额一种基于用户数据分布的K-means方法的一个实施例的方法流程图；

图2为本申请实施例中二维平面canopy算法分类示意图；

图3为本申请实施例中协助进化策略的一个循环周期中的完整流程示意图；

图4为本申请实施例中K-means算法、基于Canopy的K-means算法(CKM)、基于遗传的K-means算法(GAKM)和本文算法(CGAKM)的轮廓指标SC的对比图；

图5为本申请实施例中K-means算法、基于Canopy的K-means算法(CKM)、基于遗传的K-means算法(GAKM)和本文算法(CGAKM)的轮廓指标CH的对比图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，图1为本申请一种基于用户数据分布的K-means方法的一个实施例的方法流程图，如图1所示，图1中包括：

101、采用基于数据分布的canopy算法对样本数据进行粗分类，得到聚类数K；

需要说明的是，本申请可以采用基于数据分布的canopy算法对样本数据进行粗分类，得到聚类数K；具体的包括：

S11：取样本集D中所有样本点的平均值作为中心点canopy；

需要说明的是，可以求取样本集D中所有样本点的平均值得到均值点，将均值点作为中心点canopy。

S12：计算中心点canopy至样本集D中各样本点之间的距离dist，样本点i被归为于聚类canopy的概率prob，以及样本集D的中心点canopy的密集度dens；

需要说明的是，中心点canopy至样本集D中各样本点之间的距离dist为：

样本点i被归为聚类canopy的概率prob为：

样本集D的中心点canopy的密集度dens为：

式中，对于样本集

n为样本数，取所有样本点的平均值点为中心点canopy；x_i为第i个样本点，x_canopy为中心点canopy；MAX{dist(x₁),…,dist(x_n)}为中心点canopy与样本集D中最远样本点的距离；num(canopy)表示中心点canopy的聚类中样本点个数，num(D)表示样本集D中样本点个数。

S13：根据样本点的分布设定概率值P1和P2；

需要说明的是，若样本集中样本点满足标准正态分布或近似正态分布，则可以设定概率值P2为一个标准差之内的比率，设定概率值P1为两个标准差以内的比率；若样本点不满足正态分布，则可以将概率值P1、P2设置为经验值。这样设置的目的是借助样本的分布特性对聚类过程中的所设定的概率值进行选取，减少概率值阈值选取的盲目性，使阈值更加贴合真实数据。

S14：根据预置规则将密集度与概率值P1和P2进行比较，得到聚类canopy半径T2和非聚类半径T1；

需要说明的是，Canopy算法中原始阈值T1、T2都是提前自行指定，本申请的算法改进为依据P1、P2进行选取。采用基于样本点分布密度和距离选取阈值T1、T2，具体操作为：设置概率P1、P2且P1大于P2；则可以将样本点的prob从大到小进行排序；

当聚类canopy的密集度dens小于等于P2时，按照prob的排序顺序将样本点与概率值P1进行比较，若样本点i的prob大于P1，则将样本点i归入聚类canopy，给样本i标上强标记，最后一个归入聚类的样本点的dist赋值T2；

当聚类canopy的密集度dens小于等于P2，按照prob的排序顺序将样本点与概率值P1进行比较，若样本点i的prob小于P1且大于P2，则将样本点i不归入聚类canopy，给样本点i标上弱标记，最后一个被弱标记的样本点的dist赋值T1；

当聚类canopy的密集度dens小于等于P2，按照prob的排序顺序将样本点与概率值P2进行比较，若样本点i的prob小于P2，最后一个被强标记的样本点的dist赋值T2，最后一个被弱标记的样本点的dist赋值T1；

当聚类canopy的密集度dens大于P2，按照prob的排序顺序将样本点与概率值P2进行比较，若样本点i的prob大于P2，则给与样本点i弱标记，最后一个被弱标记的样本点的dist赋值T1。

S15：将dist<T2的第一样本点归类于聚类canopy中，将属于聚类canopy中的样本点求均值，得到均值点，将聚类中靠近均值点的样本点作为聚类canopy的中心点；

需要说明的是，当中心点canopy至样本集D中第一样本点i的距离dist小于聚类canopy半径T2，则将第一样本点i归类于聚类canopy中；将所有属于聚类canopy的第一样本点求平均，得到均值点，将聚类中靠近均值点的样本点作为聚类canopy的中心点。

S16：从样本集D中剔除第一样本点，将T2<dist<T1的样本点组合成新的样本集D1；

需要说明的是，第一样本点i被归类后，可以从样本集D中剔除已经归类的样本点，将剩余样本点中至中心点canopy的距离dist大于T2小于T1的样本点组合成新的样本集D1。

需要说明的是，可以再取样本集D1中所有样本点的平均值作为中心点canopy1，重复步骤S11-S16，直到从样本集中剔除已经归类的样本点后，将剩余样本点中至中心点canopyn的距离dist大于T2小于T1的样本点组合成新的样本集Dn，新的样本集Dn中没有样本点，则可以得到K个聚类canopy。本申请中最终得到的二维平面canopy算法分类示意图可参考图2所示的分类结果。

102、采用改进的遗传算法求取样本数据中适应度最高的前K个样本点作为初始聚类中心。

需要说明的是，本申请采用改进的遗传算法可以使用浮点数编码的方式对染色体(个体)进行编码，降低了遗传算法的计算复杂度，提高了运行的效率；适应度函数可以使用标准欧式距离设计；在改进的遗传操作中采用协助进化策略即：将适应度最高的两个或多个个体直接进入下一次的选择而不进行交叉、变异，从而保证优秀个体(适应度最高的两个或多个个体)的DNA；利用优秀个体DNA对适应度低的个体(适应度较低的两个或多个个体)进行改变。具体的，可以根据预置的变异概率利用优秀个体DNA对适应度低的个体进行变异操作；在交叉过程中可以使用单点交叉，降低破坏个体形状和个体适应度的可能。图3所示为协助进化策略的依次循环周期中的完整过程，在整个过程中适应度高的Winner都不会发生改变，而是利用适应度高的Winner对适应度低的loser进行交叉和变异。

改进的遗传算法的具体流程包括：

获取样本集中所有个体(样本点)，并设置遗传算法的交叉概率、变异概率、优化精度、最大迭代数；

对所有个体进行浮点数编码，并随机产生种群；

需要说明的是，在使用改进的遗传算法对样本集进行处理之前，可以设置改进的遗传算法的交叉概率、变异概率、优化精度、最大迭代数；再对样本集中每个样本点进行浮点数编码，并随机产生种群。

S21：计算每个个体的适应度；

需要说明的是，本申请的适应度函数可以使用标准欧式距离设计，从而计算出每个个体的适应度。

S22：将适应度排在前n的个体的数据，根据交叉概率对适应度排在后n的个体进行单点交叉操作；

需要说明的是，可以将获取每个个体的适应度，并将适应度排在前n的个体，根据预先设置的交叉概率对适应度排在后n的个体进行单点交叉操作；其中适应度排在前n的个体的染色体不作任何变化。

需要说明的是，可以将获取每个个体的适应度，并将适应度排在前n的个体，根据预先设置的变异概率对适应度排在后n的个体进行变异操作；其中适应度排在前n的个体的染色体不作任何变化。

需要说明的是，重复步骤S21-S23，对个体不断进行交叉变异，直到计算的优化精度达到预先设置的优化精度或者最大迭代数达到预先设置的最大迭代数，则停止计算。

S24：将适应度最高的前K个个体作为初始聚类中心。

需要说明的是，停止计算后的个体中适应度最高的前K个个体作为初始聚类中心。则得到了K个聚类数以及K各初始聚类中心，完成聚类。

本申请还提供了一种具体的实施方式，用于对本申请的方法进行评价，其评价函数可以采用轮廓系数SC指标(Silhouette Coefficient，SC)和CH指标(Calinski-Harabaz，CH)。其中，(Silhouette Coefficient，SC)结合了聚类的凝聚度(Cohesion)和分离度(Separation)，对于每个样本点i，计算点i与其同一个簇内的所有其他样本点距离的平均值，记作a(i)，用于量化簇内的凝聚度；选取i外的一个簇b，计算i与b中所有样本的平均距离，遍历所有其他簇，找到最临近簇计算平均距离,记作b(i)，用于量化簇之间分离度。故样本点i的轮廓系数为：

对于整个数据集，其轮廓系数的计算公式如下：

其中：n表示样本数量；由比值可知，SC值越大表示聚类效果越好，反之表示聚类效果越差。

对于一个样本集合，它的轮廓系数是所有样本轮廓系数的平均值，轮廓系数取值范围是[-1,1]，越接近0的值表示重叠的聚类程度越高，负值通常表示样本被分配到错误的集群，而分数越高则说明同类别样本间距离近，不同类别样本间距离远。

CH指标(Calinski-Harabaz，CH)由分离度与紧密度的比值得到。对于数据集D，其计算公式为：

其中，B_k为簇间协方差矩阵，W_k为簇内协方差矩阵，t_r为矩阵的迹，N为训练样本数，K为类别数，B_k、W_k计算公式如下：

B_K＝∑_qn_q(C_q-c)(C_q-c)^T

其中，n为样本点的个数，Cq为聚类q中的中心点，c_q为聚类q中的样本点，nq为聚类q中样本点个数，c为数据集D的中心i为样本点，T表示转置。

CH的值越大，说明其类内协方差越小，类间协方差越大，聚类效果越好；值越小则说明聚类效果越差，需要重新进行分析，调整相关方法。

本申请采用公开数据集MovieLens，该数据集是MovieLens网站上用户对电影评分的数据集，数据集包含671位用户对9742部电影的100000多个评分和3683个标签，适合用于基于用户协同滤波算法；并分别从轮廓系数SC、CH和均方误差MSE及平均绝对误差MAE四个评判指标对传统K-means、基于Canopy的K-means算法(CKM)、基于遗传的K-means算法(GAKM)和本文算法(CGAKM)在用户推荐上进行比较，考察算法的聚类效果、模型稳定性和推荐准确度。

本次实验将在数据集中随机选择80％作为训练数据，20％作为测试数据。为降低随机性对结果的影响，采取并行测试相关算法、取数据均值的方式绘制结果图。

随着算法中子代的不断更新，得到最优结果的可能性变大，同簇中样本元素间平均距离将变小，簇内样本越加紧密，凝聚度也将变小；簇间样本距离变远，分离度变大。由图4可以看出，CGAKM算法在SC指标方面均高于其他三种算法，表明CGAKM算法对样本分类更加精确，不同样本区别更加明显，簇间距离更远，相较于传统K-means算法有较大的提升。

随着迭代的进行，簇紧密度会慢慢变小，同时各簇中心点与数据集中心点距离即分离度逐渐变大慢慢趋于稳定，所以CH指标会有所上升而后趋于稳定。从总体上看簇内距离在不断变小，簇内相似度升高；簇间距离在不断变大，簇间相似度降低。由图5可知CGAKM在CH指标方面有稳定的提升，模型稳定性优于上述其他算法。

由实验结果表1、表2各算法MSE、MAE分布可知，CGAKM算法相较于其他三种算法的推荐准确率评价指标MSE和MAE平均值均为最小值，说明其推荐准确率最高。K-means算法中MSE和MAE均值最高，错误分类风险最大，但是对错误分类中样本点较为集中，标准差最低；只使用初始聚类中心的GAKM算法，聚类效果和推荐准确度都明显低于其他算法，原因在于初始聚类点的确定并不能对样本点进行有效的范围确定，无法将相似的样本点划入同一簇内，最终推荐正确的概率明显下降；只使用聚类数K的CKM算法对样本点的分类正确率只低于本申请算法，原因在于正确的聚类数能真实反映样本划分界限，将相同样本分入相同聚类中的概率更大，推荐准确率上升；而在确定聚类数和初始聚类中心的CGAKM算法下能对数据进行最佳的分类，在此基础上对真实数据的划分也更加贴合实际情况，推荐准确率最高。

表1各算法MSE分布

表2各算法MAE分布

综上所述，本申请算法在聚类中SC指标和CH指标相较于其他算法都有稳定提升；同时应用在推荐算法中，使用真实数据进行测试得到的MAE、MSE也优于其他算法。因此，本申请算法拥有较好的聚类效果、模型稳定性和推荐准确度。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于用户数据分布的K-means方法，其特征在于，包括：

2.根据权利要求1所述的基于用户数据分布的K-means方法，其特征在于，所述采用基于数据分布的canopy算法对样本数据进行粗分类，得到聚类数K，具体包括：

S11：取样本集D中所有样本点的平均值作为中心点canopy；

S13：根据所述样本点的分布设定概率值P1和P2；

3.根据权利要求1所述的基于用户数据分布的K-means方法，其特征在于，所述计算所述中心点canopy至所述样本集D中各样本点之间的距离dist，样本点i被归为于聚类canopy的概率prob，以及所述样本集D的所述中心点canopy的密集度dens，具体为：

样本点i被归为聚类canopy的概率prob为：

所述样本集D的所述中心点canopy的密集度dens为：

4.根据权利要求3所述的基于用户数据分布的K-means方法，其特征在于，所述根据所述样本点的分布设定概率值P1和P2，具体为：

5.根据权利要求4所述的基于用户数据分布的K-means方法，其特征在于，所述根据预置规则将所述密集度与所述概率值P1和P2进行比较，得到聚类canopy半径T2和非聚类半径T1，具体为：

将样本点的prob从大到小进行排序；

6.根据权利要求1所述的基于用户数据分布的K-means方法，其特征在于，所述采用改进的遗传算法求取所述样本数据中适应度最高的前K个样本点作为初始聚类中心，具体为：

对所有个体进行浮点数编码，并随机产生种群；

S21：计算每个个体的适应度；

S24：将适应度最高的前K个个体作为初始聚类中心。