CN109492022A

CN109492022A - 基于语义的改进的k-means算法的搜索方法

Info

Publication number: CN109492022A
Application number: CN201811091473.1A
Authority: CN
Inventors: 暴建民; 刘喆
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2018-09-18
Filing date: 2018-09-18
Publication date: 2019-03-19

Abstract

本发明提供一种基于语义的改进的k‑means算法的搜索方法，对数据集进行预处理，得到初始聚类数量k、聚类数据集D，与初始聚类中心集合C：C1、C2、C3…、Cs作为输入；将数据集中的样本分配到输入入参最近的簇中；计算聚类的每个类的质心点，并判断聚类中心点的改变量是否满足设定的条件，若满足则将其加入特征集中，同时，将其中数据集中删除；若数据集样本不为空，则遍历中心点个数，数据集为空时，结束并获得聚类信息；通过使用UCI数据库提供的6个常用数据集，进行仿真实验，结果显示该种基于语义的改进的k‑means算法的搜索方法，与现有技术相比，在数据迭代时间有所减少，聚类精度方面有所提高改善。

Description

基于语义的改进的k-means算法的搜索方法

技术领域

本发明涉及一种基于语义的改进的k-means算法的搜索方法，属于数据挖掘中的聚类搜索领域。

背景技术

现在由于越来越多的数量庞大的文件和内容存储在网络上，搜索相关内容的问题随之增加。获取相应内容和检索相应信息的能力依然成为一个大问题。检索系统缺乏效率的检索方法仍然是检索的主要问题。主要原因在于网络中的内容能被人类所理解，但被机器处理则会遇到处理信息不准备，效率不高等问题。

传统的检索系统是基于关键字的搜索，在涉及用户需求和内容意义方面的检索能力有限，无法描述搜索词之间的关系。潜在语义索引对于自动生成的文档，利用统计关系来确定语义相关内容。使用潜在语义索引，查询与结果之间的匹配程度，在统计学方法上的排名比较高。

k-means算法是聚类分析最常用的方法之一，最早由MacQueen提出，该算法的精妙之处在于简单、效率高且宜于处理大规模的数据，已经被应用到众多领域，包括：自然语言处理、天文、海洋、土壤等。以下说明传统的k-means及k-means++聚类算法的缺陷。

k-means算法是一个在数据挖掘领域有很大影响力的聚类算法，对于许多领域，比如学校，不同学生群体每日的消费，转账，课程安排等，存在大量数据信息，可以利用k-means算法对大量数据进行处理，便于学校对学生的各个方面进行良好管理。然而传统的k-means算法对初始聚类中心的敏感性相对较高，聚类结果过度依赖于初始中心。K-means算法对初始聚类中心非常敏感，初始聚类中心不同将会使得聚类结果有很大的不同。如果数据中存在异常值，则初始聚类中心的计算会受到影响，导致聚类结果不准确。

在样本数据聚类的过程中，不仅需要计算每个聚类对象与它们中心对象的距离，还需要重新计算中心对象发生变化的聚类的均值，且计算是在一次次迭代中重复完成，当数据样本较多时，过大的计算量会严重影响算法的性能。其次，由于k-means聚类是个动态变化的过程，聚类的过程中将产生一些冗余信息，会对聚类产生一些不必要的干扰。

而k-means++算法是在初始聚类中心的选择上面进行了改进，k-means++算法通过计算每个样本与目前已有聚类中心的最短聚类来选择初始聚类中心，虽然提高了聚类精度，但是效果仍然不好。

自K-means算法提出以来，大量有关K-means算法的研究如雨后春笋般涌现，算法的弊端纷纷暴露出来，主要包括以下4点：第一，必须事先确定K值；第二，聚类结果会受到初始聚类中心影响；第三，处理分类属性数据较为困难且易产生局部最优解；第四，当数据量过大时，不仅使算法的时间开销非常大，且由聚类的动态变化导致的冗余信息也将对算法产生影响。

针对以上K-means算法的不足，国内外学者提出众多的解决方法：有的提出基于密度的改进K均值算法，该算法针对由初始中心点的随机产生导致的聚类结果的不稳定提出了改进算法；有的提出基于密度和最邻近的K-means文本聚类算法；有的提出聚类模式下一种优化的K-means文本特征选择算法，该算法针对K-means算法对类中心点初始值机孤立点过于敏感的问题提出的一种改进算法；有的提出基于信息熵的精确属性赋权K-means聚类算法；还有提出一种基于余弦值和K-means的植物叶片识别方法。但是上述算法的搜索效率均存在着相对不理想的问题。

发明内容

本发明的目的是提供一种基于语义的改进的k-means算法的搜索方法，对大量数据采用改进的k-means算法，在初始聚类中心点的选取，聚类过程中的信息动态变化方面进行改进，提高搜索效率，解决现有技术中存在的传统的k-means算法对初始聚类中心的敏感性相对较高，聚类结果过度依赖于初始中心，容易导致聚类结果不准确，搜索效率相对不理想的问题。

本发明的技术解决方案是：

一种基于语义的改进的k-means算法的搜索方法，包括以下步骤，

S1、对数据集进行预处理，得到初始聚类数量k、聚类数据集D，其中聚类数据集D＝{d₁,d₂,...,d_i,...,d_n}，其中聚类数据集数量为n，与初始聚类中心集合C＝{C₁,C₂,...,C_i,...,C_s}，其中初始聚类中心数量为s，作为输入；

S2、将数据集中的样本根据公式(1)计算需要聚类的数据集D与预处理后的初始聚类中心的欧几里何距离，其中d_i是数据集样本，C_i是由预处理得到的初始聚类中心，根据计算结果，将数据样本分配到由预处理得到的作为入参的初始聚类中心最近的簇中；其中公式(1)为：

其中d_id、C_id分别为二维坐标下数据集样本d_i与初始聚类中心C_i的坐标，n为聚类数据集的数量；

S3、根据公式(2)：其中|Ci|是初始聚类中心Ci中数据对象的个数，计算聚类的每个类的质心点，同时设定初始聚类中心点的改变量α₁＝0，并根据公式(3)判断聚类质心点的改变量x(Ci)是否满足小于初始设定的条件α₁，若满足则将其加入特征集中，同时，将其中数据集中删除；其中公式(3)为：

其中，r为算法的迭代次数，C_r，i代表第r次的算法迭代的第i个初始聚类中心；α_r代表第r次算法迭代时的聚类中心点的改变量，d_i与C_i分别指代聚类数据集D中的第i个元素与初始聚类中心集合C中的第i个初始聚类中心；

S4、设n为聚类数据空间中所有的数据点的个数，k为输入的初始聚类数量，若数据集样本不为空，遍历中心点个数n，若n小于k，则进入步骤S2，直到n等于k时，进入步骤S5；数据集为空时，进入步骤S6；

S5、更新中心点，计算每个聚类中心点的改变量大于设定值的簇的质心，并将其作为新的聚类中心，并回到步骤S2；

S6、结束，得到最终聚类结果簇。

进一步地，步骤S1中，对数据集进行预处理，具体为，

S11、对于给定需要聚类的数据集，根据公式(4)计算所有样本的密度，选择样本最大密度C₁作为第一个聚类中心，并将C₁加入聚类中心集合C中，有C＝{C₁}；其中公式(4)具体为，聚类数据集D中的样本元素i的密度定义为：

其中，n为聚类数据集D中的样本个数，dij为聚类数据集样本D中第i个元素与第j个聚类中心的欧几里何距离，其中f(x)的定义如下公式表示；

其中，若dij–MeansDis(D)小于0，f(x)赋值为1，若dij–MeansDis(D)大于等于0，f(x)赋值为0；

其中，MeanDis(D)为聚类数据集D中的所有样本元素的平均距离：

其中，n为聚类数据集D中的样本个数，d_i、d_j为别为聚类数据集D中第i个元素与第j个元素；

S12、根据步骤S11中公式(4)得到所有样本元素的样本密度ρ(i)，根据公式(5)：得到聚类簇的样本密度a(i)；

通过公式(6)：

得到簇间的紧密性s(i)；

S13、若计算得到的样本的ρ(i)小于s(i)，则认为其值为异常值，并从数据集D中移除；

S14、计算剩余数据集样本中的ρ(i)、a(i)和s(i)，同时，根据公式(8)：

与步骤S11计算的样本最大密度比较，判断是否为最大权重值即是否大于其样本最大密度，若是，则进入步骤S15；若不是最大权重值，则进入步骤S12；

S15、获取下一个聚类中心，将上面步骤中所有满足规定条件，即计算的样本数据的最大权重值大于其最大密度，将其样本数据从数据集中删除；

S16、重复上述步骤S12-S15直到数据集为空，完成数据集的预处理，得到聚类数量k，作为初始聚类数量，与初始聚类中心：C₁、C₂、C₃…、C_s，作为改进k-means算法的输入。

本发明的有益效果是：该种基于语义的改进的k-means算法的搜索方法，采用以上技术方案与现有技术相比：

一、对k-means聚类的数据集进行预处理，先根据数据之间的关系，构建之间的语义关系，并使用无监督的预聚类算法，冠层算法。对数据集进行预处理，去除数据集中一定的噪音点。

二、针对k-means聚类算法的缺陷，提出两点优化原则，分别为减少聚类过程中的迭代次数与减少聚类过程中的数据量，能够有效提高搜索精度与搜索效率。

附图说明

图1是本发明实施例基于语义的改进的k-means算法的搜索方法的流程示意图。

图2是本发明数据预处理的最大权重法示意图。

图3是本发明数据预处理的最佳聚类中心的最大权重法示意图

图4是本发明数据预处理的算法流程图。

图5是本发明数据预处理的有效去除噪音点仿真图。其中图5.1为去除噪音点前，图5.2为去除噪音点后。

图6是本发明使用传统k-means与改进的k-means算法在相同数据集下的聚类精度图。

图7是本发明使用传统k-means与改进的k-means算法在相同数据集下的聚类时间图。

具体实施方式

下面结合附图详细说明本发明的优选实施例。

实施例

实施例的基于语义的改进的k-means算法的搜索方法，首先进行数据聚类前的数据预处理。冠层算法(The canopy algorithm)是一种无监督的预聚类算法，用作k-均值聚类算法预处理。冠层算法设置两个距离阈值t₁和t₂，随机选取初始聚类中心，计算样本与初始中心之间的欧几里得距离。根据阈值将样本分类为相应的聚类。最后，将聚类数据集划分为N个聚类。将聚类算法的聚类数和聚类中心作为k-均值算法的输入参数，完成数据集聚类。

假设A＝{a_i|a_i∈R^m，i＝1，2，...，n}为给定的数据集，Ti(i＝1，2，3…，k)代表k个类别，c(T₁)，c(T₂)，…，c(T_k)分别是K个聚类中心。有如下定义：

定义1：设向量a_i＝(a_i1，a_i2，…，a_im)和向量a_j＝(a_j1，a_j2，…，a_jm)分别代表两个数据对象，那么它们之间的欧式距离定义为：

定义2：选择评价聚类性能的准则函数：

k-means聚类算法使用误差平方和准则函数来评价聚类性能。给定数据集X，其中只包含描述属性，不包含类别属性。假设X包含K个聚类子集X₁，X₂，…，X_K；各个聚类子集中的样本数量分别为n₁，n₂，…，n_k；各个聚类子集的均值代表点(也称聚类中心)分别为m₁，m₂，…，m_k，则误差平方和准则函数公式为：

定义3：数据集D中的所有样本元素的平均距离定义为：

定义4：数据集D中的样本元素i的密度定义为：

定义5：根据定义4，ρ(i)是满足从其他样本到I点的距离小于MeanDis(d)的条件的样本数。满足条件的样本形成聚类，聚类中样本之间的平均距离定义为：

定义6：聚类距离s(i)表示样本元素i和另一个具有较高局部密度的样本元素j之间的距离。将样本i的局部密度最大值定义为max{d(I，j)}，如存在的ρ(i)>ρ(j)，s(i)定义为如下：

定义7：数据集D被划分成k个簇。其中簇C j(j≤k)的中心是c j，聚类结果的平方误差之和E是每个簇样本与其簇中心之间的平方距离之和。定义如下：

定义8：将ρ(i)、a(i)和s(i)的乘积定义为产物重量：

传统预处理算法中，阈值是随机选择的，阈值的选择会对最终的聚类结果有很大的影响，因此实施例提出的通过计算最大权重法，减少随机性引起的不稳定性，提高聚类精度。使用最大权重法进行数据预处理的示意图分别在附录的图2与图3展示。

首先，先根据公式(4)计算样本密度，将计算的密度的最大值设置为第一个聚类中心。并添加满足根据公式(3)计算出与初始聚类中心之间的距离小于平均距离MeanDis(D)的样本到当前集群中。随后，从数据集中删除这些样本。根据定义(8)计算剩余样本的产物重量，并计算其最大值，并根据最大值选择相应的样本作为第二个聚类中心。

最后，重复上述的步骤，直到数据集D为空。

实施例进行实验预处理的算法步骤为：

通过公式(6)：

得到簇间的紧密性s(i)；

其中最大权重法为本发明提出的基于传统预处理算法的改进点，在传统预处理算法中，阈值是随机选择的，阈值的选择会对最终的聚类结果有很大的影响，本发明通过计算最大权重法，减少随机性引起的不稳定性，提高聚类精度。使用最大权重法进行数据预处理的示意图分别在附录的图2与图3展示。

实施例的一种基于语义的改进的k-means算法的搜索方法，包括以下步骤，

S6、结束，得到最终聚类结果簇。

实施例的改进的K-means算法中，当样本的网格密度小于通过计算最大权重法获得的阈值时，该样本将被去除。去除异常值后，可以产生初始聚类中心。在传统算法中，初始聚类中心是随机产生的，实施例使用一种新方法来生成初始聚类中心。在该方法中，每个维度的数据被分成K个分段，每个分段的平均值作为该维度中对应的初始聚类中心的坐标值。为了检测异常值，将计算每个点的密度，当一个点的密度值达到获得的阈值时，将判断此点为异常值。在大多数情况下，点的密度代表圆周范围内的点数。计算一个点的密度，必须计算这个点与所有其他点的距离来获得一个点的密度，计算所有其他点到这个点的距离的时间复杂度是O(n²)。实施例中，根据网格密度来检测异常值，从而减少时间复杂度，优化算法性能。对维度中的所有点进行排序，并计算出一定范围内点的数量。实施例在初始聚类中心的计算上，当点的密度小于设定阈值后，会将其作为异常值移除。

实施例中通过定义密度，数据集中的样本，簇中样本之间的平均距离以及簇之间的距离值，获得K和聚类的初始聚类中心，根据提出的最大权重乘积法，将它们作为K-means算法的输入参数，有效去除了异常值，对初始数据集样本进行了预处理，进一步提高聚类的准确性

为了分析实施例改进的k-means数据预处理以及其聚类算法的聚类性能，进行的模拟数据集使用由UCI机器学习数据库提供的5种不同的公用数据集合。UCI数据库由加州大学欧文分校提出的是一个专门用于数据挖掘算法和测试机器学习的数据库。库中的数据均有确定的属性类别，可以用准确率和时间效率来衡量聚类性能的优劣。为验证传统k-means算法和改进的k-means聚类算法的准确率和时间效率，这里不对任何测试数据集的数据分布做任何人为处理。

分别选取UCI数据集提供的IRIS、Glass Identification、ILPD、Pima IndiansDiabetes、Car Evaluation、Seeds七组经典的数据集进行实验，每个数据集进行100次实验，分别记录每个数据集实验的平均聚类准确度和聚类时间，并于传统的k-means算法和文献的算法进行比较，实验环境是Windows10操作系统，处理器为Intel(R)Core(TM)i7-8550U，8GB内存，使用Python进行结果仿真。其实验结果如附图6、附图7所示。

数据预处理部分，先对数据进行预处理，并确定下一步算法的初始聚类中心C＝{c1，c2，c3…cj}与聚类数目k，根据实施例提出的算法，检测出聚类异常值与噪音点，并将其排除，这里对IRIS数据集进行仿真图演示，因为其数据集中的数据是二维数据，方便展示。根据附图5，(a)为预处理前有噪音点、异常值的数据，(b)为去除异常值之后的数据。可以明显看到4个异常值被去除。

根据其实验结果图，图6显示实施例算法在聚类精度上比传统k-means算法有所提高，6个数据集中全部提高了10％的精度，其中对Glass Identification数据集进行聚类的精度较为乐观，其聚类精度提高了30％左右。

图7显示本发明在聚类时间上也同样比传统的k-means算法有所提高，其中数据集2，数据集3分别降低了6秒+与10秒，提高相对明显，其他数据集聚类时间均降低2秒以上。

Claims

1.一种基于语义的改进的k-means算法的搜索方法，其特征在于：包括以下步骤，

S6、结束，得到最终聚类结果簇。

2.如权利要求1所述的基于语义的改进的k-means算法的搜索方法，其特征在于：步骤S1中，对数据集进行预处理，具体为，

通过公式(6)：

得到簇间的紧密性s(i)；