CN110109975A

CN110109975A - 数据聚类方法及装置

Info

Publication number: CN110109975A
Application number: CN201910400318.1A
Authority: CN
Inventors: 杨开平
Original assignee: Chongqing Unisinsight Technology Co Ltd
Current assignee: Chongqing Unisinsight Technology Co Ltd
Priority date: 2019-05-14
Filing date: 2019-05-14
Publication date: 2019-08-09

Abstract

本申请提供一种数据聚类方法及装置，涉及数据挖掘领域。该方法包括：根据待聚类数据集以及预设算法计算并获取预设个数个聚类中心点；根据各聚类中心点对待聚类数据集进行聚类，获取聚类结果；若聚类结果满足预设终止条件，则停止聚类并输出聚类中心点集和聚类结果中各聚类的类别标签，其中，聚类中心点集内包括所有聚类中心点。相对于现有技术，解决了聚类的类别个数存在人为主观判断，并且初始聚类的聚类中心点的选择存在着随机确定的问题。

Description

数据聚类方法及装置

技术领域

本申请涉及数据挖掘领域，具体而言，涉及一种数据聚类方法及装置。

背景技术

在互联网的日新月异的今天，随处都是各种各样的数据。数据背后存在许多信息可以分析和挖掘。数据挖掘在当今已经成为必不可少的技术。它是指从大量的数据中通过各种数据挖掘算法，分析出隐藏于其中的信息的过程。

聚类分析是基于数据间的距离进行类别划分的一种聚类方法，是数据挖掘领域的一个重要分支，是一种无监督的学习方法。聚类分析现在已经广泛应用到了机器学习、模式识别、数据挖掘、图像处理等领域。由于基于划分的kmeans聚类算法具有简单、高效等特点，从而广泛地受到人们的喜爱。

但是现有技术中的kmeans聚类的类别个数的确定存在着人为的主观判断，并且初始聚类的类别中心点在选择的过程中存在着随机确定的问题。这使得kmeans聚类带有严重的不确定性和随机性。

发明内容

本申请的目的在于，针对上述现有技术中的不足，提供一种数据聚类方法及装置，以解决现有技术中聚类的类别个数存在人为的主观判断，并且初始聚类的类别中心点在选择的过程中存在着随机确定的问题。

为实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请一实施例提供了一种数据聚类方法，包括：

根据待聚类数据集以及预设算法计算并获取预设个数个聚类中心点；

根据各所述聚类中心点对所述待聚类数据集进行聚类，获取聚类结果；

若所述聚类结果满足预设终止条件，则停止聚类并输出所述聚类中心点集和所述聚类结果中各聚类的类别标签，其中，所述聚类中心点集内包括所有所述聚类中心点。

进一步地，所述根据待聚类数据集以及预设算法计算并获取预设个数个聚类中心点之前，还包括：

获取原始待聚类数据；

采用投影法将所述原始待聚类数据均投影至同一预设区间内，获取归一化的所述待聚类数据集。

进一步地，所述根据待聚类数据集以及预设算法计算并获取预设个数个聚类中心点，包括：

采用最大间距法对所述待聚类数据集进行处理，获取预设个数个所述聚类中心点作为初始聚类中心点，其中，所述最大间距法用于计算数据之间的相似度距离是否满足预设要求。

进一步地，所述根据各所述聚类中心点对所述待聚类数据集进行聚类，获取聚类结果之后，还包括：

若所述聚类结果未满足预设终止条件，则根据预设算法在所述待聚类数据集中获取目标聚类中心点，其中，所述目标聚类中心点为与每个所述聚类中心点的距离均最远的数据点；

将所述目标聚类中心点加入所述聚类中心点集内，获取新的聚类中心点集；

根据所述新的聚类中心点集内的各所述聚类中心点对所述待聚类数据集进行聚类。

进一步地，所述若所述聚类结果满足预设终止条件，则停止聚类并输出所述聚类中心点集和所述聚类结果中各聚类的类别标签，包括：

根据所述聚类结果、预设停止条件函数计算获取停止参数F^(k)，在所述停止参数F^(k)为负值时停止聚类，其中：所述聚类结果包括：所述聚类中心点集、类别标签和聚类后的类别个数c；

所述停止参数F^(k)根据公式计算，其中，h为预设参数值，为第k次聚类的平均类内距离，c为类别个数，所述类别个数与聚类中心点个数相同，n_j为类k_j内的数据个数，N为待聚类数据的个数，为第j类聚类的类内距离，d_i ^(j)为所述第j类聚类内的一点i到该聚类的聚类中心点的距离。

第二方面，本申请另一实施例提供了一种数据聚类装置，包括：计算模块、第一获取模块和输出模块，其中：

所述计算模块，用于根据待聚类数据集以及预设算法计算并获取预设个数个聚类中心点；

所述第一获取模块，用于根据各所述聚类中心点对所述待聚类数据集进行聚类，获取聚类结果；

所述输出模块，用于若所述聚类结果满足预设终止条件，则停止聚类并输出所述聚类中心点集和所述聚类结果中各聚类的类别标签，其中，所述聚类中心点集内包括所有所述聚类中心点。

进一步地，所述装置还包括：第二获取模块和投影模块，其中：

所述第二获取模块，用于获取原始待聚类数据；

所述投影模块，用于采用投影法将所述原始待聚类数据均投影至同一预设区间内，获取归一化的所述待聚类数据集。

进一步地，所述第一获取模块，具体用于采用最大间距法对所述待聚类数据集进行处理，获取预设个数个所述聚类中心点，其中，所述最大间距法用于计算数据之间的相似度距离是否满足预设要求。

进一步地，所述第一获取模块，还用于若所述聚类结果未满足预设终止条件，则根据预设算法在所述待聚类数据集中获取目标聚类中心点，其中，所述目标聚类中心点为与每个所述聚类中心点的距离均最远的数据点；

进一步地，所述输出模块，具体用于根据所述聚类结果、预设停止条件函数计算获取停止参数F^(k)，在所述停止参数F^(k)为负值时停止聚类，其中：所述聚类结果包括：所述聚类中心点集、类别标签和聚类后的类别个数c；

本申请的有益效果是：通过预设算法的计算结果，获取初始聚类的类别中心点位置，聚类的类别个数的确定根据终止条件来判断，解决了现有技术中聚类的类别个数存在着人为的主观判断，并且初始聚类的类别中心点在选择的过程中存在着随机确定的问题。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请一实施例提供的数据聚类方法的流程示意图；

图2为本申请另一实施例提供的数据聚类方法的流程示意图；

图3为本申请另一实施例提供的数据聚类方法的流程示意图；

图4为本申请一实施例提供的数据聚类装置的结构示意图；

图5为本申请另一实施例提供的数据聚类装置的结构示意图；

图6为本申请另一实施例提供的数据聚类装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。

首先，在对本申请进行介绍之前，先对本申请中所使用到的名字进行相应的解释，具体解释如下。

Kmeans算法：基于划分的聚类算法中的一个典型算法,该算法有操作简单、采用误差平方和准则函数、对大数据集的处理上有较高的伸缩性和可压缩性的优点。

聚类分析：是指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域，包括数学，计算机科学，统计学，生物学和经济学。在不同的应用领域，很多聚类技术都得到了发展，这些技术方法被用作描述数据，衡量不同数据源间的相似性，以及把数据源分类到不同的簇中。

图1为本申请一实施例提供的一种数据聚类方法的流程示意图，如图1所示，该方法包括：

S101：根据待聚类数据集以及预设算法计算并获取预设个数个聚类中心点。

需要说明的是，根据预设算法计算并获取预设个数个聚类中心点，可以解决传统技术中聚类中心点随机选择，导致聚类结果的随机性的问题，从而提高算法的稳定性和收敛速度。其中，需要说明的是，初始预设聚类中心点个数可以为预设值，例如2个、3个或4个等，具体初始预设聚类中心点的个数可以根据用户需要设置，在此并不做任何限制。

S102：根据各聚类中心点对待聚类数据集进行聚类，获取聚类结果。

需要说明的是，根据各聚类中心点对待聚类数据集进Kmeans聚类，直到聚类稳定(满足预设终止条件)后获取聚类结果，其中，聚类结果包括：聚类中心点集、类别标签和聚类后的类别个数c。

S103：若聚类结果满足预设终止条件，则停止聚类并输出聚类中心点集和聚类结果中各聚类的类别标签。

其中，聚类中心点集内包括所有聚类中心点。

本实施例中，通过预设算法计算获取初始聚类的类别中心点位置，并且只有在聚类结果满足预设终止条件时，才会停止聚类并输出聚类结果，得到的聚类类别数不再是固定值，解决了现有技术中聚类的类别个数存在着人为的主观判断，并且初始聚类的类别中心点在选择的过程中存在着随机确定的问题，使得聚类结果更为准确。

图2为本申请另一实施例提供的数据聚类方法的流程示意图，如图2所示，该方法在步骤S101之前，还包括：

S201：获取原始待聚类数据。

S202：采用投影法将原始待聚类数据均投影至同一预设区间内，获取归一化的待聚类数据集。

需要说明的是，获取原始待聚类数据之后，对原始待聚类数据进行归一化处理，其中，归一化处理可以消除不同维度的数据差异对聚类结果带来的影响。

在本申请的一个优选实施例中，采用投影法将每个维度上的数据均投影至[0-1]上，但具体的投影区间可以根据需要设计，在此并不做任何限制，只需将原始待聚类数据均投影至同一预设区间内即可；投影结束后，获取归一化的待聚类数据集。

举例说明：设原始待聚类数据集D的α维度为D(α)，那么该维度的数据归一化后为：D(a)-min(D(a)))/(max(D(a))-min(D(a))。

进一步地，步骤S101可以包括：采用最大间距法对待聚类数据集进行处理，获取预设个数个聚类中心点作为初始聚类中心点，其中，最大间距法用于计算数据之间的相似度距离是否满足预设要求。可选地，本申请中的距离用于描述数据之间的相似度，可以为下述任一项距离：欧式距离、马氏距离、曼哈顿距离、余弦距离、切比雪夫距离等，可以根据用户需要确定，在此并不做任何限制。

需要说明的是，待聚类数据集中距离相对较远的数据点被分到同一个类别的概率很小。同理，距离相对较近的数据点被分到同一个类别的概率大。那么在这样的前提下，采用最大间距法计算初始聚类中心，这样选择的初始聚类中心点即为两个距离最远的点，是最佳的初始聚类中心点，这样就可以有效的克服随机选择初始聚类中心的不确定性，从而提高了算法的稳定性和收敛速度。

进一步地步骤S103之后，还包括：

若聚类结果未满足预设终止条件，则根据预设算法在待聚类数据集中获取目标聚类中心点，其中，目标聚类中心点为与每个聚类中心点的距离均为最远的数据点。将目标聚类中心点加入聚类中心点集内，获取新的聚类中心点集。根据新的聚类中心点集内的各聚类中心点对待聚类数据集进行聚类，也即循环执行上述聚类方法直至聚类结果满足预设终止条件。需要说明的是，本申请中的最大间距法采用乘法计算的原因是：这样可以使得目标聚类中心点为到每个聚类中心点的距离都相对较远的数据点，而不是只与部分聚类中心点的距离较远、与其他聚类中心点的距离较近。

举例说明：设原有的聚类中心点集A中包含有k个聚类中心点(a1，a2，...，ak)，此时若聚类结果仍未满足预设终止条件，则根据预设算法在待聚类数据集D获取目标聚类中心点xp，其中，预设算法为最大间距法。

需要说明的是，最大间距法的计算公式如下：

d(a₁，x_p)*d(a₂，x_p)*...*d(ak，x_p)≥d(a₁，x_i)*d(a₂，x_i)*...*d(a_k，x_i)，其中：xi＝x1、x2、x3…xn为待聚类数据集D中的所有数据点，这里点x_p∈D，其中d(a_k，x_i)表示两个数据点之间的距离。

这样通过最大间距法计算出来的目标聚类中心点即为距离集合A中所有点的距离均相对较远的点，将计算得到的目标聚类中心点加入聚类中心点集内，并获取新的聚类中心点集，这样聚类的类别个数就增加了一类，即动态调整了聚类的类别个数，相对于现有技术中，聚类的类别个数需要人为提前设定，导致聚类效果并不一定精准，本申请中的聚类个数可以根据计算灵活增添，实现了动态调整聚类的类别个数的问题，聚类效果相对精确。

目标聚类中心点加入聚类中心点集后，再次以聚类中心点集进行聚类，并判断此时的聚类结果是否满足预设终止条件，如果满足预设终止条件，则输出聚类结果；如果此时的聚类结果仍未满足预设终止条件，则重复上述步骤，并再次获取新的目标聚类中心点，将新的目标中心点加入聚类中心点集中进行聚类，直至聚类结果满足预设终止条件。

进一步地，步骤S103包括：根据聚类结果、预设停止条件函数计算获取停止参数F^(k)，在停止参数F^(k)为负值时停止聚类，其中：聚类结果包括：聚类中心点集、类别标签和聚类后的类别个数c。

停止参数F^(k)根据公式计算，其中，h为预设参数值,为第k次聚类的平均类内距离，c为类别个数，类别个数与聚类中心点个数相同，n_j为类k_j内的数据个数，N为待聚类数据的个数。其中，为第j类聚类的类内距离，d_i ^(j)为所述第j类聚类内的一点i到该聚类的聚类中心点的距离。

需要说明的是，根据停止参数的计算公式可知，当类内距离变化低于的最初聚类时的类内平均距离变化的1/h时，即满足预设终止条件，聚类停止。其中，h为先验经验值，在本申请的一个优选实施例中，将h的值设置为4时，可以达到比较好的聚类效果，但是h的值也可以为3-5中的任一个数值，h值的设置具体根据用户需要设计，在此并不做任何限制。

可选地，预设终止条件也可以不限于上述方法，也可以通过计算平均类内距离或是平均类间距离，来有效地计算预设停止条件函数。

图3为本申请另一实施例提供的数据聚类方法的流程示意图，如图3所示，数据聚类方法的具体流程为：

301：获取原始待聚集数据：

获取原始待聚集数据，并对原始待聚类数据进行归一化预处理，得到待聚类数据集；

302：对原始待聚集数据进行预处理，获取处理后的待聚类数据集：

以最大间距法计算得到两个数据点作为初始聚类中心点，这两个初始聚类中心点组成聚类中心点集；以各初始聚类中心点对待聚类数据集进行聚类，直至聚类稳定，并获取聚类结果；

303：以最大间距法计算两个数据点作为初始聚类中心点，并以各初始聚类中心点进行聚类，直至聚类稳定。

304：以最大间距法计算目标聚类中心点，并将目标聚类中心点加入至聚类中心点集内，以新的聚类中心点集进行聚类，直至聚类稳定：

待聚类数据集中距离聚类中心点集中所有聚类中心点的距离均最远的一点，以该点作为目标聚类中心点，并将目标聚类中心点加入至聚类中心点集内，以新的聚类中心点集进行聚类，直到聚类稳定，并获取聚类结果；

305：判断是否满足预设终止条件：

根据预设终止条件，判断聚类是否可以终止，如果未满足预设终止条件，则继续计算并获取新的目标聚类中心点，并将新的目标聚类中心点加入至聚类中心点集内，以新的聚类中心点集进行聚类，直到聚类稳定，并获取聚类结果；再次判断聚类结果是否满足预设终止条件，直至聚类结果满足预设终止条件。

306：输出聚类中心点集、类别标签以及类别个数。

本实施例中，通过预设算法计算获取初始聚类的类别中心点位置，并且只有在聚类结果满足预设终止条件时，才会停止聚类并输出聚类结果，解决了现有技术中聚类的类别个数存在着人为的主观判断，并且初始聚类的类别中心点在选择的过程中存在着随机确定的问题。

图4为本申请另一实施例提供的数据聚类装置，如图4所示，该装置包括：计算模块401、第一获取模块402和输出模块403，其中：

计算模块401，用于根据待聚类数据集以及预设算法计算并获取预设个数个聚类中心点。

第一获取模块402，用于根据各聚类中心点对待聚类数据集进行聚类，获取聚类结果。

输出模块403，用于若聚类结果满足预设终止条件，则停止聚类并输出聚类中心点集和聚类结果中各聚类的类别标签，其中，聚类中心点集内包括所有聚类中心点。

图5为本申请另一实施例提供的数据聚类装置的结构示意图，如图5所示，该装置还包括：第二获取模块404和投影模块405，其中：

第二获取模块404，用于获取原始待聚类数据。

投影模块405，用于采用投影法将原始待聚类数据均投影至同一预设区间内，获取归一化的待聚类数据集。

进一步地，第一获取模块402具体用于采用最大间距法对待聚类数据集进行处理，获取预设个数个聚类中心点作为初始聚类中心点，其中，最大间距法用于计算数据之间的相似度距离是否满足预设要求。

进一步地，第一获取模块402，还用于若聚类结果未满足预设终止条件，则根据预设算法在待聚类数据集中获取目标聚类中心点，其中，目标聚类中心点为与每个聚类中心点的距离均最远的数据点；将目标聚类中心点加入聚类中心点集内，获取新的聚类中心点集；根据新的聚类中心点集内的各聚类中心点对待聚类数据集进行聚类。

进一步地，输出模块403，具体用于根据聚类结果、预设停止条件函数计算获取停止参数F^(k)，在停止参数F^(k)为负值时停止聚类，其中：聚类结果包括：聚类中心点集、类别标签和聚类后的类别个数c；

停止参数F^(k)根据公式计算，其中，h为预设参数值，为第k次聚类的平均类内距离，c为类别个数，类别个数与聚类中心点个数相同，n_j为聚类k_j内的数据个数，N为待聚类数据的个数，为第j类聚类的类内距离，d_i ^(j)为所述第j类聚类内的一点i到该聚类的聚类中心点的距离。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital singnal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

图5为本申请另一实施例提供的数据聚类装置的示意图，该装置可以集成于终端设备或者终端设备的芯片。

该装置包括：存储器501、处理器502。

存储器501用于存储程序，处理器502调用存储器501存储的程序，以执行上述方法实施例。具体实现方式和技术效果类似，这里不再赘述。

可选地，本申请还提供一种程序产品，例如计算机可读存储介质，包括程序，该程序在被处理器执行时用于执行上述方法实施例。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种数据聚类方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述根据待聚类数据集以及预设算法计算并获取预设个数个聚类中心点之前，还包括：

获取原始待聚类数据；

3.如权利要求1所述的方法，其特征在于，所述根据待聚类数据集以及预设算法计算并获取预设个数个聚类中心点，包括：

4.如权利要求3所述的方法，其特征在于，所述根据各所述聚类中心点对所述待聚类数据集进行聚类，获取聚类结果之后，还包括：

5.如权利要求1-4任一项所述的方法，其特征在于，所述若所述聚类结果满足预设终止条件，则停止聚类并输出所述聚类中心点集和所述聚类结果中各聚类的类别标签，包括：

根据所述聚类结果、预设停止条件函数计算获取停止参数F^(k)，在所述停止参数F^(k)为负值时停止聚类，其中：所述聚类结果包括：所述聚类中心点集、类别标签；

所述停止参数F^(k)根据公式计算，其中，h为预设参数值，为第k次聚类的平均类内距离，c为类别个数，所述类别个数与聚类中心点个数相同，n_j为类k_j内的数据个数，N为待聚类数据的总个数，为第j类聚类的类内距离，d_i ^(j)为所述第j类聚类内的一点i到该聚类的聚类中心点的距离。

6.一种数据聚类装置，其特征在于，包括：计算模块、第一获取模块和输出模块，其中：

7.如权利要求6所述的装置，其特征在于，所述装置还包括：第二获取模块和投影模块，其中，

所述第二获取模块，用于获取原始待聚类数据；

8.如权利要求6所述的装置，其特征在于，所述第一获取模块，具体用于采用最大间距法对所述待聚类数据集进行处理，获取预设个数个所述聚类中心点作为初始聚类中心点，其中，所述最大间距法用于计算数据之间的相似度距离是否满足预设要求。

9.如权利要求8所述的装置，其特征在于，所述第一获取模块，还用于若所述聚类结果未满足预设终止条件，则根据预设算法在所述待聚类数据集中获取目标聚类中心点，其中，所述目标聚类中心点为与每个所述聚类中心点的距离均最远的数据点；

10.如权利要求6-9任一项所述的装置，其特征在于，所述输出模块，具体用于根据所述聚类结果、预设停止条件函数计算获取停止参数F^(k)，在所述停止参数F^(k)为负值时停止聚类，其中：所述聚类结果包括：所述聚类中心点集、类别标签和聚类后的类别个数c；