CN112348055A

CN112348055A - 一种聚类评估度量方法、系统、装置和存储介质

Info

Publication number: CN112348055A
Application number: CN202011107621.1A
Authority: CN
Inventors: 赵妮; 蔡金成
Original assignee: Shenzhen Institute of Information Technology
Current assignee: Shenzhen Institute of Information Technology
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2021-02-09

Abstract

本发明公开了一种聚类评估度量方法、系统、装置和存储介质，该方法包括：获取待聚类的数据集，采用预设的函数处理数据集，以生成同维度数量级相同的样本集；结合预设的聚类算法和设定的簇数，将样本集生成多个簇，以及获取簇间分散度值与簇内紧密度值；根据对数函数构造惩罚项，结合簇间分散度值、簇内紧密度值和惩罚项，输出第一聚类结果；通过预设的函数处理集待聚类的数据集生成样本集，根据预设的聚类算法与设定的簇数将样本集生成多个簇并输出簇间分散度值和簇内紧密度值，最后结合簇间分散度值、簇内紧密度值和惩罚项，输出第一聚类结果，进而降低了样本各维度量纲以及离群点对聚类结果的影响，实现了聚类效果有效性的提高。

Description

一种聚类评估度量方法、系统、装置和存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种聚类评估度量方法、系统、装置和存储介质。

背景技术

随着社会的发展和智能时代的到来，聚类技术作为无监督模式识别学习过程的重要部分，在机器学习、模式识别和数据挖掘等重要领域有着广泛的应用。聚类的目的是使原来分散的、看似毫无联系的多个数据样本分成相似的群或簇，来获得某种内的数据规律。聚类的一个关键任务是量化地评价聚类结果，尤其是确定一个最优的簇数或划分结构，聚类结果的好坏是由聚类有效性来判定的。CH(Calinski-Harabasz)指数是一种常见的用于评价聚类效果的度量方法，其定义是不同簇间分散度与簇内紧密度的比值乘以惩罚项。其中簇间分散度是指簇间平方误差和，簇内紧密度是簇内误差平方和，惩罚项是指样本量与类目数之差，得到的值再除以类目数与1的差。其他常见的聚类有效性指标度量还有XB(Xie-Beni)指标、分类适确性指标(DB:Davies-Bouldin)以及轮廓系数(SilhouetteCoefficient)等

但是，聚类有效性指标在计算数据样本的簇间分散度和样本的簇内紧密度是并没有考虑样本各个维度的量纲以及离群点的影响，而样本各维度的量纲和离群点将对聚类效果的有效性产生重要的影响。此外，对于惩罚项，当样本量较大时，对CH的值影响较大，使得簇间分散度与簇内紧密度的影响大大降低。

发明内容

为了解决上述技术问题，本发明的目的是提供一种

本发明所采用的第一技术方案是：

一种聚类评估度量方法，包括以下步骤：

获取待聚类的数据集，采用预设的函数处理数据集，以生成同维度数量级相同的样本集；

结合预设的聚类算法和设定的簇数，将样本集生成多个簇，以及获取簇间分散度值与簇内紧密度值；

根据对数函数构造惩罚项；

结合簇间分散度值、簇内紧密度值和惩罚项，输出第一聚类结果。

进一步作为优选的实施方式，所述获取待聚类的数据集，采用预设的函数处理数据集，以生成同维度数量级相同的样本集这一步骤，具体包括以下步骤：

获取待聚类的数据集；

结合数据集中任意数据在各维度的取值与全体数据集在各维度的均值，生成离差数据集；

结合离差数据集中任意离差数据在各维度的取值与对应数据集中数据在各维度的标准差，生成同维度数量级相同的样本集。

进一步作为优选的实施方式，所述结合预设的聚类算法和设定的簇数，将样本集生成多个簇，以及获取簇间分散度值与簇内紧密度值这一步骤，具体包括以下步骤：

根据预设的聚类算法和设定的簇数将样本集生成多个簇；

获取各个簇内样本点之间的距离矩阵，结合各个簇内样本点之间的距离矩阵计算各个簇的距方均；

结合各个簇的距方均，计算簇内误差平方和，即簇内紧密度值；

获取所有样本点之间的距离矩阵，结合样本点之间的距离矩阵计算所有样本点的距方均；

结合各个簇的距方均和所有样本点的距方均，计算簇间误差平方和，即簇间分散度值。

进一步作为优选的实施方式，所述根据对数函数构造惩罚项这一步骤，具体包括以下步骤：

对样本量与聚类簇数之差求对数，生成目标惩罚项的前一部分；

对聚类簇数与1求差，生成目标惩罚项的后一部分；

结合惩罚项的前一部分和后一部分求商获得惩罚项，即惩罚项前一部分除以惩罚项后一部分得到惩罚项。

进一步作为优选的实施方式，所述结合簇间分散度值、簇内紧密度值和惩罚项，输出第一聚类结果这一步骤，具体包括以下步骤：

结合簇间分散度值与簇内紧密度值比值乘以惩罚项获取第一聚类结果；

根据预设的聚类簇数输出聚类评估值，若评估值符合预设条件，则输出第一聚类结果，反之，返回执行簇数设定步骤直至聚类簇数对应的评估值符合预设条件为止，并输出第一聚类结果。

本发明所采用的第二技术方案是：

一种聚类评估度量系统，包括：

生成模块，用于获取待聚类的数据集，采用预设的函数处理数据集，以生成同维度数量级相同的样本集；

获取模块，用于结合预设的聚类算法和设定的簇数，将样本集生成多个簇，以及获取簇间分散度值与簇内紧密度值；

构造模块，用于根据对数函数构造惩罚项；

输出模块，用于结合簇间分散度值、簇内紧密度值和惩罚项，输出第一聚类结果。

进一步作为优选的实施方式，所述生成模块包括：

第一获取单元，用于获取待聚类的数据集；

第一生成单元，用于结合数据集中任意数据在各维度的取值与全体数据集在各维度的均值，生成离差数据集；

第二生成单元，用于结合离差数据集中任意离差数据在各维度的取值与对应数据集中数据在各维度的标准差，生成同维度数量级相同的样本集。

进一步作为优选的实施方式，所述获取模块包括：

第三生成单元，用于根据预设的聚类算法和设定的簇数将样本集生成多个簇；

第一确定单元，用于结合各个簇的距方均确定簇内误差平方和，即簇内紧密度值；

第三获取单元，用于获取所有样本点之间的距离矩阵，结合样本点之间的距离矩阵计算所有样本点的距方均；

第二确定单元，用于结合各个簇的距方均和所有样本点的距方均确定簇间误差平方和，即簇间分散度值。

进一步作为优选的实施方式，所述构造模块包括：

第四生成单元，用于对样本量与聚类簇数之差求对数，生成目标惩罚项的前一部分；

第五生成单元，用于对聚类簇数与1求差，生成目标惩罚项的后一部分；

第六生成单元，用于结合惩罚项的前一部分和后一部分求商获得惩罚项，即惩罚项前一部分除以惩罚项后一部分得到惩罚项。

进一步作为优选的实施方式，所述输出模块包括：

第四获取单元，用于结合簇间分散度值与簇内紧密度值比值再乘以惩罚，输出第一聚类结果；

判断单元，用于根据预设的聚类簇数输出聚类评估值，若评估值符合预设条件，则输出第一聚类结果，反之，返回执行簇数设定步骤直至聚类簇数对应的评估值符合预设条件为止，并输出第一聚类结果。

本发明所采用的第三技术方案是：

一种装置，所述存储器用于存储至少一个程序，所述处理器用于加载所述至少一个程序以执行上所述方法。

本发明所采用的第四技术方案是：

一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：通过预设的函数处理集待聚类的数据集生成同维度数量级相同的样本集，根据预设的聚类算法与设定的簇数将样本集生成多个簇并输出簇间分散度值和簇内紧密度值，最后根据簇间分散度值与簇内紧密度值的比值乘以惩罚项的情况，输出第一聚类结果，进而降低了样本各维度量纲以及离群点对聚类结果的影响，此外，惩罚项引入对数函数使得评估指数免受由于样本量过大而导致不准确的影响，实现了聚类效果有效性的提高。

附图说明

图1是本发明一种聚类评估度量方法步骤流程图；

图2是本发明一种聚类评估度量系统结构框图；

图3是未进行标准化处理的分类结果绘制的示意图；

图4是采用本发明提供的聚类评估度量方法处理后的分类结果绘制的示意图。

具体实施方式

如图1所示，为本发明实施例提供的一种聚类评估度量方法流程图，具体包括以下步骤：

S1、获取待聚类的数据集，采用预设的函数处理数据集，以生成同维度数量级相同的样本集；

S2、结合预设的聚类算法和设定的簇数，将样本集生成多个簇，以及获取簇间分散度值与簇内紧密度值；

S3、根据对数函数构造惩罚项；

S4、结合簇间分散度值、簇内紧密度值和惩罚项，输出第一聚类结果。

本实施例中，系统获取输入的待聚类的数据集，通过预设的函数对数据集进行去量纲以及离群点处理，使数据集中的数据在对应相同维度上处于同一数量级的样本并排除异常点即离群点的影响后建立样本集，采用设定的簇数结合预设的聚类算法将样本集生成多个不同的簇，之后计算输出各簇间的分散度值与簇内紧密度值，最后将根据簇间分散度值和簇内紧密度值的比值乘以惩罚项的情况，输出对应聚类簇数的第一聚类结果，从而降低了样本各维度量纲以及离群点对聚类结果的影响，降低了由于样本量过大而导致不准确的影响，提高了聚类效果有效性；量纲是指物理固有的、可度量的物理属性，通常一个物理量是由自身的物理属性(即量纲)和为度量物理属性而定的量度单位两个因素构成，每个物理量仅有一个量纲，在国际单位制中，基本物理量如长度、质量、时间、电流、热力学温度、物质的量、发光强度的量纲相应符号分别是l、m、t、i、Q、N和J；离群点即异常点是指样本集中个别样本在各个维度取值特别大，不仅会影响均值的取值而且影响聚类的准确性；本实施例中所述预设的函数包括但不限于CH指数中

函数其中

为处理后的样本取值，σ为原始样本标准差，

为原始样本均值、对数函数处理、反余切函数处理等，本实施例中优选CH指数中

函数处理，所述预设的聚类算法包括但不限于K均值聚类、分层聚类、基于密度的噪声应用空间聚类等。本实施例中在惩罚项中引入了对数函数(log函数)对原有惩罚项中的分子进行了限制，降低了由于样本量过大而导致评估值不准确的影响。对数函数(log函数)的好处是保留了数据原有的单调性，不影响惩罚项的作用，也是得评估值更加准确。本实施例不做赘述。

进一步作为优选的实施方式，所述步骤S1具体包括以下步骤：

S10、获取待聚类的数据集；

S11、结合数据集中任意数据在各维度的取值与全体数据集在各维度的均值，生成离差数据集；

S12、结合离差数据集中任意离差数据在各维度的取值与对应数据集中数据在各维度的标准差，生成同维度数量级相同的样本集。

具体地，获取待聚类数据集如{X_ij︱1≤i≤m，1≤j≤n}，其中m指样本的维度，n指样本的数量，m和n均是大于1的自然数，σ_i指样本在维度i的标准差，之后取任一数据如X_.j令

即离差数据，令Z_i.＝Y_i./σ_i.即样本，其中X_.j是第j个数据，

为数据集各数据在各维度上的均值，Y_.j是第j个离差数据，Y_i.是离差数据在维度i上的取值，Z_i.是样本在维度i上的取值，最后生成离差数据集{Y_ij︱1≤i≤m，1≤j≤n}以及各样本同纬度量纲相同的样本集{Z_ij︱1≤i≤m，1≤j≤n}。

进一步作为优选的实施方式，所述步骤S2具体包括以下步骤：

S20、根据预设的聚类算法和设定的簇数将样本集生成多个簇；

S21、获取各个簇内样本点之间的距离矩阵，结合各个簇内样本点之间的距离矩阵计算各个簇的距方均；

S22、结合各个簇的距方均确定簇内误差平方和，即簇内紧密度值；

S23、获取所有样本点之间的距离矩阵，结合样本点之间的距离矩阵计算所有样本点的距

方均；

S24、结合各个簇的距方均和所有样本点的距方均，计算簇间误差平方和，即簇间分散度值。

具体地，通过预设的聚类算法和设定的簇数k将样本集{Z_ij︱1≤i≤n，1≤j≤m}，其中n为样本数，m为样本的维度。分成k簇，其中k为大于1的自然数，之后分别计算簇内紧密度值、簇间离散度值和惩罚项。对于簇内紧密度值，首先计算各个簇内样本点与样本点之间的欧式距离,再计算各个簇内样本点间的欧式距离的平方在除以样本数，即第i个簇的距方均

接着计算全部的簇的簇内紧密度

对于簇间紧密度，首先计算所有样本点与样本点之间的欧式距离,再计算样本点间的欧式距离的平方在除以样本数，即距方均

接着计算全部的簇的簇间分散度度

对于惩罚项，样本量n与聚类簇数之差求对数，再除以聚类簇数与1之差。并且要求样本量大于聚类簇数，聚类簇数大于1，即

进一步作为优选的实施方式，所述步骤S3具体包括以下步骤：

S30、对样本量与聚类簇数之差求对数，生成目标惩罚项的前一部分；

S31、对聚类簇数与1求差，生成目标惩罚项的后一部分；

S32、结合惩罚项的前一部分和后一部分求商获得惩罚项，即惩罚项前一部分除以惩罚项后一部分得到惩罚项。

进一步作为优选的实施方式，所述步骤S4具体包括以下步骤：

S40、结合簇间分散度值与簇内紧密度值比值乘以惩罚项获取最优聚类簇数；

S41、判断给定的聚类簇数对应的评估值是否符合预设条件，若符合则输出第一聚类结果。反之，返回执行簇数设定步骤直至聚类簇数对应的评估值符合预设条件为止，并输出第一聚类结果。

本实施例中，所述预设条件指使簇间分散度值与簇内紧密度值比值乘以惩罚项取得最大值时对应的簇最佳聚类簇数，此时各簇簇间样本相对最分散，各簇簇内样本相对最紧密，聚类效果最优；具体地，将获取的簇间分散度值

和簇内紧密度值

作商即BGSS/WGSS，当BGSS/WGSS值越大说明簇内样本点越紧密，簇间样本点越分散，聚类的效果越好，反之，BGSS/WGSS值越小说明簇内样本点越分散，簇间样本点越紧密，聚类效果越差。此外，还需乘以惩罚项

同样的，当

的值取最大时，说明此时聚类效果最优，输出对应的最佳聚类簇数k′并将最佳聚类簇数k′返回给系统执行簇数设定步骤，最后输出对应最佳聚类簇数k′的第一聚类结果。

如图2所示，为本发明一种聚类评估度量系统结构框图，包括：

一种聚类评估度量系统，包括：

获取模块，用于结合预设的聚类算法和设定的簇数，将样本集生成多个簇，以及获取簇间分散度值、簇内紧密度值；

构造模块，用于根据对数函数构造惩罚项；

进一步作为优选的实施方式，所述生成模块包括：

第一获取单元，用于获取待聚类的数据集；

进一步作为优选的实施方式，所述获取模块包括：

进一步作为优选的实施方式，所述构造模块包括：

进一步作为优选的实施方式，所述输出模块包括：

一种装置，所述存储器用于存储至少一个程序，所述处理器用于加载所述至少一个程序以执行实施例一所述方法。

本实施例的一种装置，可执行本发明方法实施例一所提供的一种聚类评估度量方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行如实施例一所述方法。

本实施例的一种存储介质，可执行本发明方法实施例一所提供的一种聚类评估度量方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

具体实施例

如图3和图4分别是未进行标准化处理的分类结果示意图与采用本申请技术方案提供的聚类评估度量方法处理后的分类结果示意图。

获取待分类的wine data数据，wine data的数据类目数分别是159、271和348三类；

将wine data数据分别输入未进行标准化处理的聚类评估系统且该系统的惩罚项未优化和引入Z-Score标准化且加入优化后的惩罚项的CH算法聚类评估系统进行聚类评估，输入聚类结果如图3和图4所示。

由图3可知最优的CH值是2，与实际类目数不符；

由图4可知最优的类目数3，与实际数据集相符。

令

Z_i.＝Y_i./σ_i.样本集{X_ij︱1≤i≤n，1≤j≤m}，σ_i.是维度i的标准差，m表示样本集的维度，利用Z-Score标准化后的Calinski-Harabasz算法称为NormalizedCalinski-Harabasz(NCH)表达式如下：

其中，

其中，d都是对标准化后的样本集进行距离计算的。

由于通过引入标准化后会存在惩罚项(即

)对利用Z-score标准化后NCH的值影响较大(Calinski-Harabasz算法称为Normalized Calinski-Harabasz)，因此对惩罚项提出优化，

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种聚类评估度量方法，其特征在于，包括以下步骤：

根据对数函数构造惩罚项；

2.根据权利要求1所述的一种聚类评估度量方法，其特征在于，所述获取待聚类的数据集，采用预设的函数处理数据集，以生成同维度数量级相同的样本集这一步骤，具体包括以下步骤：

获取待聚类的数据集；

3.根据权利要求2所述的一种聚类评估度量方法，其特征在于，所述结合预设的聚类算法和设定的簇数，将样本集生成多个簇，以及获取簇间分散度值与簇内紧密度值这一步骤，具体包括以下步骤：

根据预设的聚类算法和设定的簇数将样本集生成多个簇；

结合各个簇的距方均确定簇内误差平方和，即簇内紧密度值；

结合各个簇的距方均和所有样本点的距方均确定簇间误差平方和，即簇间分散度值。

4.根据权利要求3所述的一种聚类评估度量方法，其特征在于，所述根据簇间分散度值和簇内紧密度值的比值再乘以惩罚项，获取第一聚类结果这一步骤，具体包括以下步骤：

结合簇间分散度值与簇内紧密度值比值再乘以惩罚项获取对应的聚类簇数；

5.一种聚类评估度量系统，其特征在于，包括：

构造模块，用于根据对数函数构造惩罚项；

6.根据权利要求5所述的一种聚类评估度量系统，其特征在于，所述生成模块包括：

第一获取单元，用于获取待聚类的数据集；

7.根据权利要求6所述的一种聚类评估度量系统，其特征在于，所述获取模块包括：

第二获取单元，用于获取各个簇内样本点之间的距离矩阵，结合各个簇内样本点之间的距离矩阵计算各个簇的距方均；

8.根据权利要求7所述的一种聚类评估度量系统，其特征在于，所述输出模块包括：

第四获取单元，用于结合簇间分散度值与簇内紧密度值比值再乘以惩罚项获取对应的聚类簇数；

9.一种装置，其特征在于，包括存储器和处理器，所述存储器用于存储至少一个程序，所述处理器用于加载所述至少一个程序以执行权利要求1-4任一项所述方法。

10.一种存储介质，其中存储有处理器可执行的指令，其特征在于，所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-4任一项所述方法。