CN112348055A - 一种聚类评估度量方法、系统、装置和存储介质 - Google Patents
一种聚类评估度量方法、系统、装置和存储介质 Download PDFInfo
- Publication number
- CN112348055A CN112348055A CN202011107621.1A CN202011107621A CN112348055A CN 112348055 A CN112348055 A CN 112348055A CN 202011107621 A CN202011107621 A CN 202011107621A CN 112348055 A CN112348055 A CN 112348055A
- Authority
- CN
- China
- Prior art keywords
- cluster
- value
- combining
- data set
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 41
- 238000003860 storage Methods 0.000 title claims abstract description 8
- 238000000691 measurement method Methods 0.000 title abstract description 7
- 239000006185 dispersion Substances 0.000 claims abstract description 65
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 28
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000010276 construction Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 4
- 230000000704 physical effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2193—Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种聚类评估度量方法、系统、装置和存储介质,该方法包括:获取待聚类的数据集,采用预设的函数处理数据集,以生成同维度数量级相同的样本集;结合预设的聚类算法和设定的簇数,将样本集生成多个簇,以及获取簇间分散度值与簇内紧密度值;根据对数函数构造惩罚项,结合簇间分散度值、簇内紧密度值和惩罚项,输出第一聚类结果;通过预设的函数处理集待聚类的数据集生成样本集,根据预设的聚类算法与设定的簇数将样本集生成多个簇并输出簇间分散度值和簇内紧密度值,最后结合簇间分散度值、簇内紧密度值和惩罚项,输出第一聚类结果,进而降低了样本各维度量纲以及离群点对聚类结果的影响,实现了聚类效果有效性的提高。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种聚类评估度量方法、系统、装置和存储介质。
背景技术
随着社会的发展和智能时代的到来,聚类技术作为无监督模式识别学习过程的重要部分,在机器学习、模式识别和数据挖掘等重要领域有着广泛的应用。聚类的目的是使原来分散的、看似毫无联系的多个数据样本分成相似的群或簇,来获得某种内的数据规律。聚类的一个关键任务是量化地评价聚类结果,尤其是确定一个最优的簇数或划分结构,聚类结果的好坏是由聚类有效性来判定的。CH(Calinski-Harabasz)指数是一种常见的用于评价聚类效果的度量方法,其定义是不同簇间分散度与簇内紧密度的比值乘以惩罚项。其中簇间分散度是指簇间平方误差和,簇内紧密度是簇内误差平方和,惩罚项是指样本量与类目数之差,得到的值再除以类目数与1的差。其他常见的聚类有效性指标度量还有XB(Xie-Beni)指标、分类适确性指标(DB:Davies-Bouldin)以及轮廓系数(SilhouetteCoefficient)等
但是,聚类有效性指标在计算数据样本的簇间分散度和样本的簇内紧密度是并没有考虑样本各个维度的量纲以及离群点的影响,而样本各维度的量纲和离群点将对聚类效果的有效性产生重要的影响。此外,对于惩罚项,当样本量较大时,对CH的值影响较大,使得簇间分散度与簇内紧密度的影响大大降低。
发明内容
为了解决上述技术问题,本发明的目的是提供一种
本发明所采用的第一技术方案是:
一种聚类评估度量方法,包括以下步骤:
获取待聚类的数据集,采用预设的函数处理数据集,以生成同维度数量级相同的样本集;
结合预设的聚类算法和设定的簇数,将样本集生成多个簇,以及获取簇间分散度值与簇内紧密度值;
根据对数函数构造惩罚项;
结合簇间分散度值、簇内紧密度值和惩罚项,输出第一聚类结果。
进一步作为优选的实施方式,所述获取待聚类的数据集,采用预设的函数处理数据集,以生成同维度数量级相同的样本集这一步骤,具体包括以下步骤:
获取待聚类的数据集;
结合数据集中任意数据在各维度的取值与全体数据集在各维度的均值,生成离差数据集;
结合离差数据集中任意离差数据在各维度的取值与对应数据集中数据在各维度的标准差,生成同维度数量级相同的样本集。
进一步作为优选的实施方式,所述结合预设的聚类算法和设定的簇数,将样本集生成多个簇,以及获取簇间分散度值与簇内紧密度值这一步骤,具体包括以下步骤:
根据预设的聚类算法和设定的簇数将样本集生成多个簇;
获取各个簇内样本点之间的距离矩阵,结合各个簇内样本点之间的距离矩阵计算各个簇的距方均;
结合各个簇的距方均,计算簇内误差平方和,即簇内紧密度值;
获取所有样本点之间的距离矩阵,结合样本点之间的距离矩阵计算所有样本点的距方均;
结合各个簇的距方均和所有样本点的距方均,计算簇间误差平方和,即簇间分散度值。
进一步作为优选的实施方式,所述根据对数函数构造惩罚项这一步骤,具体包括以下步骤:
对样本量与聚类簇数之差求对数,生成目标惩罚项的前一部分;
对聚类簇数与1求差,生成目标惩罚项的后一部分;
结合惩罚项的前一部分和后一部分求商获得惩罚项,即惩罚项前一部分除以惩罚项后一部分得到惩罚项。
进一步作为优选的实施方式,所述结合簇间分散度值、簇内紧密度值和惩罚项,输出第一聚类结果这一步骤,具体包括以下步骤:
结合簇间分散度值与簇内紧密度值比值乘以惩罚项获取第一聚类结果;
根据预设的聚类簇数输出聚类评估值,若评估值符合预设条件,则输出第一聚类结果,反之,返回执行簇数设定步骤直至聚类簇数对应的评估值符合预设条件为止,并输出第一聚类结果。
本发明所采用的第二技术方案是:
一种聚类评估度量系统,包括:
生成模块,用于获取待聚类的数据集,采用预设的函数处理数据集,以生成同维度数量级相同的样本集;
获取模块,用于结合预设的聚类算法和设定的簇数,将样本集生成多个簇,以及获取簇间分散度值与簇内紧密度值;
构造模块,用于根据对数函数构造惩罚项;
输出模块,用于结合簇间分散度值、簇内紧密度值和惩罚项,输出第一聚类结果。
进一步作为优选的实施方式,所述生成模块包括:
第一获取单元,用于获取待聚类的数据集;
第一生成单元,用于结合数据集中任意数据在各维度的取值与全体数据集在各维度的均值,生成离差数据集;
第二生成单元,用于结合离差数据集中任意离差数据在各维度的取值与对应数据集中数据在各维度的标准差,生成同维度数量级相同的样本集。
进一步作为优选的实施方式,所述获取模块包括:
第三生成单元,用于根据预设的聚类算法和设定的簇数将样本集生成多个簇;
第一确定单元,用于结合各个簇的距方均确定簇内误差平方和,即簇内紧密度值;
第三获取单元,用于获取所有样本点之间的距离矩阵,结合样本点之间的距离矩阵计算所有样本点的距方均;
第二确定单元,用于结合各个簇的距方均和所有样本点的距方均确定簇间误差平方和,即簇间分散度值。
进一步作为优选的实施方式,所述构造模块包括:
第四生成单元,用于对样本量与聚类簇数之差求对数,生成目标惩罚项的前一部分;
第五生成单元,用于对聚类簇数与1求差,生成目标惩罚项的后一部分;
第六生成单元,用于结合惩罚项的前一部分和后一部分求商获得惩罚项,即惩罚项前一部分除以惩罚项后一部分得到惩罚项。
进一步作为优选的实施方式,所述输出模块包括:
第四获取单元,用于结合簇间分散度值与簇内紧密度值比值再乘以惩罚,输出第一聚类结果;
判断单元,用于根据预设的聚类簇数输出聚类评估值,若评估值符合预设条件,则输出第一聚类结果,反之,返回执行簇数设定步骤直至聚类簇数对应的评估值符合预设条件为止,并输出第一聚类结果。
本发明所采用的第三技术方案是:
一种装置,所述存储器用于存储至少一个程序,所述处理器用于加载所述至少一个程序以执行上所述方法。
本发明所采用的第四技术方案是:
一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行如上所述方法。
本发明的有益效果是:通过预设的函数处理集待聚类的数据集生成同维度数量级相同的样本集,根据预设的聚类算法与设定的簇数将样本集生成多个簇并输出簇间分散度值和簇内紧密度值,最后根据簇间分散度值与簇内紧密度值的比值乘以惩罚项的情况,输出第一聚类结果,进而降低了样本各维度量纲以及离群点对聚类结果的影响,此外,惩罚项引入对数函数使得评估指数免受由于样本量过大而导致不准确的影响,实现了聚类效果有效性的提高。
附图说明
图1是本发明一种聚类评估度量方法步骤流程图;
图2是本发明一种聚类评估度量系统结构框图;
图3是未进行标准化处理的分类结果绘制的示意图;
图4是采用本发明提供的聚类评估度量方法处理后的分类结果绘制的示意图。
具体实施方式
如图1所示,为本发明实施例提供的一种聚类评估度量方法流程图,具体包括以下步骤:
S1、获取待聚类的数据集,采用预设的函数处理数据集,以生成同维度数量级相同的样本集;
S2、结合预设的聚类算法和设定的簇数,将样本集生成多个簇,以及获取簇间分散度值与簇内紧密度值;
S3、根据对数函数构造惩罚项;
S4、结合簇间分散度值、簇内紧密度值和惩罚项,输出第一聚类结果。
本实施例中,系统获取输入的待聚类的数据集,通过预设的函数对数据集进行去量纲以及离群点处理,使数据集中的数据在对应相同维度上处于同一数量级的样本并排除异常点即离群点的影响后建立样本集,采用设定的簇数结合预设的聚类算法将样本集生成多个不同的簇,之后计算输出各簇间的分散度值与簇内紧密度值,最后将根据簇间分散度值和簇内紧密度值的比值乘以惩罚项的情况,输出对应聚类簇数的第一聚类结果,从而降低了样本各维度量纲以及离群点对聚类结果的影响,降低了由于样本量过大而导致不准确的影响,提高了聚类效果有效性;量纲是指物理固有的、可度量的物理属性,通常一个物理量是由自身的物理属性(即量纲)和为度量物理属性而定的量度单位两个因素构成,每个物理量仅有一个量纲,在国际单位制中,基本物理量如长度、质量、时间、电流、热力学温度、物质的量、发光强度的量纲相应符号分别是l、m、t、i、Q、N和J;离群点即异常点是指样本集中个别样本在各个维度取值特别大,不仅会影响均值的取值而且影响聚类的准确性;本实施例中所述预设的函数包括但不限于CH指数中函数其中为处理后的样本取值,σ为原始样本标准差,为原始样本均值、对数函数处理、反余切函数处理等,本实施例中优选CH指数中函数处理,所述预设的聚类算法包括但不限于K均值聚类、分层聚类、基于密度的噪声应用空间聚类等。本实施例中在惩罚项中引入了对数函数(log函数)对原有惩罚项中的分子进行了限制,降低了由于样本量过大而导致评估值不准确的影响。对数函数(log函数)的好处是保留了数据原有的单调性,不影响惩罚项的作用,也是得评估值更加准确。本实施例不做赘述。
进一步作为优选的实施方式,所述步骤S1具体包括以下步骤:
S10、获取待聚类的数据集;
S11、结合数据集中任意数据在各维度的取值与全体数据集在各维度的均值,生成离差数据集;
S12、结合离差数据集中任意离差数据在各维度的取值与对应数据集中数据在各维度的标准差,生成同维度数量级相同的样本集。
具体地,获取待聚类数据集如{Xij︱1≤i≤m,1≤j≤n},其中m指样本的维度,n指样本的数量,m和n均是大于1的自然数,σi指样本在维度i的标准差,之后取任一数据如X.j令即离差数据,令Zi.=Yi./σi.即样本,其中X.j是第j个数据,为数据集各数据在各维度上的均值,Y.j是第j个离差数据,Yi.是离差数据在维度i上的取值,Zi.是样本在维度i上的取值,最后生成离差数据集{Yij︱1≤i≤m,1≤j≤n}以及各样本同纬度量纲相同的样本集{Zij︱1≤i≤m,1≤j≤n}。
进一步作为优选的实施方式,所述步骤S2具体包括以下步骤:
S20、根据预设的聚类算法和设定的簇数将样本集生成多个簇;
S21、获取各个簇内样本点之间的距离矩阵,结合各个簇内样本点之间的距离矩阵计算各个簇的距方均;
S22、结合各个簇的距方均确定簇内误差平方和,即簇内紧密度值;
S23、获取所有样本点之间的距离矩阵,结合样本点之间的距离矩阵计算所有样本点的距
方均;
S24、结合各个簇的距方均和所有样本点的距方均,计算簇间误差平方和,即簇间分散度值。
具体地,通过预设的聚类算法和设定的簇数k将样本集{Zij︱1≤i≤n,1≤j≤m},其中n为样本数,m为样本的维度。分成k簇,其中k为大于1的自然数,之后分别计算簇内紧密度值、簇间离散度值和惩罚项。对于簇内紧密度值,首先计算各个簇内样本点与样本点之间的欧式距离,再计算各个簇内样本点间的欧式距离的平方在除以样本数,即第i个簇的距方均接着计算全部的簇的簇内紧密度对于簇间紧密度,首先计算所有样本点与样本点之间的欧式距离,再计算样本点间的欧式距离的平方在除以样本数,即距方均接着计算全部的簇的簇间分散度度对于惩罚项,样本量n与聚类簇数之差求对数,再除以聚类簇数与1之差。并且要求样本量大于聚类簇数,聚类簇数大于1,即
进一步作为优选的实施方式,所述步骤S3具体包括以下步骤:
S30、对样本量与聚类簇数之差求对数,生成目标惩罚项的前一部分;
S31、对聚类簇数与1求差,生成目标惩罚项的后一部分;
S32、结合惩罚项的前一部分和后一部分求商获得惩罚项,即惩罚项前一部分除以惩罚项后一部分得到惩罚项。
进一步作为优选的实施方式,所述步骤S4具体包括以下步骤:
S40、结合簇间分散度值与簇内紧密度值比值乘以惩罚项获取最优聚类簇数;
S41、判断给定的聚类簇数对应的评估值是否符合预设条件,若符合则输出第一聚类结果。反之,返回执行簇数设定步骤直至聚类簇数对应的评估值符合预设条件为止,并输出第一聚类结果。
本实施例中,所述预设条件指使簇间分散度值与簇内紧密度值比值乘以惩罚项取得最大值时对应的簇最佳聚类簇数,此时各簇簇间样本相对最分散,各簇簇内样本相对最紧密,聚类效果最优;具体地,将获取的簇间分散度值和簇内紧密度值作商即BGSS/WGSS,当BGSS/WGSS值越大说明簇内样本点越紧密,簇间样本点越分散,聚类的效果越好,反之,BGSS/WGSS值越小说明簇内样本点越分散,簇间样本点越紧密,聚类效果越差。此外,还需乘以惩罚项 同样的,当的值取最大时,说明此时聚类效果最优,输出对应的最佳聚类簇数k′并将最佳聚类簇数k′返回给系统执行簇数设定步骤,最后输出对应最佳聚类簇数k′的第一聚类结果。
如图2所示,为本发明一种聚类评估度量系统结构框图,包括:
一种聚类评估度量系统,包括:
生成模块,用于获取待聚类的数据集,采用预设的函数处理数据集,以生成同维度数量级相同的样本集;
获取模块,用于结合预设的聚类算法和设定的簇数,将样本集生成多个簇,以及获取簇间分散度值、簇内紧密度值;
构造模块,用于根据对数函数构造惩罚项;
输出模块,用于结合簇间分散度值、簇内紧密度值和惩罚项,输出第一聚类结果。
进一步作为优选的实施方式,所述生成模块包括:
第一获取单元,用于获取待聚类的数据集;
第一生成单元,用于结合数据集中任意数据在各维度的取值与全体数据集在各维度的均值,生成离差数据集;
第二生成单元,用于结合离差数据集中任意离差数据在各维度的取值与对应数据集中数据在各维度的标准差,生成同维度数量级相同的样本集。
进一步作为优选的实施方式,所述获取模块包括:
第三生成单元,用于根据预设的聚类算法和设定的簇数将样本集生成多个簇;
第一确定单元,用于结合各个簇的距方均确定簇内误差平方和,即簇内紧密度值;
第三获取单元,用于获取所有样本点之间的距离矩阵,结合样本点之间的距离矩阵计算所有样本点的距方均;
第二确定单元,用于结合各个簇的距方均和所有样本点的距方均确定簇间误差平方和,即簇间分散度值。
进一步作为优选的实施方式,所述构造模块包括:
第四生成单元,用于对样本量与聚类簇数之差求对数,生成目标惩罚项的前一部分;
第五生成单元,用于对聚类簇数与1求差,生成目标惩罚项的后一部分;
第六生成单元,用于结合惩罚项的前一部分和后一部分求商获得惩罚项,即惩罚项前一部分除以惩罚项后一部分得到惩罚项。
进一步作为优选的实施方式,所述输出模块包括:
第四获取单元,用于结合簇间分散度值与簇内紧密度值比值再乘以惩罚,输出第一聚类结果;
判断单元,用于根据预设的聚类簇数输出聚类评估值,若评估值符合预设条件,则输出第一聚类结果,反之,返回执行簇数设定步骤直至聚类簇数对应的评估值符合预设条件为止,并输出第一聚类结果。
一种装置,所述存储器用于存储至少一个程序,所述处理器用于加载所述至少一个程序以执行实施例一所述方法。
本实施例的一种装置,可执行本发明方法实施例一所提供的一种聚类评估度量方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行如实施例一所述方法。
本实施例的一种存储介质,可执行本发明方法实施例一所提供的一种聚类评估度量方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
具体实施例
如图3和图4分别是未进行标准化处理的分类结果示意图与采用本申请技术方案提供的聚类评估度量方法处理后的分类结果示意图。
获取待分类的wine data数据,wine data的数据类目数分别是159、271和348三类;
将wine data数据分别输入未进行标准化处理的聚类评估系统且该系统的惩罚项未优化和引入Z-Score标准化且加入优化后的惩罚项的CH算法聚类评估系统进行聚类评估,输入聚类结果如图3和图4所示。
由图3可知最优的CH值是2,与实际类目数不符;
由图4可知最优的类目数3,与实际数据集相符。
令Zi.=Yi./σi.样本集{Xij︱1≤i≤n,1≤j≤m},σi.是维度i的标准差,m表示样本集的维度,利用Z-Score标准化后的Calinski-Harabasz算法称为NormalizedCalinski-Harabasz(NCH)表达式如下:
其中,d都是对标准化后的样本集进行距离计算的。
由于通过引入标准化后会存在惩罚项(即)对利用Z-score标准化后NCH的值影响较大(Calinski-Harabasz算法称为Normalized Calinski-Harabasz),因此对惩罚项提出优化,
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.一种聚类评估度量方法,其特征在于,包括以下步骤:
获取待聚类的数据集,采用预设的函数处理数据集,以生成同维度数量级相同的样本集;
结合预设的聚类算法和设定的簇数,将样本集生成多个簇,以及获取簇间分散度值与簇内紧密度值;
根据对数函数构造惩罚项;
结合簇间分散度值、簇内紧密度值和惩罚项,输出第一聚类结果。
2.根据权利要求1所述的一种聚类评估度量方法,其特征在于,所述获取待聚类的数据集,采用预设的函数处理数据集,以生成同维度数量级相同的样本集这一步骤,具体包括以下步骤:
获取待聚类的数据集;
结合数据集中任意数据在各维度的取值与全体数据集在各维度的均值,生成离差数据集;
结合离差数据集中任意离差数据在各维度的取值与对应数据集中数据在各维度的标准差,生成同维度数量级相同的样本集。
3.根据权利要求2所述的一种聚类评估度量方法,其特征在于,所述结合预设的聚类算法和设定的簇数,将样本集生成多个簇,以及获取簇间分散度值与簇内紧密度值这一步骤,具体包括以下步骤:
根据预设的聚类算法和设定的簇数将样本集生成多个簇;
获取各个簇内样本点之间的距离矩阵,结合各个簇内样本点之间的距离矩阵计算各个簇的距方均;
结合各个簇的距方均确定簇内误差平方和,即簇内紧密度值;
获取所有样本点之间的距离矩阵,结合样本点之间的距离矩阵计算所有样本点的距方均;
结合各个簇的距方均和所有样本点的距方均确定簇间误差平方和,即簇间分散度值。
4.根据权利要求3所述的一种聚类评估度量方法,其特征在于,所述根据簇间分散度值和簇内紧密度值的比值再乘以惩罚项,获取第一聚类结果这一步骤,具体包括以下步骤:
结合簇间分散度值与簇内紧密度值比值再乘以惩罚项获取对应的聚类簇数;
根据预设的聚类簇数输出聚类评估值,若评估值符合预设条件,则输出第一聚类结果,反之,返回执行簇数设定步骤直至聚类簇数对应的评估值符合预设条件为止,并输出第一聚类结果。
5.一种聚类评估度量系统,其特征在于,包括:
生成模块,用于获取待聚类的数据集,采用预设的函数处理数据集,以生成同维度数量级相同的样本集;
获取模块,用于结合预设的聚类算法和设定的簇数,将样本集生成多个簇,以及获取簇间分散度值与簇内紧密度值;
构造模块,用于根据对数函数构造惩罚项;
输出模块,用于结合簇间分散度值、簇内紧密度值和惩罚项,输出第一聚类结果。
6.根据权利要求5所述的一种聚类评估度量系统,其特征在于,所述生成模块包括:
第一获取单元,用于获取待聚类的数据集;
第一生成单元,用于结合数据集中任意数据在各维度的取值与全体数据集在各维度的均值,生成离差数据集;
第二生成单元,用于结合离差数据集中任意离差数据在各维度的取值与对应数据集中数据在各维度的标准差,生成同维度数量级相同的样本集。
7.根据权利要求6所述的一种聚类评估度量系统,其特征在于,所述获取模块包括:
第三生成单元,用于根据预设的聚类算法和设定的簇数将样本集生成多个簇;
第二获取单元,用于获取各个簇内样本点之间的距离矩阵,结合各个簇内样本点之间的距离矩阵计算各个簇的距方均;
第一确定单元,用于结合各个簇的距方均确定簇内误差平方和,即簇内紧密度值;
第三获取单元,用于获取所有样本点之间的距离矩阵,结合样本点之间的距离矩阵计算所有样本点的距方均;
第二确定单元,用于结合各个簇的距方均和所有样本点的距方均确定簇间误差平方和,即簇间分散度值。
8.根据权利要求7所述的一种聚类评估度量系统,其特征在于,所述输出模块包括:
第四获取单元,用于结合簇间分散度值与簇内紧密度值比值再乘以惩罚项获取对应的聚类簇数;
判断单元,用于根据预设的聚类簇数输出聚类评估值,若评估值符合预设条件,则输出第一聚类结果,反之,返回执行簇数设定步骤直至聚类簇数对应的评估值符合预设条件为止,并输出第一聚类结果。
9.一种装置,其特征在于,包括存储器和处理器,所述存储器用于存储至少一个程序,所述处理器用于加载所述至少一个程序以执行权利要求1-4任一项所述方法。
10.一种存储介质,其中存储有处理器可执行的指令,其特征在于,所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-4任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011107621.1A CN112348055A (zh) | 2020-10-16 | 2020-10-16 | 一种聚类评估度量方法、系统、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011107621.1A CN112348055A (zh) | 2020-10-16 | 2020-10-16 | 一种聚类评估度量方法、系统、装置和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112348055A true CN112348055A (zh) | 2021-02-09 |
Family
ID=74360811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011107621.1A Pending CN112348055A (zh) | 2020-10-16 | 2020-10-16 | 一种聚类评估度量方法、系统、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112348055A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114565209A (zh) * | 2021-12-28 | 2022-05-31 | 安徽省安泰科技股份有限公司 | 一种基于聚类的流程工业能耗状态评估方法 |
CN115310879A (zh) * | 2022-10-11 | 2022-11-08 | 浙江浙石油综合能源销售有限公司 | 一种基于半监督聚类算法的多加油站用电量能耗管控方法 |
CN118468072A (zh) * | 2024-07-15 | 2024-08-09 | 武汉宏澳绿色能源工程有限责任公司 | 一种面向mvr蒸发器的智能巡检方法 |
-
2020
- 2020-10-16 CN CN202011107621.1A patent/CN112348055A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114565209A (zh) * | 2021-12-28 | 2022-05-31 | 安徽省安泰科技股份有限公司 | 一种基于聚类的流程工业能耗状态评估方法 |
CN115310879A (zh) * | 2022-10-11 | 2022-11-08 | 浙江浙石油综合能源销售有限公司 | 一种基于半监督聚类算法的多加油站用电量能耗管控方法 |
CN115310879B (zh) * | 2022-10-11 | 2022-12-16 | 浙江浙石油综合能源销售有限公司 | 一种基于半监督聚类算法的多加油站用电量能耗管控方法 |
CN118468072A (zh) * | 2024-07-15 | 2024-08-09 | 武汉宏澳绿色能源工程有限责任公司 | 一种面向mvr蒸发器的智能巡检方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112348055A (zh) | 一种聚类评估度量方法、系统、装置和存储介质 | |
Parker et al. | Accelerating fuzzy-c means using an estimated subsample size | |
CN111222556B (zh) | 一种基于决策树算法识别用电类别的方法及系统 | |
CN116596095B (zh) | 基于机器学习的碳排放量预测模型的训练方法及装置 | |
CN110705718A (zh) | 基于合作博弈的模型解释方法、装置、电子设备 | |
US8073652B2 (en) | Method and system for pre-processing data using the mahalanobis distance (MD) | |
CN112070357A (zh) | 一种基于改进bp神经网络的雷达辐射源威胁评估方法 | |
CN110472659B (zh) | 数据处理方法、装置、计算机可读存储介质和计算机设备 | |
CN111815209A (zh) | 应用于风控模型的数据降维方法及装置 | |
CN109034238A (zh) | 一种基于信息熵的聚类划分方法 | |
CN114169460A (zh) | 样本筛选方法、装置、计算机设备和存储介质 | |
CN114817034A (zh) | 一种测试质量的分析方法、装置及电子设备 | |
CN113946983A (zh) | 产品可靠性薄弱环节评估方法、装置和计算机设备 | |
CN117913796A (zh) | 电力经济耦合协调关系确定方法、装置、设备和存储介质 | |
CN113011086A (zh) | 一种基于ga-svr算法森林生物量的估测方法 | |
CN110473169B (zh) | 一种仿真图片置信度评价方法 | |
CN107274043B (zh) | 预测模型的质量评价方法、装置及电子设备 | |
CN117036781A (zh) | 一种基于树综合多样性深度森林的图像分类方法 | |
CN116128551A (zh) | 基于自回归滑动平均模型的进出口趋势分析方法及装置 | |
CN111783883A (zh) | 一种异常数据的检测方法及装置 | |
CN110751400A (zh) | 一种风险评估方法及装置 | |
CN116049733A (zh) | 基于神经网络的效能评估方法、系统、设备与存储介质 | |
CN114490412A (zh) | 基于自减逆向云发生器的三维cad软件性能度量方法及装置 | |
CN114529136A (zh) | 基于主成分分析和Topsis的电子部组件评价方法和装置 | |
Iswanto et al. | Comparison of Feature Selection To Performance Improvement of K-Nearest Neighbor Algorithm in Data Classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |