CN103810261A - 一种基于商空间理论的K-means聚类方法 - Google Patents

一种基于商空间理论的K-means聚类方法 Download PDF

Info

Publication number
CN103810261A
CN103810261A CN201410037923.4A CN201410037923A CN103810261A CN 103810261 A CN103810261 A CN 103810261A CN 201410037923 A CN201410037923 A CN 201410037923A CN 103810261 A CN103810261 A CN 103810261A
Authority
CN
China
Prior art keywords
granularity
bunch
cluster
delta
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410037923.4A
Other languages
English (en)
Inventor
周红芳
张国荣
刘园
郭杰
段文聪
王心怡
何馨依
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN201410037923.4A priority Critical patent/CN103810261A/zh
Publication of CN103810261A publication Critical patent/CN103810261A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于商空间理论的K-means聚类方法,先输入聚类数K和数据集X,然后对数据集进行聚类,最后输出聚类结果。本发明聚类方法对任意形状的类簇、有噪声点都具有较好的聚类结果,在聚类效果上远胜过K-means算法,并且本发明在时间性能上远远好于MSCA算法,综合时间性能和聚类效果,整体效果最好。

Description

一种基于商空间理论的K-means聚类方法
技术领域
本发明属于数据挖掘方法技术领域,涉及一种基于商空间理论的K-means聚类方法。
背景技术
在数据挖掘领域中,聚类分析是一项重要的研究课题。聚类技术已经被广泛应用到电信业、零售业、生物学、市场营销等领域。聚类是一种无监督的分类,其目的是用来发现数据集中由于对象本身特征而聚集成簇的数据点,并且保证簇内具有尽可能大的相似度、簇间具有尽可能大的相异度。现有的聚类算法一般分为:1.以K-means、FuzzyK-means、k中心点为代表的基于划分的聚类算法;2.以CURE、BIRCH、ROCK为代表的基于层次的聚类算法;3.以DBSCAN、OPTICS为代表的基于密度的聚类算法;4.其他类型的聚类算法,例如基于子空间的聚类算法或者基于模型的聚类算法。
基于划分的聚类算法K-means因为其随机选择初始聚类中心,以及使用梯度下降的方法来优化目标函数、通过局部搜索来获得聚类结果,往往会导致聚类结果的不稳定性,且有可能造成目标函数的解落到局部极小值上。所以,为了确定K-means算法的初始聚类中心,Fayyad,Bradley等人提出了基于采样的初始聚类中心算法,Ding等人提出基于k近邻一致性的K-means-CP算法。
MSCA(Multi-granularity self-learning clustering algorithm)算法是采用商空间理论,基于密度的改进算法,其思想是通过动态计算类簇内最大、最小距离来合成粒度,使其能以自学习的方式动态确定聚合粒度,然后通过构造一颗聚合树来进行凝聚聚类。该算法可以获得较好的聚类效果,但存在的问题是时间复杂度过高。
发明内容
本发明的目的是提供一种基于商空间理论的K-means聚类方法,解决现有技术存在的时间复杂度过高的问题。
本发明的技术方案是,基于商空间理论的K-means聚类方法,先输入聚类数K和数据集X,然后进行聚类,最后输出聚类结果。
本发明的特点还在于:
所述进行聚类包括:
1).初始化聚类数K,对数据集X进行预处理;
2).对数据集X的每一个维度进行排序,并计算出初始粒度;
3).控制粒度增长函数g(t),使粒度快增长,形成粒度增长序列;
4).选择一个分布稀疏度η最大的维度,对数据集X进行遍历,查找当前粒度可聚的数据点与类簇;重复进行4),直到粒度增长结束;
5).在3)产生的粒度增长序列中,逆序找出最大的可聚粒度,可聚粒度的数目等于聚类数K;然后从前一个粒度开始使用粒度增长函数的慢增长阶段,继续进行4),直到粒度增长结束,退出,进入6);
6).对离群点,边界簇,和未划分的数据点进行聚类;把这些点划分到与之最为接近的微簇中;
7).循环遍历6)生成的微簇集合,对每一个微簇在3)生成的粒度增长序列中查找可以合并的最小粒度,合并查找到的两个微簇;当微簇的数目达到算法的输入参数聚类数K时,退出循环。
数据集X在第j维的分布稀疏度为ηj:
η j = Σ i = 1 n ( x ij ′ - μ j ) 2 n - 1 - - - ( 1 )
其中x′ij是数据点xi在第j维属性的[0,1]的规范值,μj是第j维属性的中心。
粒度增长函数g(t)是以迭代次数t为参数,用来控制粒度增长的函数,既g(t)=δt;式[1]为粒度的快增长阶段,式[2]粒度的慢增长阶段:
g ( t ) = δ 0 t = 0 , δ 0 = Δ δ t - 1 + ln ( 0.1 + t ) * Δ [ 1 ] δ t - 1 + ln ( H + 0.1 * t ) * Δ [ 2 ] - - - ( 2 )
其中,Δ为n维向量,Δj表示第j维上的最小粒度,
Δ j = ϵ * max { η 1 , η 2 . . . η d } η j - - - ( 3 )
上述对离群点,边界簇,和未划分的数据点进行聚类的方法包括:
(1)循环遍历边界簇和离群点,计算这些数据点到各个微簇的距离;
(2)选择数据点到微簇距离最小的值,将数据点划分到与之对应的簇中,直到循环结束。
本发明的有益效果:
1.时间性能上,本发明聚类方法的时间复杂度主要由以下三个方面组成:①数据集的每一个维度的排序。②在某一粒度δi下,查找粒度可聚的点,类簇。③对于未划分的数据点,边界簇,离群点使用改进的K-means算法进行聚类。因而,本发明聚类方法的时间复杂度为O(nlogn)+O(L*logn1)+O(n2K)。可以看出,K-means算法具有最好的时间复杂度,其次是本发明聚类方法的时间复杂度,最后MSCA算法的时间复杂度最差。虽然K-means算法具有最好的时间复杂度,但是它无法发现任意形状的类簇,且聚类结果易受到噪声点的影响。
2.聚类效果上,本发明聚类方法和MSCA算法对任意形状的类簇、有噪声都具有较好的聚类结果。而K-means算法仅能较好的识别出球形聚类特征的类簇。
3.本发明聚类方法对任意形状的类簇、有噪声点都具有较好的聚类结果,在聚类效果上远胜过K-means算法,并且本发明在时间性能上远远好于MSCA算法,综合时间性能和聚类效果,整体效果最好。
附图说明
图1是本发明聚类方法聚类过程中数据集的初始状态图;
图2是本发明聚类方法聚类过程中数据集的中间状态图;
图3是本发明聚类方法的最终聚类结果图;
图4是本发明聚类方法试验中用到的合成数据集1;
图5是本发明聚类方法实验中的合成数据集2;
图6是本发明聚类方法实验中的合成数据集3;
图7是本发明聚类方法实验中的合成数据集4;
图8是本发明基于商空间理论的K-means聚类方法与现有的MSCA算法,K-means算法在6个数据集上的时间对比图;
图9是本发明基于商空间理论的K-means聚类方法对合成数据集1的聚类结果图;
图10是本发明基于商空间理论的K-means聚类方法对合成数据集2的聚类结果图;
图11是本发明基于商空间理论的K-means聚类方法对合成数据集3的聚类结果图;
图12是本发明基于商空间理论的K-means聚类方法对合成数据集4的聚类结果图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明中的相关定理、定义如下:
定义(粒度)粒度是指数据集中数据的细化和综合程度。粒度的划分原则是:细化程度越高,粒度越小;细化程度越低,粒度越大。
定义X为待研究问题的论域,f为论域上的属性函数,T为论域的结构,通过构造一个三元组(X,f,T)来描述问题。
定理1(保假原理)若问题A→B在(X,f,T)上有解,则在商空间([X],[f],[T])上,问题[A]→[B]也一定有解。
定理2(保真原理I)若问题[A]→[B],在([X],[f],[T])上有解,而且对于任一[x],p-1([x])在X上是连通集,则问题[A]→[B],在(X,f,T)上也一定有解。
定理3(保真原理II)设(X1,f1,T1),(X2,f2,T2)是(X,f,T)的两个商空间,而且Ti,i=1,2是半序。令(X3,f3,T3)是(X1,f1,T1),(X2,f2,T2)的上确界空间。若问题A1→B1,A2→B2在(X1,f1,T1),(X2,f2,T2)中有解,则对应的问题A3→B3在(X3,f3,T3)上也有解,其中A3=A1∩A2B3=B1∩B2
定义1(维度标准差)数据集X在第j维的分布稀疏度为ηj
η j = Σ i = 1 n ( x ij ′ - μ j ) 2 n - 1 - - - ( 1 )
其中x′ij是数据点xi在第j维属性的[0,1]的规范值,μj是第j维属性的中心。
定义2(粒度δt)粒度δt是在第t次迭代过程中通过粒度增长函数g(t)得到的一个N(N是数据集的维度个数)维向量。
定义3(粒度增长函数g(t))粒度增长函数g(t)是以迭代次数t为参数,用来控制粒度增长的函数,既g(t)=δt。式[1]为粒度的快增长阶段,式[2]粒度的慢增长阶段。
g ( t ) = δ 0 t = 0 , δ 0 = Δ δ t - 1 + ln ( 0.1 + t ) * Δ [ 1 ] δ t - 1 + ln ( H + 0.1 * t ) * Δ [ 2 ] - - - ( 2 )
其中,Δ为n维向量,Δj表示第j维上的最小粒度,
Δ j = ϵ * max { η 1 , η 2 . . . η d } η j - - - ( 3 )
在高维的投影聚类中,正是以标准偏差作为基础,度量维度与簇之间的相关程度。H为快增长阶段最后一次的(0.1+t)。ε为控制系数,经过实验在取0.01时有最佳实验结果。
定义4(离群点)数据点xi在粒度从δ0增长到δt的时候,仍没有被划分到某个簇中,即为离群点。
定义5(边界簇)在粒度从δ0增长到δt的时候,一个微簇中数据点的个数始终不超过3个,则将该簇定义为边界簇。
定义6(粒度δt可聚)在粒度向量δt={δ12...δn}时,①若点x={x1,x2...xn}和点y={y1,y2...yn},有如下性质:1≤j≤n,|xj-yj|≤[δt]j时,则称x与y在粒度δt下可聚。②若分属不同的类簇C1,C2中的两点x,y有①的性质,则称C1与C2在粒度δt下可聚。
定义7(最大粒度可聚增量ΔI)在粒度δt下,当前类簇的扩展增量Ci为当前粒度δt下的类簇数目,Cj为前一粒度δt-1下的类簇数目。
本发明聚类方法的主要思想是“整体-局部”策略。首先,根据定义3和定义6,在粒度等于0的时候,认为数据集中每一个点都是一个簇。相反,在粒度为一个足够大的值的时候,所有的数据点将被划分到同一个簇中。所以,在粒度的增长过程中,就可以得到数据集的整体结构,并保存其结构上的信息。然后,在局部上将离群点和边界簇划分到附近的微簇中,使在局部上形成的微簇是紧凑的。本发明能够避免在因为初始聚类中心的不稳定,以及减少边界离群点对聚类中心的扰动,而且通过粒度的合成,还能发现非凸状结构的类簇。
本发明聚类方法的计算过程,首先通过粒度函数的快增长阶段g1(t)扫描整个数据集,把整个数据集聚成一个类。接下来,在粒度增长序列中,从后往前查找出合并粒度最大的K-1(K为聚类数)个粒度δii+ji+k,…(0<j<k),然后从δi-1开始,使用粒度增长函数的慢增长阶段g2(t),使粒度能够达到一个理想的状态,既能够把所有类簇的骨架刻画出来,还能够最大程度的分离出类簇之间的边界稀疏模糊区域,参见图1、图2和图3,如图2中所示,所有的微簇的骨干部分被发现。为此,本发明基于商空间理论的K-means聚类方法在第一阶段采取这样一种策略:在粒度的增长过程中,只需要完成数据集85%的聚类或者达到粒度δi的前一粒度,既为第一阶段的终止条件。
本发明把未划分的数据点、离群点、边界簇划分到微簇中,使产生的微簇更加紧凑。如图2中,边界簇A中的两个点将会被分别划分到上边和右边的两个微簇中。同样,对于离群点B来说,则会被划分到下边最近的微簇中去。然后采用改进的最小生成树方法对微簇进行合并,用来决策合并与否的最小距离由第一阶段的快增长部分保存的粒度结构信息来获取,从而可以避免了距离的计算过程,由此得到最终聚类结果图3。并且,由于single link是被证明能够发现非球状簇的合并策略,所以本发明聚类方法能够发现非球状结构的类簇。
本发明聚类方法执行步骤如下:
输入:聚类数K,数据集X
1).初始化算法参数,对数据集进行预处理。
2).对数据集的每一个维度进行排序,并计算出初始粒度。
3).控制粒度增长函数,使粒度快增长,重复进行4),直到粒度增长结束。
4).选择一个η最大的维度,对数据集进行遍历,查找当前粒度可聚的数据点与类簇。
5).在3)产生的粒度增长序列中,逆序找出最大的前K个可聚粒度。然后从前一个粒度开始使用粒度增长函数的慢增长阶段,继续进行4),直到符合结束条件退出,入6)。
6).对离群点,边界簇,和未划分的数据点使用K-means算法进行聚类。把这些点划分到与之最为接近的微簇中。
7).循环遍历6)生成的微簇集合,对每一个微簇在3)生成的粒度增长序列中查找可以合并的最小粒度,合并查找到的两个微簇。当微簇的数目达到算法的输入参数聚类数K时,退出循环。
输出:聚类结果
本发明聚类方法性能评测:
为了验证本发明聚类方法的有效性,采用K-means算法和MSCA算法与本发明聚类方法进行对比。MSCA算法采用的是通过动态的计算类簇内的最大、最小距离来合成粒度,使其能够以自学习的方式动态确定聚合粒度,然后通过构造一颗聚合树来进行凝聚聚类,此算法是基于密度的改进算法。K-means算法因为其初始中心的随机性,所以对K-means算法采取运行20次,取最佳结果。
实验采用4个人工数据集和2个UCI标准数据集(iris,wine)来对算法进行对比测试。4个合成数据集和2个UCI数据集的属性及参数如图4,图5,图6,图7,表1和表2所示:
表1合成数据集的数据特征
Figure BDA0000462360990000091
Figure BDA0000462360990000101
表2UCI数据集的各项参数
实验结果对比:
因为本发明聚类方法要对数据集的每一个维度进行排序,对于有13维度的wine数据集进行聚类所花费的时间要比只有2维的合成数据集DateSet1,DataSet2,DataSet3的要多。K-means算法虽然具有最好的时间复杂度,但在任意形状簇的数据集的聚类中,算法效果要明显劣于MSCA算法和本发明聚类方法,这三种算法的正确率比较如表3所示。MSCA算法因为要在一棵高度为n的树中进行粒度可聚的关系判断,所以最坏的情况下其时间复杂度达到了O(n3),其平均情况下时间复杂度为O(nlog2n)。如图8所示,显示了本发明聚类方法,K-means算法,MSCA算法三种算法在6个数据集上的运行时间,由图中可以发现,MSCA算法在每个数据集上花费的时间均为最多,其次为本发明的聚类方法,用时最短的是K-means算法。
见表3,通过6个数据集上的聚类结果表明,本发明聚类方法对任意形状的类簇、有噪声都具有较好的聚类结果。而K-means算法仅能较好的识别出球形聚类特征的类簇。MSCA算法同样能够达到较好的聚类效果,但其时间复杂度远远大于本发明聚类方法。图9—图12为四个人工数据集的聚类结果。在图11中,本发明聚类方法把所有的噪声点全部划分到了离其最近的类中,以及在图12中,把圆环与圆心中间隔离的低密度簇分别划分到了附近的类中。由图9—图12可以说明本发明聚类方法在聚类的工程中能够识别非球状簇。
表3本发明和K-means,MSCA算法在6个数据集上的性能参数
Figure BDA0000462360990000111
本发明聚类方法是一种基于商空间理论和多粒度聚类方法,在时间性能和聚类效果上都有很大的提升。

Claims (5)

1.基于商空间理论的K-means聚类方法,其特征在于,先输入聚类数K和数据集X,然后对数据集X进行聚类,最后输出聚类结果。
2.如权利要求1所述的基于商空间理论的K-means聚类方法,其特征在于,所述对数据集X进行聚类包括:
1)初始化聚类数K,对数据集X进行预处理;
2)对数据集X的每一个维度进行排序,并计算出初始粒度;
3)控制粒度增长函数g(t),使粒度快增长,形成粒度增长序列;
4)选择一个分布稀疏度η最大的维度,对数据集进行遍历,查找当前粒度可聚的数据点与类簇;重复进行4),直到粒度增长结束;
5)在3)产生的粒度增长序列中,逆序找出最大的可聚粒度,可聚粒度的数目等于聚类数K;然后从前一个粒度开始使用粒度增长函数的慢增长阶段,继续进行4),直到粒度增长结束,退出,进入6);
6)对离群点,边界簇,和未划分的数据点进行聚类;把这些点划分到与之最为接近的微簇中;
7)循环遍历6)生成的微簇集合,对每一个微簇在3)生成的粒度增长序列中查找可以合并的最小粒度,合并查找到的两个微簇;当微簇的数目达到聚类数K时,退出循环。
3.如权利要求2所述的基于商空间理论的K-means聚类方法,其特征在于,数据集X在第j维的分布稀疏度为ηj:
&eta; j = &Sigma; i = 1 n ( x ij &prime; - &mu; j ) 2 n - 1 - - - ( 1 )
其中x′ij是数据点xi在第j维属性的[0,1]的规范值,μj是第j维属性的中心。
4.如权利要求2所述的基于商空间理论的K-means聚类方法,其特征在于,粒度增长函数g(t)是以迭代次数t为参数,用来控制粒度增长的函数,既g(t)=δt;式[1]为粒度的快增长阶段,式[2]粒度的慢增长阶段:
g ( t ) = &delta; 0 t = 0 , &delta; 0 = &Delta; &delta; t - 1 + ln ( 0.1 + t ) * &Delta; [ 1 ] &delta; t - 1 + ln ( H + 0.1 * t ) * &Delta; [ 2 ] - - - ( 2 )
其中,Δ为n维向量,Δj表示第j维上的最小粒度,
&Delta; j = &epsiv; * max { &eta; 1 , &eta; 2 . . . &eta; d } &eta; j - - - ( 3 )
5.如权利要求2所述的基于商空间理论的K-means聚类方法,其特征在于,所述对离群点,边界簇,和未划分的数据点进行聚类的方法包括:
(1)循环遍历边界簇和离群点,计算这些数据点到各个微簇的距离;
(2)选择数据点到微簇距离最小的值,将数据点划分到与之对应的簇中,直到循环结束。
CN201410037923.4A 2014-01-26 2014-01-26 一种基于商空间理论的K-means聚类方法 Pending CN103810261A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410037923.4A CN103810261A (zh) 2014-01-26 2014-01-26 一种基于商空间理论的K-means聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410037923.4A CN103810261A (zh) 2014-01-26 2014-01-26 一种基于商空间理论的K-means聚类方法

Publications (1)

Publication Number Publication Date
CN103810261A true CN103810261A (zh) 2014-05-21

Family

ID=50707031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410037923.4A Pending CN103810261A (zh) 2014-01-26 2014-01-26 一种基于商空间理论的K-means聚类方法

Country Status (1)

Country Link
CN (1) CN103810261A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133866A (zh) * 2014-07-18 2014-11-05 国家电网公司 一种面向智能电网的缺失数据填充方法
CN104463188A (zh) * 2014-10-24 2015-03-25 上海交通大学 基于最佳传输模型的聚类普适性分析方法
CN104598565A (zh) * 2015-01-09 2015-05-06 国家电网公司 一种基于随机梯度下降算法的k均值大规模数据聚类方法
CN104778951A (zh) * 2015-04-07 2015-07-15 华为技术有限公司 语音增强的方法和装置
CN105049286A (zh) * 2015-07-21 2015-11-11 国家计算机网络与信息安全管理中心 基于层次聚类的云平台测速数据判定方法
CN105430032A (zh) * 2014-09-17 2016-03-23 阿里巴巴集团控股有限公司 结合终端地理位置推送信息的方法及服务器
CN105956605A (zh) * 2016-04-21 2016-09-21 苏州科技学院 基于并行k-means聚类的三维结构相似性聚类方法
CN106682079A (zh) * 2016-11-21 2017-05-17 云南电网有限责任公司电力科学研究院 一种基于聚类分析的用户用电行为检测方法
WO2017215346A1 (zh) * 2016-06-15 2017-12-21 北京京东尚科信息技术有限公司 业务数据分类方法和装置
CN110045371A (zh) * 2019-04-28 2019-07-23 软通智慧科技有限公司 一种鉴定方法、装置、设备及存储介质
CN111985530A (zh) * 2020-07-08 2020-11-24 上海师范大学 一种分类方法
CN113553461A (zh) * 2020-04-26 2021-10-26 北京搜狗科技发展有限公司 一种图片聚类的方法及相关装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100217763A1 (en) * 2007-09-17 2010-08-26 Electronics And Telecommunications Research Institute Method for automatic clustering and method and apparatus for multipath clustering in wireless communication using the same
CN102254020A (zh) * 2011-07-22 2011-11-23 西安电子科技大学 基于特征权重的全局k-均值聚类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100217763A1 (en) * 2007-09-17 2010-08-26 Electronics And Telecommunications Research Institute Method for automatic clustering and method and apparatus for multipath clustering in wireless communication using the same
CN102254020A (zh) * 2011-07-22 2011-11-23 西安电子科技大学 基于特征权重的全局k-均值聚类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周红芳 等: "基于商空间理论的 K-means 改进算法", 《西安理工大学学报》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133866A (zh) * 2014-07-18 2014-11-05 国家电网公司 一种面向智能电网的缺失数据填充方法
US11015953B2 (en) 2014-09-17 2021-05-25 Advanced New Technologies Co., Ltd. Method and server for delivering information to user terminal
CN105430032A (zh) * 2014-09-17 2016-03-23 阿里巴巴集团控股有限公司 结合终端地理位置推送信息的方法及服务器
US11662220B2 (en) 2014-09-17 2023-05-30 Advanced New Technologies Co., Ltd. Method and server for delivering information to user terminal
CN104463188A (zh) * 2014-10-24 2015-03-25 上海交通大学 基于最佳传输模型的聚类普适性分析方法
CN104598565A (zh) * 2015-01-09 2015-05-06 国家电网公司 一种基于随机梯度下降算法的k均值大规模数据聚类方法
CN104598565B (zh) * 2015-01-09 2018-08-14 国家电网公司 一种基于随机梯度下降算法的k均值大规模数据聚类方法
CN104778951A (zh) * 2015-04-07 2015-07-15 华为技术有限公司 语音增强的方法和装置
CN105049286A (zh) * 2015-07-21 2015-11-11 国家计算机网络与信息安全管理中心 基于层次聚类的云平台测速数据判定方法
CN105956605A (zh) * 2016-04-21 2016-09-21 苏州科技学院 基于并行k-means聚类的三维结构相似性聚类方法
CN105956605B (zh) * 2016-04-21 2019-04-26 苏州科技大学 基于并行k-means聚类的三维结构相似性聚类方法
WO2017215346A1 (zh) * 2016-06-15 2017-12-21 北京京东尚科信息技术有限公司 业务数据分类方法和装置
US11023534B2 (en) 2016-06-15 2021-06-01 Beijing Jingdong Shangke Information Technology Co, Ltd. Classification method and a classification device for service data
CN106682079B (zh) * 2016-11-21 2020-06-05 云南电网有限责任公司电力科学研究院 一种基于聚类分析的用户用电行为检测方法
CN106682079A (zh) * 2016-11-21 2017-05-17 云南电网有限责任公司电力科学研究院 一种基于聚类分析的用户用电行为检测方法
CN110045371A (zh) * 2019-04-28 2019-07-23 软通智慧科技有限公司 一种鉴定方法、装置、设备及存储介质
CN113553461A (zh) * 2020-04-26 2021-10-26 北京搜狗科技发展有限公司 一种图片聚类的方法及相关装置
CN111985530A (zh) * 2020-07-08 2020-11-24 上海师范大学 一种分类方法
CN111985530B (zh) * 2020-07-08 2023-12-08 上海师范大学 一种分类方法

Similar Documents

Publication Publication Date Title
CN103810261A (zh) 一种基于商空间理论的K-means聚类方法
Grover A study of various fuzzy clustering algorithms
Jumadi Dehotman Sitompul et al. Enhancement clustering evaluation result of davies-bouldin index with determining initial centroid of k-means algorithm
Mumtaz et al. An analysis on density based clustering of multi dimensional spatial data
Sohrabi et al. Efficient colossal pattern mining in high dimensional datasets
Liu et al. An Effective Clustering Algorithm With Ant Colony.
Prabha et al. Improved particle swarm optimization based k-means clustering
CN111260491B (zh) 发现网络社区结构方法及系统
Sun et al. Density-peak-based overlapping community detection algorithm
Gajawada et al. Optimal clustering method based on genetic algorithm
Potharaju et al. A Novel M-Cluster of Feature Selection Approach Based on Symmetrical Uncertainty for Increasing Classification Accuracy of Medical Datasets.
Hashemi et al. A new particle swarm optimization algorithm for optimizing big data clustering
Badase et al. Classification and analysis of clustering algorithms for large datasets
Bause et al. Gradual weisfeiler-leman: Slow and steady wins the race
CN108717551A (zh) 一种基于最大隶属度的模糊层次聚类方法
Yazdi et al. Hierarchical tree clustering of fuzzy number
Kaneriya et al. A novel approach for clustering data streams using granularity technique
Yu et al. Analysis and Application of the Spatio-Temporal Feature in Wind Power Prediction.
Kaur et al. A survey: clustering algorithms in data mining
Charlon opticskxi_ OPTICS K-Xi Density-Based Clustering
Alrammahi et al. A new approach for improving clustering algorithms performance
Kumar et al. A hybrid approach for data clustering using expectation-maximization and parameter adaptive harmony search algorithm
Feng et al. A genetic k-means clustering algorithm based on the optimized initial centers
Ahamad et al. Clustering and classification algorithms in data mining
Nejad et al. Reducing the time needed to solve a traveling salesman problem by clustering with a Hierarchy-based algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140521