CN107247969A - 基于Gauss诱导核的模糊c均值聚类算法 - Google Patents
基于Gauss诱导核的模糊c均值聚类算法 Download PDFInfo
- Publication number
- CN107247969A CN107247969A CN201710435842.3A CN201710435842A CN107247969A CN 107247969 A CN107247969 A CN 107247969A CN 201710435842 A CN201710435842 A CN 201710435842A CN 107247969 A CN107247969 A CN 107247969A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- msup
- munderover
- fuzzy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明公开了一种基于Gauss诱导核的模糊c均值聚类算法,包括如下步骤:1.对样本集合依目标函数最小化原则进行最优化划分;2.初始化模糊隶属度或者初始化聚类中心;3.按Gauss诱导核聚类算法中的迭代计算公式对模糊隶属度和聚类中心进行参数估计;4.获得优化的目标函数。本发明能够有效利用核方法在聚类算法中的非线性表达能力,提升核聚类算法的聚类性能。且聚类中心迭代公式不包含聚类中心自身,满足了聚类算法迭代收敛证明的条件,从而从理论上保障了算法的收敛性。
Description
技术领域
本发明属于数据挖掘领域进行无监督数据分类的算法,具体的说是一种基于Gauss诱导核的模糊c均值聚类算法。
背景技术
聚类分析是无监督模式识别的一个重要内容,聚类的目的是使得相似样本划分在一起,而将不相似样本划分为不同类别。模糊c均值聚类算法(FCM)是聚类分析中应用最为广泛的一种方法,是由Dun、Bezdek等人发展而成的一种模糊聚类算法,FCM算法基于加权误差平方和最小化理论,使用欧式距离度量样本与聚类中心,用于表现样本与聚类中心间的误差,适合于数据集为线性关系的数据,但对非线性数据的聚类往往效果不好。
自核方法被成功的应用于分类器支持向量机(SVM)以来,即受到机器学习和模式分类领域研究者的广泛关注和研究,并进一步将其推广应用到特征提取、模糊聚类等领域。
核方法将输入空间的非线性关系通过非线性映射转换为高维特征空间的线性关系,增大了模式间的差异性刻画,且利用核函数表示高维特征空间中的内积运算,无需明确知道具体的非线性映射形式,克服了机器学习的维数灾难问题,所以在模糊聚类领域有着广泛而成功的应用。
由于核方法利用核函数表达特征空间中的内积运算,且特征空间中的空间距离可转换为内积运算形式,所以核方法适合于在特征空间中仅存在内积和距离运算的算法。聚类中心是模糊聚类算法的重要组成部分,由于核方法中非线性映射的无具体形式给出,因此在模糊聚类算法中应用核方法时,一个关键性的问题是如何表示核聚类中心。
自Girolami和张莉、焦李成等提出硬核聚类算法以来,将核方法应用于聚类算法的各种核模糊聚类算法应运而生,通过对比研究可以发现,这些核模糊聚类算法的根本原理都是相同的,即在各种模糊聚类算法中结合应用核方法。这些核模糊聚类算法的聚类目标函数和模糊隶属度公式在形式上是一致的,不同之处在于核聚类中心的推导原理及表现形式的不同。
现有核模糊聚类算法依聚类中心生成原理可分为三种,第一种是利用核矩阵K(vi,vi)及K(xh,vi)交替迭代,对模糊隶属度进行估计,聚类中心vi没有显示给出,该核聚类算法称为隐核模糊c均值聚类算法(HKFCM),算法性能不够稳定。第二种是利用高斯核函数求偏导在输入空间中得到聚类中心的vi的显式表达,但聚类中心迭代公式右端包含聚类中心本身,不满足聚类算法收敛性证明的要求,称为Gauss核模糊c均值聚类算法(GKFCM)。第三种是利用粒子群生物进化算法(PSO)在输入空间中对聚类中心进行搜索,称为PSO核模糊c均值聚类算法(PSO—KFCM),依赖于粒子群算法的迭代收敛,当初始条件不好时,则聚类性能较差。
发明内容
本发明为了克服现有技术存在的不足之处,充分利用核函数的非线性表达能力,提出一种基于Gauss诱导核的模糊c均值聚类算法,目的在于充分利用聚类算法在输入空间和核映射空间的分类信息,提升算法的分类性能。同时以显示形式表现参数迭代公式,且迭代公式右端不含有待迭代参数自身,进而保证算法的收敛性。
为了实现上述发明目的,本发明采用如下技术方案:
本发明基于Gauss诱导核的模糊c均值聚类算法,特点按如下步骤进行:
步骤1:令X={x1,x2,L,xj,L,xn}表示给定的样本集合,xj表示第j个样本;1≤j≤n,n是样本的个数;对样本集合X进行最优化划分,使得目标函数值JGIKFCM最小,其中JGIKFCM由式(1)所确定。
在式(1)中,c表示划分的类别数,1≤i≤c,uij表示第j个样本xj隶属于第i类的模糊隶属度,0≤uij≤1,且有表示第j个样本xj归属于各类的模糊隶属度的和为1;U={uij,i=1,L,c;j=1,L,n}表示隶属度矩阵,m(m>1)为模糊指标,为uij的m次;dKij表示基于核函数K(·,·)空间下第j个样本xj与第i类聚类中心的距离vi,并且有:
dKij 2=||Φ(xj)-Φ(vi)||2=<Φ(xj)-Φ(vi),Φ(xj)-Φ(vi)>=K(xj,xj)+K(vi,vi)-2K(xj,vi) (2)
式(2)中,Φ(xj)表示第j个样本非线性映射到高维特征空间中的映射函数;并且有:
<Φ(xj),Φ(vi)>=K(xj,vi) (3)
式(4)为高斯核函数,σ∈R为尺度因子。
当核函数K(·,·)取值高斯核函数式(4)时,有:
KG(x,x)=1 (5)
则式(2)在高斯核函数下则转换为:
步骤2:用值在0,1间的随机数初始化第j个样本xj隶属于第i类的模糊隶属度 定义迭代次数为λ,最大迭代次数为λmax;初始化λ=1,则第λ次迭代的隶属矩阵为U(λ),第λ次迭代的聚类中心为聚类中心矩阵为
步骤3:用式(7)计算第λ次迭代的c个聚类中心i=1,...,c。
式(7)中,KG表示高斯核函数,表示第λ-1次迭代时高斯核空间中第j个样本xj隶属于第i类的模糊隶属度,i=1,...,c,j=1,...,n。
步骤4:根据式(8)计算第λ次迭代的核模糊隶属度
在式(8)中,表示第λ次迭代时高斯核空间中的第i类的聚类中心。
步骤5:判断或λ>λmax,若成立,则uKij (λ)为迭代算法参数估计出的最优模糊隶属度,并令uKij (λ)=uij代入式(1)中,进而实现对样本集合X的最优划分,ε,λmax是事先给定的阈值。若不成立,则令λ=λ+1,重复步骤3顺序执行,直到条件满足为止。
与已有技术相比,本发明的有益效果体现在:
1.Gauss诱导核模糊c均值聚类算法(GIKFCM)将隐核模糊c均值聚类算法(HKFCM)与Gauss核模糊c均值聚类算法(GKFCM)相结合,得到Gauss核诱导聚类中心式(7)。在Gauss核诱导聚类中心的推导过程中,既利用了隐核聚类中心在高维核空间中关于Φ(vi)的梯度优化信息,又结合了Gauss核聚类中心关于vi的梯度优化信息,因此能够从数据集X中获取较HKFCM和GKFCM更多的数据划分优化信息,从而提升聚类算法的优化性能,保证GIKFCM算法拥有更加准确的聚类表现。
2.GIKFCM算法聚类中心式(7)右端不包含聚类中心vi,仅为模糊隶属度uij的函数,这与GKFCM算法聚类中心截然不同,从而满足了模糊聚类算法收敛性证明的要求,即要求聚类中心和模糊隶属度公式互为嵌套对偶函数,通过AO交替迭代过程对参数进行估计,进而从理论上保证了GIKFCM算法的收敛性。
3.GIKFCM算法聚类中心函数仅以模糊隶属度为自变量,而模糊隶属度函数以聚类中心为自变量,与模糊c均值聚类算法(FCM)类似,因此既可以对聚类中心进行初始化,也可以对模糊隶属度进行初始化,反映了该算法的迭代通用性。而GKFCM、PSO-KFCM算法只能先对聚类中心进行初始化,否则无法进行算法的迭代计算。HKFCM只能对模糊隶属度作初始化。在本实施例中,采用基于UCI机器学习数据库中的公共数据集进行算法比对测试,所选数据集为Iris数据集,数据集的信息如表1所示。选用HKFCM、GKFCM算法与GIKFCM算法做对比测试。
具体实施方式
在本实施例中,采用基于UCI机器学习数据库中的公共数据集进行算法比对测试,所选数据集为Iris数据集,数据集的信息如表1所示。选用HKFCM、GKFCM算法与Gauss诱导核模糊c均值聚类算法(以下简称GIKFCM算法)做对比测试。
表1 iris实验数据集
Gauss诱导核模糊c均值聚类算法是按如下步骤进行:
步骤1:令X={x1,x2,L,xj,L,xn}表示给定的样本集合,xj表示第j个样本;1≤j≤n,n是样本的个数;对样本集合X进行最优化划分,使得目标函数值JKFCM最小,其中JKFCM由式(1)所确定。GIKFCM算法、GKFCM算法、HKFCM算法的测试结果分别如表2、表3、表4所示。
在测试时,三种核聚类算法都选用Gauss核函数,Gauss核函数需要对Gauss核参数σ赋值,取核参数σ取值范围为[21,22,23,24],聚类算法模糊指标m取值为[2,3,4]。每种聚类算法根据参数和数据集进行10次测试,计算各类聚类平均精度。很显然这三种核聚类算法的核模糊隶属度及聚类目标函数是相同的,区别在于聚类中心的表达上,其中GKFCM和GIKFCM算法在输入空间中寻找聚类中心,而HKFCM算法在核映射空间中隐式表现了聚类中心。在算法迭代的初始化方面,GKFCM、GIKFCM算法选择对聚类中心做初始化,HKFCM算法选择对模糊隶属度做初始化。
表2 GIKFCM算法基于Iris数据集的分类精度(%)
表3 GKFCM算法基于Iris数据集的测试结果(%)
表4 HKFCM算法基于Iris数据集的分类精度(%)
Gauss诱导核模糊c均值聚类算法(以下简称GIKFCM)基于数据集iris的最高平均分类精度为92.67%,在参数σ=2,m=4时取得;最低平均分类精度为89.33%,分别在参数σ=8m=2和σ=16m=2。在聚类平均精度的基础上,再取聚类平均精度的平均为90.4225%。GKFCMs算法基于数据集iris的最高平均分类精度为92.53%,在参数σ=2,m=4时取得;最低平均分类精度为89.33%,分别在参数σ=8m=2和σ=16m=2。在聚类平均精度的基础上,再取聚类平均精度的平均为90.39%。HKFCM算法基于数据集iris的最高平均分类精度为90.00%,在参数σ=16m=3时取得,最低平均分类精度为66.67%,分别在参数σ=2m=3和σ=2m=4。在聚类平均精度的基础上,再取聚类平均精度的平均为80.51%。
在式(1)中,c表示划分的类别数,1≤i≤c,uij表示第j个样本xj隶属于第i类的模糊隶属度,0≤uij≤1,且有表示第j个样本xj归属于各类的模糊隶属度的和为1;U={uij,i=1,L,c;j=1,L,n}表示隶属度矩阵,m(m>1)为模糊指标,为uij的m次;dKij表示基于核函数K(·,·)空间下第j个样本xj与第i类聚类中心的距离vi,并且有:
dKij 2=||Φ(xj)-Φ(vi)||2=〈Φ(xj)-Φ(vi),Φ(xj)-Φ(vi)>=K(xj,xj)+K(vi,vi)-2K(xj,vi) (2)
式(2)中,Φ(xj)表示第j个样本非线性映射到高维特征空间中的映射函数;并且有:
<Φ(xj),Φ(vi)>=K(xj,vi) (3)
式(4)为高斯核函数,σ∈R为尺度因子。
当核函数K(·,·)取值高斯核函数式(4)时,有:
KG(x,x)=1 (5)
则式(2)在高斯核函数下则转换为:
步骤2:用值在0,1间的随机数初始化第j个样本xj隶属于第i类的模糊隶属度 定义迭代次数为λ,最大迭代次数为λmax;初始化λ=1,则第λ次迭代的隶属矩阵为U(λ),第λ次迭代的聚类中心为聚类中心矩阵为
步骤3:用式(7)计算第λ次迭代的c个聚类中心i=1,...,c。
式(7)中,KG表示高斯核函数,表示第λ-1次迭代时高斯核空间中第j个样本xj隶属于第i类的模糊隶属度,i=1,...,c,j=1,...,n。
步骤4:根据式(8)计算第λ次迭代的核模糊隶属度
在式(8)中,表示第λ次迭代时高斯核空间中的第i类的聚类中心。
步骤5:判断或λ>λmax,若成立,则为迭代算法参数估计出的最优模糊隶属度,并令代入式(1)中,进而实现对样本集合X的最优划分,ε,λmax是事先给定的阈值。若不成立,则令λ=λ+1,重复步骤3顺序执行,直到条件满足为止。
由表2和表3可知,GIKFCM和GKFCM算法对于iris数据集都能取得较好的聚类结果,在不同的参数取值情况下,GIKFCM和GKFCM算法聚类结果之间各有高低,如当σ=2,m=4时,GIKFCM平均聚类精度92.67%高于GKFCM平均聚类精度92.53%;而在σ=4,m=4时,GIKFCM平均聚类精度90.80%低于GKFCMs平均聚类精度90.93%。但在最高平均分类精度上和聚类平均精度的平均上,GIKFCM算法是高于GKFCM算法的,体现了GIKFCM算法的有效性。由表4可知,HKFCM算法基于数据集iris的测试结果并不理想,体现在该算法对模糊指标m异常敏感,随着参数m的变化,HKFCM算法聚类结果波动较大,且聚类结果表现不好。综上所述,由于GIKFCM充分利用了GKFCM算法和HKFCM算法在高维特征及低维输入空间中的数据优化信息,能够取得更好的聚类性能,且聚类中心以显式形式给出,具有充分的算法迭代鲁棒性,保证算法迭代收敛不受参数改变的影响。GIKFCM更优的聚类分类性能和鲁棒的迭代收敛性,从而在数据挖掘、模式分类和机器学习等领域有着很好的实用性。
综上所述,本发明一种基于Gauss诱导核的模糊c均值聚类算法包括如下步骤:1.对样本集合依目标函数最小化原则进行最优化划分;2.初始化模糊隶属度或者初始化聚类中心;3.按Gauss诱导核聚类算法中的迭代计算公式对模糊隶属度和聚类中心进行参数估计;4.获得优化的目标函数。本发明能够有效利用核方法在聚类算法中的非线性表达能力,提升核聚类算法的聚类性能。且聚类中心迭代公式不包含聚类中心自身,满足了聚类算法迭代收敛证明的条件,从而从理论上保障了算法的收敛性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.基于Gauss诱导核的模糊c均值聚类算法,包括如下步骤:
步骤1:对样本集合依目标函数最小化原则进行最优化划分;
步骤2:初始化模糊隶属度或者初始化聚类中心;
步骤3:按Gauss诱导核聚类算法中的迭代计算公式对模糊隶属度和聚类中心进行参数估计;
步骤4:获得优化的目标函数。
2.根据权利要求1所述的基于Gauss诱导核的模糊c均值聚类算法,其特征在于:所述步骤1具体包括:令X={x1,x2,L,xj,L,xn}表示给定的样本集合,xj表示第j个样本;1≤j≤n,n是样本的个数;对样本集合X进行最优化划分,使得目标函数值JGIKFCM最小。
3.根据权利要求1所述的基于Gauss诱导核的模糊c均值聚类算法,其特征在于:所述步骤2具体包括:
步骤2-1:用值在0,1间的随机数初始化第j个样本xj隶属于第i类的模糊隶属度 定义迭代次数为λ,最大迭代次数为λmax;初始化λ=1,则第λ次迭代的隶属矩阵为U(λ),第λ次迭代的聚类中心为vi (λ),聚类中心矩阵为V(λ)={vi (λ),i=1,...,c}。
步骤2-2:用式(7)计算第λ次迭代的c个聚类中心vi (λ),i=1,...,c;
<mrow>
<msubsup>
<mi>v</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mi>&lambda;</mi>
<mo>)</mo>
</mrow>
</msubsup>
<mo>=</mo>
<mfrac>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>s</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msup>
<mrow>
<mo>(</mo>
<msubsup>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
<mrow>
<mo>(</mo>
<mi>&lambda;</mi>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</msubsup>
<mo>)</mo>
</mrow>
<mi>m</mi>
</msup>
<msup>
<mrow>
<mo>(</mo>
<msubsup>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mi>s</mi>
</mrow>
<mrow>
<mo>(</mo>
<mi>&lambda;</mi>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</msubsup>
<mo>)</mo>
</mrow>
<mi>m</mi>
</msup>
<msub>
<mi>K</mi>
<mi>G</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>j</mi>
</msub>
<mo>,</mo>
<msub>
<mi>x</mi>
<mi>s</mi>
</msub>
<mo>)</mo>
</mrow>
<msub>
<mi>x</mi>
<mi>j</mi>
</msub>
</mrow>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>s</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msup>
<mrow>
<mo>(</mo>
<msubsup>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
<mrow>
<mo>(</mo>
<mi>&lambda;</mi>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</msubsup>
<mo>)</mo>
</mrow>
<mi>m</mi>
</msup>
<msup>
<mrow>
<mo>(</mo>
<msubsup>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mi>s</mi>
</mrow>
<mrow>
<mo>(</mo>
<mi>&lambda;</mi>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</msubsup>
<mo>)</mo>
</mrow>
<mi>m</mi>
</msup>
<msub>
<mi>K</mi>
<mi>G</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>j</mi>
</msub>
<mo>,</mo>
<msub>
<mi>x</mi>
<mi>s</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>7</mn>
<mo>)</mo>
</mrow>
</mrow>
式(7)中,KG表示高斯核函数,表示第λ-1次迭代时第j个样本xj隶属于第i类的模糊隶属度,i=1,...,c,j=1,...,n。
步骤2-3:根据式(8)计算第λ次迭代的核模糊隶属度uKij (λ)
<mrow>
<msup>
<msub>
<mi>u</mi>
<mrow>
<mi>K</mi>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>&lambda;</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>=</mo>
<mfrac>
<msup>
<mrow>
<mo>(</mo>
<mfrac>
<mn>1</mn>
<mrow>
<mn>1</mn>
<mo>-</mo>
<msub>
<mi>K</mi>
<mi>G</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>j</mi>
</msub>
<mo>,</mo>
<msup>
<msub>
<mi>v</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>&lambda;</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>)</mo>
</mrow>
<mrow>
<mn>1</mn>
<mo>/</mo>
<mrow>
<mo>(</mo>
<mi>m</mi>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
</msup>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>h</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>c</mi>
</munderover>
<msup>
<mrow>
<mo>(</mo>
<mfrac>
<mn>1</mn>
<mrow>
<mn>1</mn>
<mo>-</mo>
<msub>
<mi>K</mi>
<mi>G</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>h</mi>
</msub>
<mo>,</mo>
<msup>
<msub>
<mi>v</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>&lambda;</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>)</mo>
</mrow>
<mrow>
<mn>1</mn>
<mo>/</mo>
<mrow>
<mo>(</mo>
<mi>m</mi>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
</msup>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>8</mn>
<mo>)</mo>
</mrow>
</mrow>
在式(8)中,vi (λ)表示第λ次迭代时第i类的聚类中心。
4.根据权利要求1所述的基于Gauss诱导核的模糊c均值聚类算法,其特征在于:所述步骤3具体包括:判断||uKij (λ)-uKij (λ-1)||<ε或λ>λmax,若成立,则uKij (λ)为迭代算法参数估计出的最优模糊隶属度,并令uKij (λ)=uij代入式(1)中,进而实现对样本集合X的最优划分,ε,λmax是事先给定的阈值;若不成立,则令λ=λ+1,重复步骤2-2顺序执行,直到条件满足为止。
5.根据权利要求1所述的基于Gauss诱导核的模糊c均值聚类算法,其特征在于:步骤1中,JGIKFCM由式(1)所确定;
<mrow>
<msub>
<mi>J</mi>
<mrow>
<mi>G</mi>
<mi>I</mi>
<mi>K</mi>
<mi>F</mi>
<mi>C</mi>
<mi>M</mi>
</mrow>
</msub>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>c</mi>
</munderover>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msubsup>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
<mi>m</mi>
</msubsup>
<msup>
<msub>
<mi>d</mi>
<mrow>
<mi>K</mi>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mn>2</mn>
</msup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
1
在式(1)中,c表示划分的类别数,1≤i≤c,uij表示第j个样本xj隶属于第i类的模糊隶属度,0≤uij≤1,且有表示第j个样本xj归属于各类的模糊隶属度的和为1;U={uij,i=1,L,c;j=1,L,n}表示隶属度矩阵,m(m>1)为模糊指标,为uij的m次;dKij表示基于核函数K(·,·)空间下第j个样本xj与第i类聚类中心vi的距离,并且有:
dKij 2=||Φ(xj)-Φ(vi)||2=<Φ(xj)-Φ(vi),Φ(xj)-Φ(vi)>=K(xj,xj)+K(vi,vi)-2K(xj,vi) (2)
式(2)中,Φ(xj)表示第j个样本非线性映射到高维特征空间中的映射函数;并且有:
<Φ(xj),Φ(vi)>=K(xj,vi) (3)。
6.根据权利要求1所述的基于Gauss诱导核的模糊c均值聚类算法,其特征在于:步骤1中,式(4)为高斯核函数,σ∈R为尺度因子;
<mrow>
<msub>
<mi>K</mi>
<mi>G</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>x</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>exp</mi>
<mrow>
<mo>(</mo>
<mo>-</mo>
<mfrac>
<mrow>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>x</mi>
<mi>j</mi>
</msub>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
<mrow>
<mn>2</mn>
<msup>
<mi>&sigma;</mi>
<mn>2</mn>
</msup>
</mrow>
</mfrac>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
</mrow>
当核函数K(·,·)取值高斯核函数式(4)时,有:
KG(x,x)=1 (5)
则式(2)在高斯核函数下则转换为:
<mrow>
<msub>
<mi>J</mi>
<mrow>
<mi>G</mi>
<mi>I</mi>
<mi>K</mi>
<mi>F</mi>
<mi>C</mi>
<mi>M</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>U</mi>
<mo>,</mo>
<mi>V</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>c</mi>
</munderover>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msubsup>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
<mi>m</mi>
</msubsup>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>-</mo>
<mn>2</mn>
<msub>
<mi>K</mi>
<mi>G</mi>
</msub>
<mo>(</mo>
<mrow>
<msub>
<mi>x</mi>
<mi>j</mi>
</msub>
<mo>,</mo>
<msub>
<mi>v</mi>
<mi>i</mi>
</msub>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mn>2</mn>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>c</mi>
</munderover>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msubsup>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
<mi>m</mi>
</msubsup>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>exp</mi>
<mo>(</mo>
<mrow>
<mo>-</mo>
<mfrac>
<mrow>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>x</mi>
<mi>j</mi>
</msub>
<mo>-</mo>
<msub>
<mi>v</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
<mrow>
<mn>2</mn>
<msup>
<mi>&sigma;</mi>
<mn>2</mn>
</msup>
</mrow>
</mfrac>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>6</mn>
<mo>)</mo>
</mrow>
<mo>.</mo>
</mrow>
2
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710435842.3A CN107247969B (zh) | 2017-06-02 | 2017-06-02 | 基于Gauss诱导核的模糊c均值聚类算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710435842.3A CN107247969B (zh) | 2017-06-02 | 2017-06-02 | 基于Gauss诱导核的模糊c均值聚类算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107247969A true CN107247969A (zh) | 2017-10-13 |
CN107247969B CN107247969B (zh) | 2020-11-10 |
Family
ID=60019243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710435842.3A Active CN107247969B (zh) | 2017-06-02 | 2017-06-02 | 基于Gauss诱导核的模糊c均值聚类算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107247969B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108154186A (zh) * | 2017-12-29 | 2018-06-12 | 青岛真时科技有限公司 | 一种模式识别方法和装置 |
CN108828583A (zh) * | 2018-06-15 | 2018-11-16 | 西安电子科技大学 | 一种基于模糊c均值点迹分簇方法 |
CN110991521A (zh) * | 2019-11-29 | 2020-04-10 | 北京仿真中心 | 一种聚类判别分析方法 |
CN111144440A (zh) * | 2019-11-28 | 2020-05-12 | 中国电力科学研究院有限公司 | 一种专变用户日电力负荷特征的分析方法及装置 |
CN111310787A (zh) * | 2020-01-15 | 2020-06-19 | 江苏大学 | 一种基于堆叠编码器的脑功能网络多核模糊聚类方法 |
CN112101814A (zh) * | 2020-09-25 | 2020-12-18 | 吴俊江 | 基于加权的模糊聚类算法的油气工程分类方法和系统 |
CN112884044A (zh) * | 2021-02-24 | 2021-06-01 | 南京航空航天大学 | 非对齐多视图环境下机器人故障检测方法 |
CN115291519A (zh) * | 2022-08-16 | 2022-11-04 | 中南大学 | 一种磨矿过程智能优化控制方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105261004A (zh) * | 2015-09-10 | 2016-01-20 | 西安电子科技大学 | 基于均值漂移和邻域信息的模糊c均值图像分割方法 |
CN105718949A (zh) * | 2016-01-20 | 2016-06-29 | 江南大学 | 一种极大中心间隔的核可能性c均值聚类方法 |
CN105894024A (zh) * | 2016-03-29 | 2016-08-24 | 合肥工业大学 | 多重核的可能性模糊聚类算法 |
CN105976373A (zh) * | 2016-05-05 | 2016-09-28 | 江南大学 | 基于邻域信息熵的核模糊c均值图像分割算法 |
CN106408580A (zh) * | 2016-11-18 | 2017-02-15 | 南通大学 | 一种基于模糊c均值和均值漂移的肝脏区域提取方法 |
KR20170056837A (ko) * | 2015-11-16 | 2017-05-24 | 피앤씨주식회사 | 일사량 예측을 통한 태양광 발전량 예측 장치 |
-
2017
- 2017-06-02 CN CN201710435842.3A patent/CN107247969B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105261004A (zh) * | 2015-09-10 | 2016-01-20 | 西安电子科技大学 | 基于均值漂移和邻域信息的模糊c均值图像分割方法 |
KR20170056837A (ko) * | 2015-11-16 | 2017-05-24 | 피앤씨주식회사 | 일사량 예측을 통한 태양광 발전량 예측 장치 |
CN105718949A (zh) * | 2016-01-20 | 2016-06-29 | 江南大学 | 一种极大中心间隔的核可能性c均值聚类方法 |
CN105894024A (zh) * | 2016-03-29 | 2016-08-24 | 合肥工业大学 | 多重核的可能性模糊聚类算法 |
CN105976373A (zh) * | 2016-05-05 | 2016-09-28 | 江南大学 | 基于邻域信息熵的核模糊c均值图像分割算法 |
CN106408580A (zh) * | 2016-11-18 | 2017-02-15 | 南通大学 | 一种基于模糊c均值和均值漂移的肝脏区域提取方法 |
Non-Patent Citations (4)
Title |
---|
RAMATHILAGAM S 等: "Extended Gaussian kernel version of fuzzy c-means in the problem of data analyzing", 《EXPERT SYSTEMS WITH APPLICATIONS》 * |
SENTHIL S 等: "Efficient kernel induced fuzzy c-means based on Gaussian function for imagedata analyzing", 《JOURNAL OF INTELLIGENT & FUZZY SYSTEMS》 * |
文传军 等: "隐隶属度模糊 c 均值聚类算法", 《计算机应用与软件》 * |
李斌 等: "基于改进核模糊 C 均值类间极大化聚类算法", 《计算机应用》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108154186B (zh) * | 2017-12-29 | 2020-11-13 | 歌尔科技有限公司 | 一种模式识别方法和装置 |
CN108154186A (zh) * | 2017-12-29 | 2018-06-12 | 青岛真时科技有限公司 | 一种模式识别方法和装置 |
CN108828583B (zh) * | 2018-06-15 | 2022-06-28 | 西安电子科技大学 | 一种基于模糊c均值点迹分簇方法 |
CN108828583A (zh) * | 2018-06-15 | 2018-11-16 | 西安电子科技大学 | 一种基于模糊c均值点迹分簇方法 |
CN111144440A (zh) * | 2019-11-28 | 2020-05-12 | 中国电力科学研究院有限公司 | 一种专变用户日电力负荷特征的分析方法及装置 |
CN110991521A (zh) * | 2019-11-29 | 2020-04-10 | 北京仿真中心 | 一种聚类判别分析方法 |
CN111310787A (zh) * | 2020-01-15 | 2020-06-19 | 江苏大学 | 一种基于堆叠编码器的脑功能网络多核模糊聚类方法 |
CN111310787B (zh) * | 2020-01-15 | 2024-03-22 | 江苏大学 | 一种基于堆叠编码器的脑功能网络多核模糊聚类方法 |
CN112101814A (zh) * | 2020-09-25 | 2020-12-18 | 吴俊江 | 基于加权的模糊聚类算法的油气工程分类方法和系统 |
CN112101814B (zh) * | 2020-09-25 | 2024-04-16 | 吴俊江 | 基于加权的模糊聚类算法的油气工程分类方法和系统 |
CN112884044A (zh) * | 2021-02-24 | 2021-06-01 | 南京航空航天大学 | 非对齐多视图环境下机器人故障检测方法 |
CN112884044B (zh) * | 2021-02-24 | 2024-03-22 | 南京航空航天大学 | 非对齐多视图环境下机器人故障检测方法 |
CN115291519A (zh) * | 2022-08-16 | 2022-11-04 | 中南大学 | 一种磨矿过程智能优化控制方法 |
CN115291519B (zh) * | 2022-08-16 | 2024-04-12 | 中南大学 | 一种磨矿过程智能优化控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107247969B (zh) | 2020-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107247969A (zh) | 基于Gauss诱导核的模糊c均值聚类算法 | |
Constantine et al. | Global sensitivity metrics from active subspaces | |
CN107203785A (zh) | 多路径高斯核模糊c均值聚类算法 | |
Tang et al. | One-step multiview subspace segmentation via joint skinny tensor learning and latent clustering | |
Coeurjolly et al. | Integral based curvature estimators in digital geometry | |
CN103177265B (zh) | 基于核函数与稀疏编码的高清图像分类方法 | |
De Micheaux et al. | Depth for curve data and applications | |
Hirotsu | Advanced analysis of variance | |
Dryden et al. | Statistical analysis of unlabeled point sets: Comparing molecules in chemoinformatics | |
Wyłomańska et al. | Inverse Gaussian and its inverse process as the subordinators of fractional Brownian motion | |
McWherter et al. | Transformation invariant shape similarity comparison of solid models | |
Brodie et al. | Flops, Gromov-Witten invariants and symmetries of line bundle cohomology on Calabi-Yau three-folds | |
CN108846845A (zh) | 基于缩略图与分层模糊聚类的sar图像分割方法 | |
Tward | An optical flow based left-invariant metric for natural gradient descent in affine image registration | |
Jin et al. | A clustering algorithm for determining community structure in complex networks | |
Yin et al. | Population-guided large margin classifier for high-dimension low-sample-size problems | |
de Aguiar et al. | ICTM: an interval tessellation-based model for reliable topographic segmentation | |
He | A Fast and Accurate Analytic Method of Calculating Galaxy Two-point Correlation Functions | |
Cheng et al. | Recursive computation of the Fréchet mean on non-positively curved Riemannian manifolds with applications | |
Balan et al. | Anisotropic metric models in the Garner oncologic framework | |
van Noort et al. | Two new user‐friendly methods to assess pharmacometric parameter identifiability on categorical and continuous scales | |
Martínez | Bayesian estimation of topological features of persistence diagrams | |
Autenrieth et al. | Improved Weak Lensing Photometric Redshift Calibration via StratLearn and Hierarchical Modeling | |
Brzeski et al. | Percolation of hyperspheres in dimensions 3 to 5: from discrete to continuous | |
Shirota et al. | Visualization of Time Series Data by Statistical Shape Analysis on Fertility Rate and Education in Indonesia |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |