CN107480724A - 一种聚类中心的确定方法、确定系统及一种聚类方法 - Google Patents

一种聚类中心的确定方法、确定系统及一种聚类方法 Download PDF

Info

Publication number
CN107480724A
CN107480724A CN201710730191.0A CN201710730191A CN107480724A CN 107480724 A CN107480724 A CN 107480724A CN 201710730191 A CN201710730191 A CN 201710730191A CN 107480724 A CN107480724 A CN 107480724A
Authority
CN
China
Prior art keywords
ripples
dissemination process
fitness value
group
renewal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710730191.0A
Other languages
English (en)
Inventor
王春枝
刘川
叶志伟
胡继雄
陈宏伟
刘伟
宗欣露
苏军
严灵毓
陈颖哲
任紫扉
王俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University of Technology
Wuhan Fiberhome Technical Services Co Ltd
Original Assignee
Hubei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Technology filed Critical Hubei University of Technology
Priority to CN201710730191.0A priority Critical patent/CN107480724A/zh
Publication of CN107480724A publication Critical patent/CN107480724A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种聚类中心的确定方法及系统,方法包括:构建包括多个水波的水波群;对水波群中的各水波进行传播处理;分别判断传播处理后的各水波的适应度值是否大于传播处理前的水波的适应度值;若是,则用传播处理后的水波代替水波群中传播处理前的水波;否则更新水波群中传播处理前的水波的波高和波长,且传播处理前的水波的位置保持不变;更新水波群和迭代次数;判断当前的迭代次数是否小于设定的进化代数;若是,则返回继续对更新后的水波群中的各水波进行传播处理;否则筛选出更新后的水波群中适应度值最大的水波作为最优水波。本发明提供的方法及系统,通过传播处理从优化搜索的角度出发,使聚类中心一代又一代地优化,并逼进最优聚类中心。

Description

一种聚类中心的确定方法、确定系统及一种聚类方法
技术领域
本发明涉及大数据挖掘领域,特别是涉及一种聚类方法及系统。
背景技术
大数据技术的发展,随之产生的数据量急剧增加,传统的数据处理方法已经无法满足要求,聚类分析作为一种大数据挖掘技术再次成为研究热点。聚类分析是一种重要的无监督学习方法,聚类分析的目的是寻找隐藏在数据中的结构,并按照某种相似性度量,尽可能地使具有相同性质的数据归于同一类。
然而,传统的K均值(K-means)聚类算法的初始聚类中心是随机选取的。对于多次迭代的聚类算法,本次迭代的聚类中心是通过更新上一次迭代的中心得到的,因此,作为聚类结果的计算基础,初始聚类中心的选取至关重要。如果初始聚类中心是随机产生的,很难收敛到正确的聚类结果。
因此,如何确定K均值算法的初始聚类中心,成为本领域技术人员亟需解决的技术问题。
发明内容
本发明的目的是提供一种聚类中心的确定方法,通过传播处理可以从优化搜索的角度出发进行进化,使聚类中心一代又一代地优化,并逼进最优聚类中心。
为实现上述目的,本发明提供了如下方案:
一种聚类中心的确定方法,所述确定方法包括:
构建包括多个水波的水波群,并随机初始化各所述水波的位置、波高和波长,其中,每个所述水波包括m个聚类中心;
对所述水波群中的各所述水波进行传播处理;
分别判断传播处理后的各水波的适应度值是否大于传播处理前的水波的适应度值,得到第一判断结果;
若所述第一判断结果表示传播处理后的水波的适应度值大于传播处理前的水波的适应度值,则用传播处理后的水波代替所述水波群中传播处理前的水波;
若所述第一判断结果表示传播处理后的水波的适应度值小于或等于传播处理前的水波的适应度值,则更新所述水波群中传播处理前的水波的波高和波长,且传播处理前的水波的位置保持不变;
根据各所述第一判断结果更新所述水波群,并更新所述水波群的迭代次数;
判断更新后的迭代次数是否小于设定的进化代数,得到第二判断结果;
若所述第二判断结果表示更新后的迭代次数小于设定的进化代数,则返回继续对更新后的所述水波群中的各所述水波进行传播处理;
若所述第二判断结果表示更新后的迭代次数等于设定的进化代数,则计算更新后的所述水波群中各水波的适应度值,筛选出更新后的所述水波群中适应度值最大的水波作为最优水波,所述最优水波的聚类中心为最优聚类中心。
可选的,所述判断所述传播处理后的各水波的适应度值是否大于所述传播处理前的水波的适应度值,得到第一判断结果,具体包括:
根据公式:分别计算各传播处理前的水波的适应度值及传播处理后的水波的适应度值,其中,p表示常数,Fc表示适应度函数,m表示聚类中心的个数,xi表示第i个聚类的聚类中心,1≤i≤m,cij为表示第i个聚类内的第j个数据对象,d(xi,cij)表示第i个聚类内的第j个数据对象与第i个聚类的聚类中心的距离;
判断各传播处理后的水波的适应度值是否大于传播处理前的水波的适应度值,得到第一判断结果。
可选的,所述对所述水波群中的各所述水波进行传播处理前还包括:
计算各所述水波的适应度值,筛选出适应度值最大的水波作为当前最优水波;
判断所述当前最优水波的适应度值是否大于或者等于设定的适应度阈值,获得第三判断结果;
当所述第三判断结果表示所述当前最优水波的适应度值大于或者等于设定的适应度阈值,则所述当前最优水波的聚类中心为最优聚类中心;
当所述第三判断结果表示所述当前最优水波的适应度值小于设定的适应度阈值,则对所述水波群中的各所述水波进行传播处理。
可选的,所述用传播处理后的水波代替所述水波群中传播处理前的水波,具体包括:
判断所述传播处理后的水波的适应度值是否大于所述当前最优水波的适应度值,获得第四判断结果;
若所述第四判断结果表示所述传播处理后的水波的适应度值小于或等于所述当前最优水波的适应度值,则用传播处理后的水波代替所述水波群中传播处理前的水波;
若所述第四判断结果表示所述传播处理后的水波的适应度值大于所述当前最优水波的适应度值,则对所述传播处理后的水波进行碎浪处理,获得多个子波;
计算各所述子波的适应度值;
筛选出适应度值最大的子波作为最优子波,并用所述最优子波代替所述水波群中与所述传播处理后的水波对应的传播处理前的水波。
可选的,所述更新所述水波群中所述传播处理前的水波的波高和波长,具体包括:
将所述传播处理前的水波的波高减1;
判断波高减1后的所述传播处理前的水波的波高是否等于0,获得第五判断结果;
若第五判断结果表示波高减1后的所述传播处理前的水波的波高等于0,则对所述波高减1后的所述传播处理前的水波进行折射处理,并根据公式:更新折射处理后的水波的波长,其中,λ″表示更新后的所述折射处理后的水波的波长,λ*表示更新前的所述折射处理后的水波的波长,f(X″)表示更新后的所述折射处理后的水波的适应度值,f(X*)表示更新前的所述折射处理后的水波的适应度值;
若第五判断结果表示波高减1后的所述传播处理前的水波的波高不等于0,则根据公式:更新所述波高减1后的所述传播处理前的水波的波长,其中,λ表示更新前的所述波高减1后的所述传播处理前的水波的波长,λ′表示更新后的所述波高减1后的所述传播处理前的水波的波长,f(X)表示更新前的所述波高减1后的所述传播处理前的水波的适应度值,fmax和fmin分别表示当前水波群中各水波的最大适应度值和最小适应度值,α表示波长的衰减系数,ε表示常数且ε∈(0,10-9)。
可选的,所述对所述水波群中的各所述水波进行传播处理,具体包括:
根据公式:X′(d)=X(d)+rand(-1,1)×λL(d),对所述水波群中的各所述水波进行传播处理,其中,X′(d)表示传播处理后的水波的位置,X(d)表示传播处理前的水波的位置,rand(-1,1)表示[-1,1]范围里的一个均匀分布的随机数,λ表示传播处理前的水波的波长,L(d)表示搜索空间在第d维的长度,1≤d≤n,n表示问题的维度。
本发明的目的是提供一种聚类中心的确定系统,通过传播处理可以从优化搜索的角度出发进行进化,使聚类中心一代又一代地优化,并逼进最优聚类中心。
为实现上述目的,本发明提供了如下方案:
一种聚类中心的确定系统,所述确定系统包括:
7、一种聚类中心的确定系统,其特征在于,所述确定系统包括:
水波群构建模块,用于构建包括多个水波的水波群,并随机初始化各所述水波的位置、波高和波长,其中,每个所述水波包括m个聚类中心;
传播模块,用于对所述水波群中的各所述水波进行传播处理;
第一判断模块,用于分别判断传播处理后的各水波的适应度值是否大于传播处理前的水波的适应度值,得到第一判断结果;
替换处理模块,用于若所述第一判断结果表示传播处理后的水波的适应度值大于传播处理前的水波的适应度值,则用传播处理后的水波代替所述水波群中传播处理前的水波;若所述第一判断结果表示传播处理后的水波的适应度值小于或等于所述传播处理前的水波的适应度值,则更新水波群中所述传播处理前的水波的波高和波长,且传播处理前的水波的位置保持不变;
更新模块,用于根据各所述第一判断结果更新所述水波群,并更新所述水波群的迭代次数;
第二判断模块,用于判断更新后的迭代次数是否小于设定的进化代数,得到第二判断结果;
聚类中心确定模块,用于若所述第二判断结果表示更新后的迭代次数小于设定的进化代数,则返回继续对更新后的所述水波群中的各所述水波进行传播处理;若所述第二判断结果表示更新后的迭代次数等于设定的进化代数,则计算更新后的所述水波群中各水波的适应度值,筛选出更新后的所述水波群中适应度值最大的水波作为最优水波,所述最优水波的聚类中心为最优聚类中心。
本发明的目的是提供一种聚类方法,能够快速准确地对数据集进行聚类划分。
为实现上述目的,本发明提供了如下方案:
一种聚类方法,所述聚类方法包括:
获取待聚类的数据集及最优聚类中心,所述最优聚类中心为根据所述的确定方法确定的最优聚类中心;
根据最近距离准则对所述数据集中的各数据进行聚类划分;
判断是否满足终止条件;
若是,则输出最优聚类结果;
否则,返回继续利用最近距离准则,对所述数据集中的数据进行聚类划分。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明首先对水波群中的各水波进行传播处理,然后用传播处理后适应度值增大的水波代替水波群中原来的水波,使得水波群中各水波的适应度值随着迭代次数的增加而逐渐增大。当迭代次数达到设定的进化代数时,将适应度值最大的水波的聚类中心作为最优聚类中心。可见,本发明首先通过传播处理,从优化搜索的角度出发进行进化,使聚类中心一代又一代地优化,并逼进最优聚类中心,然后通过选择适应度值最大的水波确定最优聚类中心,从而克服了随机产生聚类中心带来的聚类结果不准确和聚类耗时的问题。将本发明确定的最优聚类中心作为初始聚类中心对数据集进行K均值聚类划分,能够克服现有技术中K均值聚类时,由于随机产生初始聚类中心带来的聚类结果不准确和聚类耗时的问题,采用本发明提供的聚类方法能够快速准确地对数据集进行聚类划分。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例1的流程图;
图2为水波优化模型示意图;
图3为本发明实施例2的结构框图;
图4为本发明实施例3的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种聚类中心的确定方法、确定系统及一种聚类方法,通过传播处理可以从优化搜索的角度出发进行进化,使聚类中心一代又一代地优化,并逼进最优聚类中心,从而使本发明提供的聚类方法能够快速准确地对数据集进行聚类划分。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,一种聚类中心的确定方法包括:
步骤101:构建包括多个水波的水波群,并在可行解空间中随机初始化各所述水波的位置、波高和波长,其中,每个所述水波包括m个聚类中心,每个水波的波高h初始化为一个常数,波长λ初始化为0.5;
设原始数据需要聚成m类,每一个样本有d维特征,对于需要优化的离散平方误差和最小问题,采用实数编码,以聚类中心作为待寻优变量,每一个水波的位置对应于一个可行解,这里每个水波的位置是由m个聚类中心组成的,由于样本向量维数为d,这里水波的位置是m×d维向量,每个水波的位置可以采用如表1中的编码表示,表1中C11C12…C1d代表第1类聚类中心,…Cm1Cm2…Cmd代表第m类的聚类中心。
表1 解编码示例
步骤102:对所述水波群中的各所述水波进行传播处理;
本实施例中,根据公式:X′(d)=X(d)+rand(-1,1)×λL(d),对所述水波群中的各所述水波进行传播处理,其中,X′(d)表示传播处理后的水波的位置,X(d)表示传播处理前的水波的位置,rand(-1,1)表示[-1,1]范围里的一个均匀分布的随机数,λ表示传播处理前的水波的波长,L(d)表示搜索空间在第d维的长度,1≤d≤n,n表示问题的维度。
步骤103:分别判断传播处理后的各水波的适应度值是否大于传播处理前的水波的适应度值,得到第一判断结果。
若所述第一判断结果表示传播处理后的水波的适应度值大于传播处理前的水波的适应度值,则执行步骤104;
若所述第一判断结果表示传播处理后的水波的适应度值小于或等于传播处理前的水波的适应度值,则执行步骤105;
步骤104:用传播处理后的水波代替所述水波群中传播处理前的水波;
步骤105:更新所述水波群中传播处理前的水波的波高和波长,且传播处理前的水波的位置保持不变;
步骤106:根据各所述第一判断结果更新所述水波群,并更新所述水波群的迭代次数;
步骤107:判断更新后的迭代次数是否小于设定的进化代数,得到第二判断结果;
若所述第二判断结果表示更新后的迭代次数小于设定的进化代数,则返回步骤102;
若所述第二判断结果表示更新后的迭代次数等于设定的进化代数,则执行步骤108;
步骤108:计算更新后的所述水波群中各水波的适应度值,筛选出更新后的所述水波群中适应度值最大的水波作为最优水波,所述最优水波的聚类中心为最优聚类中心。
其中,步骤103具体包括:
步骤1031:根据公式:分别计算各传播处理前的各水波的适应度值及传播处理后的各水波的适应度值,其中,p表示常数,Fc表示适应度函数,m表示聚类中心的个数,xi表示第i个聚类的聚类中心,1≤i≤m,cij为表示第i个聚类内的第j个数据对象,d(xi,cij)表示第i个聚类内的第j个数据对象与第i个聚类的聚类中心的距离;
步骤1032:判断各传播处理后的各水波的适应度值是否大于所述传播处理前的水波的适应度值,得到第一判断结果。
优选地,执行步骤102之前还包括:
步骤1011:计算各所述水波的适应度值,筛选出适应度值最大的水波作为当前最优水波;
步骤1012:判断所述当前最优水波的适应度值是否大于或者等于设定的适应度阈值,获得第三判断结果;
当所述第三判断结果表示所述当前最优水波的适应度值大于或者等于设定的适应度阈值,则所述当前最优水波的聚类中心为最优聚类中心;
当所述第三判断结果表示所述当前最优水波的适应度值小于设定的适应度阈值,则执行步骤102。
其中,步骤104具体包括:
步骤1041:判断所述传播处理后的水波的适应度值是否大于所述当前最优水波的适应度值,获得第四判断结果;
若所述第四判断结果表示所述传播处理后的水波的适应度值小于或等于所述当前最优水波的适应度值,执行步骤1042;
若所述第四判断结果表示所述传播处理后的水波的适应度值大于所述当前最优水波的适应度值,执行步骤1043;
步骤1042:用传播处理后的水波代替所述水波群中传播处理前的水波;
步骤1043:对所述传播处理后的水波进行碎浪处理,获得多个子波;
因为水波能量的不断增加会使其波峰变得越来越陡峭,直至破碎成一连串的孤立波。本实施例对每个新找到的适应度值大于当前最优水波的水波进行碎浪处理,以避免陷入局部最优的问题。具体方式是:先随机选择k维,根据公式:X2(d)=X′2(d)+N(0,1)×β×L(d),在每一维上产生一个孤立波作为子波,其中k是介于1和一个预定义参数kmax之间的一个随机数,其中,X2(d)表示子波的位置,X′2(d)表示碎浪前的水波的位置,β表示碎浪系数,L(d)表示搜索空间在第d维的长度,1≤d≤n,n表示问题的维度,N(0,1)表示服从正态分布的随机数。
本实施例步骤1041中,当传播处理前的水波为当前最优水波时,对当前最优水波进行传播处理后直接进行碎浪处理。
步骤1044:计算各所述子波的适应度值;
步骤4045:筛选出适应度值最大的子波作为最优子波,并用所述最优子波代替所述水波群中与所述传播处理后的水波对应的传播处理前的水波。
其中,步骤105中更新所述水波群中所述传播处理前的水波的波高和波长,具体包括:
步骤1051:由于能量损耗,将所述传播处理前的水波的波高减1;
步骤1052:判断波高减1后的所述传播处理前的水波的波高是否等于0,获得第五判断结果;
若第五判断结果表示波高减1后的所述传播处理前的水波的波高等于0,则执行步骤1053;
若第五判断结果表示波高减1后的所述传播处理前的水波的波高不等于0,则执行步骤1054;
步骤1053:则对所述波高减1后的所述传播处理前的水波进行折射处理,并根据公式:更新折射处理后的水波的波长,使得水波的适应度与波长成反比,其中,λ″表示更新后的所述折射处理后的水波的波长,λ*表示更新前的所述折射处理后的水波的波长,f(X″)表示更新后的所述折射处理后的水波的适应度值,f(X*)表示更新前的所述折射处理后的水波的适应度值;
本实施例中,当某个水波的波高为0时,对其进行折射处理以避免搜索停滞,折射处理后每一维的位置计算公式如下:
其中,X1(d)表示折射处理后的水波的位置,X0 *(d)表示目前位置所找到的最优水波的位置,即当前最优水波的位置,X0(d)表示折射处理前的水波的位置,N(μ,σ)表示均值为μ、方差为σ的高斯随机数,即参数μ对应参数σ对应折射后新波的波高重置为设定的最大波高值hmax
步骤1054:根据公式:更新所述波高减1后的所述传播处理前的水波的波长,其中,λ表示更新前的所述波高减1后的所述传播处理前的水波的波长,λ′表示更新后的所述波高减1后的所述传播处理前的水波的波长,f(X)表示更新前的所述波高减1后的所述传播处理前的水波的适应度值,fmax和fmin分别表示当前水波群中各水波的最大适应度值和最小适应度值,α表示波长的衰减系数,ε表示极小的正数,以避免分母为0的情况发生,ε∈(0,10-9)。
本实施例中,设定的进化代数可通过多次试验获得。当算法在迭代过程中,与上一次迭代获得的聚类中心相比,本次迭代得到的水波的适应度值没有明显的变化,即如果继续进化也无法明显提高水波的适应度值,可认为其无需再进行迭代,将本次迭代的次数设定为进化代数即可。
本实施例提供的聚类中心的确定方法,通过模拟水波的运动来求解优化问题,即获得最优的聚类中心。如图2所示,水波的适应度与其到海床的垂直距离成反比:距离海平面越近的点,对应的解越优,相应的水波能量越高,那么水波的波高更大、波长更小。因此,水波优化算法可使得较优的解在较小的范围内进行搜索,而较差的解在较大的范围内进行搜索,从而促进整个种群不断向更优的目标进化。
本实施例中,一种聚类中心的方案对应于一个水波,它具有两个属性,即波高和波长。最优聚类中心的解空间对应于海床,到海床的垂直距离越近的水波的适应度值越高,反之适应度值越低。迭代过程中,通过反复应用传播、折射和碎浪这3种操作来对种群中的水波进行演化,从而获得最优的聚类中心。
实施例2:
如图3所示,一种聚类中心的确定系统包括:
水波群构建模块201,用于构建包括多个水波的水波群,并随机初始化各所述水波的位置、波高和波长,其中,每个所述水波包括m个聚类中心;
传播模块202,用于对所述水波群中的各所述水波进行传播处理;
第一判断模块203,用于分别判断传播处理后的各水波的适应度值是否大于传播处理前的水波的适应度值,得到第一判断结果;
替换处理模块204,用于若所述第一判断结果表示传播处理后的水波的适应度值大于传播处理前的水波的适应度值,则用传播处理后的水波代替所述水波群中传播处理前的水波;若所述第一判断结果表示传播处理后的水波的适应度值小于或等于传播处理前的水波的适应度值,则更新所述水波群中传播处理前的水波的波高和波长,且传播处理前的水波的位置保持不变;
更新模块205,用于根据各所述第一判断结果更新所述水波群,并更新所述水波群的迭代次数;
第二判断模块206,用于判断更新后的迭代次数是否小于设定的进化代数,得到第二判断结果;
聚类中心确定模块207,用于若所述第二判断结果表示更新后的迭代次数小于设定的进化代数,则返回继续对更新后的所述水波群中的各所述水波进行传播处理;若所述第二判断结果表示更新后的迭代次数等于设定的进化代数,则计算更新后的所述水波群中各水波的适应度值,筛选出更新后的所述水波群中适应度值最大的水波作为最优水波,所述最优水波的聚类中心为最优聚类中心。
本实施例提供的聚类中心的确定系统通过适应度值确定法最优聚类中心,克服了随机产生初始聚类中心带来的聚类结果不准确和聚类耗时的问题,而且通过传播处理可以从优化搜索的角度出发进行进化,使聚类中心一代又一代地优化,并逼进最优聚类中心。
实施例3:
如图4所示,一种聚类方法包括:
步骤301:获取待聚类的数据集及最优聚类中心,所述最优聚类中心为根据实施例1中的确定方法确定的最优聚类中心,其中,待聚类的数据集含有n个数据集,聚类数为k;
步骤302:根据最近距离准则对所述数据集中的各数据进行聚类划分;
步骤303:判断是否满足终止条件;
若是,执行步骤304;
否则,返回步骤302;
步骤304:输出最优聚类结果。
本实施例中,步骤303中的终止条件可设置为:当前迭代次数达到设定的最大迭代次数。
在K-means聚类过程中,采用最近距离准则判据进行样本划分,即当聚类中心确定时,每个样本按最近距离准则划分到对应类。K-means聚类以最终聚类结果中所有数据的离散平方误差总和为聚类好坏的判据,离散误差平方和数值越小代表聚类质量越高,反之亦然。而在最优聚类中心的确定过程中,通常适应度函数越大代表解的质量越好,即适应度值计算公式是用于计算一个类中所有数据到该类的聚类中心的距离和,和越小,表示聚类效果越好。
本实施例提供的聚类方法,初始聚类中心是基于水波优化算法确定的,因此本发明的聚类方法的寻优能力强,计算复杂度低,计算速度快、能跳出局部最优,从而能够解决K-means聚类算法对初始聚类中心的选取依赖性大的问题,提高K-means聚类算法的聚类性能。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种聚类中心的确定方法,其特征在于,所述确定方法包括:
构建包括多个水波的水波群,并随机初始化各所述水波的位置、波高和波长,其中,每个所述水波包括m个聚类中心;
对所述水波群中的各所述水波进行传播处理;
分别判断传播处理后的各水波的适应度值是否大于传播处理前的水波的适应度值,得到第一判断结果;
若所述第一判断结果表示传播处理后的水波的适应度值大于传播处理前的水波的适应度值,则用传播处理后的水波代替所述水波群中传播处理前的水波;
若所述第一判断结果表示传播处理后的水波的适应度值小于或等于传播处理前的水波的适应度值,则更新所述水波群中传播处理前的水波的波高和波长,且传播处理前的水波的位置保持不变;
根据各所述第一判断结果更新所述水波群,并更新所述水波群的迭代次数;
判断更新后的迭代次数是否小于设定的进化代数,得到第二判断结果;
若所述第二判断结果表示更新后的迭代次数小于设定的进化代数,则返回继续对更新后的所述水波群中的各所述水波进行传播处理;
若所述第二判断结果表示更新后的迭代次数等于设定的进化代数,则计算更新后的所述水波群中各水波的适应度值,筛选出更新后的所述水波群中适应度值最大的水波作为最优水波,所述最优水波的聚类中心为最优聚类中心。
2.根据权利要求1所述的确定方法,其特征在于,所述判断传播处理后的各水波的适应度值是否大于传播处理前的水波的适应度值,得到第一判断结果,具体包括:
根据公式:分别计算各传播处理前的水波的适应度值及传播处理后的水波的适应度值,其中,p表示常数,Fc表示适应度函数,m表示聚类中心的个数,xi表示第i个聚类的聚类中心,1≤i≤m,cij为表示第i个聚类内的第j个数据对象,d(xi,cij)表示第i个聚类内的第j个数据对象与第i个聚类的聚类中心的距离;
判断各传播处理后的水波的适应度值是否大于传播处理前的水波的适应度值,得到第一判断结果。
3.根据权利要求1所述的确定方法,其特征在于,所述对所述水波群中的各所述水波进行传播处理前还包括:
计算各所述水波的适应度值,筛选出适应度值最大的水波作为当前最优水波;
判断所述当前最优水波的适应度值是否大于或者等于设定的适应度阈值,获得第三判断结果;
当所述第三判断结果表示所述当前最优水波的适应度值大于或者等于设定的适应度阈值,则所述当前最优水波的聚类中心为最优聚类中心;
当所述第三判断结果表示所述当前最优水波的适应度值小于设定的适应度阈值,则对所述水波群中的各所述水波进行传播处理。
4.根据权利要求3所述的确定方法,其特征在于,所述用传播处理后的水波代替所述水波群中传播处理前的水波,具体包括:
判断所述传播处理后的水波的适应度值是否大于所述当前最优水波的适应度值,获得第四判断结果;
若所述第四判断结果表示所述传播处理后的水波的适应度值小于或等于所述当前最优水波的适应度值,则用传播处理后的水波代替所述水波群中传播处理前的水波;
若所述第四判断结果表示所述传播处理后的水波的适应度值大于所述当前最优水波的适应度值,则对所述传播处理后的水波进行碎浪处理,获得多个子波;
计算各所述子波的适应度值;
筛选出适应度值最大的子波作为最优子波,并用所述最优子波代替所述水波群中与所述传播处理后的水波对应的传播处理前的水波。
5.根据权利要求1所述的确定方法,其特征在于,所述更新所述水波群中所述传播处理前的水波的波高和波长,具体包括:
将所述传播处理前的水波的波高减1;
判断波高减1后的所述传播处理前的水波的波高是否等于0,获得第五判断结果;
若第五判断结果表示波高减1后的所述传播处理前的水波的波高等于0,则对所述波高减1后的所述传播处理前的水波进行折射处理,并根据公式:更新折射处理后的水波的波长,其中,λ″表示更新后的所述折射处理后的水波的波长,λ*表示更新前的所述折射处理后的水波的波长,f(X″)表示更新后的所述折射处理后的水波的适应度值,f(X*)表示更新前的所述折射处理后的水波的适应度值;
若第五判断结果表示波高减1后的所述传播处理前的水波的波高不等于0,则根据公式:更新所述波高减1后的所述传播处理前的水波的波长,其中,λ表示更新前的所述波高减1后的所述传播处理前的水波的波长,λ′表示更新后的所述波高减1后的所述传播处理前的水波的波长,f(X)表示更新前的所述波高减1后的所述传播处理前的水波的适应度值,fmax和fmin分别表示当前水波群中各水波的最大适应度值和最小适应度值,α表示波长的衰减系数,ε表示常数且ε∈(0,10-9)。
6.根据权利要求1所述的确定方法,其特征在于,所述对所述水波群中的各所述水波进行传播处理,具体包括:
根据公式:X′(d)=X(d)+rand(-1,1)×λL(d),对所述水波群中的各所述水波进行传播处理,其中,X′(d)表示传播处理后的水波的位置,X(d)表示传播处理前的水波的位置,rand(-1,1)表示[-1,1]范围里的一个均匀分布的随机数,λ表示传播处理前的水波的波长,L(d)表示搜索空间在第d维的长度,1≤d≤n,n表示问题的维度。
7.一种聚类中心的确定系统,其特征在于,所述确定系统包括:
水波群构建模块,用于构建包括多个水波的水波群,并随机初始化各所述水波的位置、波高和波长,其中,每个所述水波包括m个聚类中心;
传播模块,用于对所述水波群中的各所述水波进行传播处理;
第一判断模块,用于分别判断传播处理后的各水波的适应度值是否大于传播处理前的水波的适应度值,得到第一判断结果;
替换处理模块,用于若所述第一判断结果表示传播处理后的水波的适应度值大于传播处理前的水波的适应度值,则用传播处理后的水波代替所述水波群中传播处理前的水波;若所述第一判断结果表示传播处理后的水波的适应度值小于或等于所述传播处理前的水波的适应度值,则更新水波群中所述传播处理前的水波的波高和波长,且传播处理前的水波的位置保持不变;
更新模块,用于根据各所述第一判断结果更新所述水波群,并更新所述水波群的迭代次数;
第二判断模块,用于判断更新后的迭代次数是否小于设定的进化代数,得到第二判断结果;
聚类中心确定模块,用于若所述第二判断结果表示更新后的迭代次数小于设定的进化代数,则返回继续对更新后的所述水波群中的各所述水波进行传播处理;若所述第二判断结果表示更新后的迭代次数等于设定的进化代数,则计算更新后的所述水波群中各水波的适应度值,筛选出更新后的所述水波群中适应度值最大的水波作为最优水波,所述最优水波的聚类中心为最优聚类中心。
8.一种聚类方法,其特征在于,所述聚类方法包括:
获取待聚类的数据集及最优聚类中心,所述最优聚类中心为根据权利要求1-6任一项所述的确定方法确定的最优聚类中心;
根据最近距离准则对所述数据集中的各数据进行聚类划分;
判断是否满足终止条件;
若是,输出最优聚类结果;
否则,返回继续利用最近距离准则,对所述数据集中的数据进行聚类划分。
CN201710730191.0A 2017-08-23 2017-08-23 一种聚类中心的确定方法、确定系统及一种聚类方法 Pending CN107480724A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710730191.0A CN107480724A (zh) 2017-08-23 2017-08-23 一种聚类中心的确定方法、确定系统及一种聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710730191.0A CN107480724A (zh) 2017-08-23 2017-08-23 一种聚类中心的确定方法、确定系统及一种聚类方法

Publications (1)

Publication Number Publication Date
CN107480724A true CN107480724A (zh) 2017-12-15

Family

ID=60602222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710730191.0A Pending CN107480724A (zh) 2017-08-23 2017-08-23 一种聚类中心的确定方法、确定系统及一种聚类方法

Country Status (1)

Country Link
CN (1) CN107480724A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107958313A (zh) * 2017-12-19 2018-04-24 兰州理工大学 一种离散的水波优化算法
CN108280211A (zh) * 2018-01-31 2018-07-13 湖北工业大学 文本特征向量的确定方法及系统、文本分类方法及系统
CN117809262A (zh) * 2024-03-01 2024-04-02 广州宇中网络科技有限公司 一种实时图像识别方法及客户行为分析系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107958313A (zh) * 2017-12-19 2018-04-24 兰州理工大学 一种离散的水波优化算法
CN108280211A (zh) * 2018-01-31 2018-07-13 湖北工业大学 文本特征向量的确定方法及系统、文本分类方法及系统
CN108280211B (zh) * 2018-01-31 2020-07-07 湖北工业大学 文本特征向量的确定方法及系统、文本分类方法及系统
CN117809262A (zh) * 2024-03-01 2024-04-02 广州宇中网络科技有限公司 一种实时图像识别方法及客户行为分析系统
CN117809262B (zh) * 2024-03-01 2024-05-28 广州宇中网络科技有限公司 一种实时图像识别方法及客户行为分析系统

Similar Documents

Publication Publication Date Title
CN111242302A (zh) 一种智能参数优化模块的XGBoost预测方法
CN109214503B (zh) 基于kpca-la-rbm的输变电工程造价预测方法
CN107480724A (zh) 一种聚类中心的确定方法、确定系统及一种聚类方法
CN111275172A (zh) 一种基于搜索空间优化的前馈神经网络结构搜索方法
CN113011570A (zh) 一种卷积神经网络模型的自适应高精度压缩方法及系统
CN110858805A (zh) 小区网络流量预测方法及装置
CN109784497B (zh) 基于计算图进化的ai模型自动生成的方法
CN114511131A (zh) 一种基于机器学习算法的网络安全态势预测方法及系统
CN114169251A (zh) 一种超短期风电功率预测方法
CN114118369A (zh) 一种基于群智能优化的图像分类卷积神经网络设计方法
Chen et al. A new multiobjective evolutionary algorithm for community detection in dynamic complex networks
CN111126560A (zh) 一种基于云遗传算法优化bp神经网络的方法
CN112131089B (zh) 软件缺陷预测的方法、分类器、计算机设备及存储介质
CN112329918A (zh) 一种基于注意力机制的对抗正则化网络嵌入方法
CN111831955A (zh) 一种锂离子电池剩余寿命预测方法及系统
CN115713144A (zh) 基于组合cgru模型的短期风速多步预测方法
CN113111308B (zh) 基于数据驱动遗传编程算法的符号回归方法及系统
Fonseca et al. A similarity-based surrogate model for enhanced performance in genetic algorithms
CN113987904A (zh) 一种输电项目修理成本测算方法、装置、设备及存储介质
CN113094973A (zh) 一种基于多目标优化算法的民机需求优选方法
CN110889396A (zh) 能源互联网扰动分类方法、装置、电子设备和存储介质
CN116015967B (zh) 基于改进鲸鱼算法优化delm的工业互联网入侵检测方法
CN115130483B (zh) 一种基于多目标群体智能算法的神经架构搜索方法及用途
CN114444808A (zh) 模型量化方法、装置、电子设备及存储介质
CN117767413A (zh) 一种分布式光伏电网划分方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Wang Chunzhi

Inventor after: Liu Wei

Inventor after: Zong Xinlu

Inventor after: Su Jun

Inventor after: Yan Lingyu

Inventor after: Chen Yingzhe

Inventor after: Ren Zifei

Inventor after: Wang Jun

Inventor after: Liu Chuan

Inventor after: Wang Ruoxi

Inventor after: Hu Zhiyong

Inventor after: Ye Zhiwei

Inventor after: Hu Jixiong

Inventor after: Xu Ping

Inventor after: Tan Min

Inventor after: Chen Hongwei

Inventor before: Wang Chunzhi

Inventor before: Chen Yingzhe

Inventor before: Ren Zifei

Inventor before: Wang Jun

Inventor before: Liu Chuan

Inventor before: Ye Zhiwei

Inventor before: Hu Jixiong

Inventor before: Chen Hongwei

Inventor before: Liu Wei

Inventor before: Zong Xinlu

Inventor before: Su Jun

Inventor before: Yan Lingyu

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180327

Address after: 430000 Eru, Wuhan, Hongshan, Hubei, No. 28

Applicant after: Hubei Industry University

Applicant after: WUHAN FIBERHOME TECHNICAL SERVICES CO., LTD.

Address before: 430000 Eru, Wuhan, Hongshan, Hubei, No. 28

Applicant before: Hubei Industry University

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171215