CN106991442A - 混合蛙跳算法的自适应核k‑means方法与系统 - Google Patents

混合蛙跳算法的自适应核k‑means方法与系统 Download PDF

Info

Publication number
CN106991442A
CN106991442A CN201710201837.6A CN201710201837A CN106991442A CN 106991442 A CN106991442 A CN 106991442A CN 201710201837 A CN201710201837 A CN 201710201837A CN 106991442 A CN106991442 A CN 106991442A
Authority
CN
China
Prior art keywords
frog
cluster
class
subgroup
leaping algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710201837.6A
Other languages
English (en)
Inventor
丁世飞
樊淑炎
王小玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN201710201837.6A priority Critical patent/CN106991442A/zh
Publication of CN106991442A publication Critical patent/CN106991442A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明是一种混合蛙跳算法的自适应核k‑means方法与系统,涉及数据挖掘和聚类分析领域,特别涉及一种混合蛙跳算法的自适应核k‑means方法与系统。所要解决的问题是利用混合蛙跳算法优化核参数和聚类数,最后利用核k‑means得到有效的聚类结果。本发明包括以下步骤:首先导入数据,初始化青蛙种群。使用核k‑means进行聚类计算KBWP,将KBWP看作混合蛙跳算法的适应度。然后进行局部搜索及全局搜索,同时优化最差适应度的青蛙信息。最后当全局最优青蛙的适应度的相对改变小于预定义的值或迭代次数达到预定义的值,优化结束,输出聚类结果。基于混合蛙跳算法的自适应核k‑means能够根据数据集的内在结构能自动确定聚类数目和合适的核参数,最后得到有效的聚类结果。

Description

混合蛙跳算法的自适应核k-means方法与系统
技术领域
本发明提出一种自适应核k-means方法,设计了适用于核空间的有效性指标,将k-means方法中的聚类数和核参数作为青蛙的位置信息,将有效性指标作为适应度,利用混合蛙跳算法进行局部和全局优化,找到青蛙的最优位置,无需人为设定参数,自适应地得到有效的聚类结果。
背景技术
作为数据挖掘的重要研究课题,聚类分析是识别数据内在结构的重要方法。聚类的目标是满足属于同一类的数据具有较高的相似度,而属于不同类的数据具有较低的相似度。k-means聚类算法是使用最广泛的聚类算法之一。该算法介意在较短的时间内处理大量的数据集且有较好的结果。但是它只能处理呈超球形分布的数据集,对于具有复杂结构的数不能得到合理的结果。
最近几年,为了处理输入空间中呈非线性分布的数据集,提出了基于核的聚类方法。通过将输入空间的数据间接映射到高维特征空间,核聚类方法能够发现输入空间中非线性可分的簇。特征空间中计算线性划分的结果等价于输入空间中非线性划分的结果。实验结果表明核聚类方法通常优于对应的经典聚类算法。在所有的基于核聚类的算法中,核k-means由于其简洁性及高效性引起了广大学者的关注。
在核k-means中,核矩阵的结构是影响算法结果的关键因素。核参数很大程度上会影响聚类算法的泛化能力和学习能力,所以选择一个合适的核参数使得核空间的数据线性可分是非常重要的。此外,核k-means需要先验知识,比如聚类数。实际中,缺乏丰富的聚类分析经验的用户,很难准确地设定数据集的聚类数目,这限制了聚类算法的应用。为了处理这些问题,提出一种混合蛙跳算法的自适应核k-means方法与系统。
倒立摆控制系统是一个不稳定、复杂的、非线性系统,是检验控制理论和方法的理想模型和进行控制理论教学及开展各种控制实验的理想实验平台。对倒立摆系统的研究能有效的反映控制中的许多典型问题如非线性问题、鲁棒性问题、镇定问题、随动问题以及跟踪问题等。对倒立摆的控制通常用来检验新的控制方法是否有较强的处理非线性和不稳定性问题的能力。同时,倒立摆的控制方法在军工、航天、机器人和一般工业过程领域中都有着广泛的用途。目前,国内外对于倒立摆系统的研究主要是采用倒立摆系统的数学模型,使用更为先进的控制算法对倒立摆进行控制,检验算法的有效性,对算法进行理论验证,并作为实验教学平台进行使用。
发明内容
本发明的目的是设计一种自适应的核k-means方法,对于不同结构的数据集,自动确定核参数和聚类数目,最终得到有效的聚类结果。
为了实现上述目的,本发明采用以下技术方案:
设计了有效性指标核类间类内比KBWP,将KBWP看作适应度函数,利用混合蛙跳算法进行优化得到最佳核参数和聚类数,最后得到核k-means聚类的结果。
具体的步骤如下:
步骤1:导入数据集,随机初始化青蛙种群Xi,i=1,2,...,F,青蛙的位置信息表示优化参数;
步骤2:随机选取k个初始聚类中心,将其他数据点划分到距离其最近的聚类中心所属的类,得到k个初始类{c1,c2,…,ck};
步骤3:根据计算得到新的聚类中心,更新每个类Φ是映射函数;
步骤4:重复步骤3,直到每个类不再发生改变,一次核k-means方法结束;
步骤5:根据计算类内距离,表示第i个类中第q个数据点且q≠j,表示第i个类中第j个数据点,ni表示第i个类中的数据点个数,w(i,j)表示第i个类中第j个数据点的类内距离;
步骤6:根据计算类间距离,c和j表示聚类标签,表示第c类中的第p个数据点,nk表示第k个类中的数据点个数,b(i,j)表示第i个类中第j个数据点的最小类间距离;
步骤7:根据计算KBWP指标值,根据计算AVG_KBWP;
步骤8:基于KBWP的值,所有青蛙进行降序排序,被划分成m个子群,每个子群包含p只青蛙,F=m×p,其中,第一只青蛙进入第一个子群,第二只青蛙进入第二个子群,第m只进入第m个子群,第m+1只进入第一个子群;
步骤9:在每个子群内,确定Xw,Xb和Xg。Xw和Xb分别代表最坏和最好位置的青蛙,具有全局最优适应度的青蛙被定义为Xg
步骤10:按照跳跃规则进行子群进化,最坏的青蛙Xw跳向最好的青蛙Xb;如果跳跃产生更优的解,代替最坏的青蛙;否则,最坏的青蛙被删除,按照约束条件S=rand(Xg-Xw)随机产生新的青蛙来代替它;
步骤11:局部搜索达到预定义的迭代次数后,将所有青蛙按照适应度值进行降序排序,记录具有全局最优适应度的青蛙Xg,按照步骤2重新划分子群,并进行局部优化;
步骤12:当全局最优青蛙的适应度的相对改变小于预定义的值或迭代次数达到预定义的值,优化聚类数和核参数结束,输出聚类结果。
本发明具有如下优点及效果:
(1)本文方法不仅能自动确定最佳聚类数,而且能根据不同的数据集得到不同的核参数。
(2)本方法可以处理非线性分离的数据集及具有不同结构的数据集。
(3)利用混合蛙跳算法进行局部和全局优化,结合了粒子群优化的局部搜索技巧和混合复杂进化的信息混合技巧,收敛速度更快。
附图说明
图1青蛙跳跃规则。
图2混合蛙跳算法局部搜索流程图。
图3混合蛙跳算法的自适应核k-means方法与系统流程图。
具体实施方式
实施例1:利用混合蛙跳算法实现自适应核k-means方法。首先,设计了适用于核空间的有效性指标KBWP,根据数据集的内在结构计算出KBWP。然后将KBWP作为适应度,将核参数和聚类数作为青蛙的位置信息,利用混合蛙跳算法优化得到青蛙的最优位置,最后进行核k-means聚类。
本发明的目的是利用混合蛙跳算法优化参数得到有效的聚类结果,无需人工介入,实施过程如下:
步骤1:导入数据集,随机初始化青蛙种群Xi,i=1,2,...,F,青蛙的位置信息表示优化参数,使用核k-means进行聚类并计算KBWP;
步骤2:随机选取k个初始聚类中心,将其他数据点划分到距离其最近的聚类中心所属的类,得到k个初始类{c1,c2,…,ck};
步骤3:根据计算得到新的聚类中心,更新每个类ci=(x∈D|i=argminj1,2,...,k||Φ(x)-mj||),Φ是映射函数;
步骤4:重复步骤3,直到每个类不再发生改变,一次核k-means方法结束;
步骤5:根据计算类内距离,表示第i个类中第q个数据点且q≠j,表示第i个类中第j个数据点,ni表示第i个类中的数据点个数,w(i,j)表示第i个类中第j个数据点的类内距离;
步骤6:根据计算类间距离,c和j表示聚类标签,表示第c类中的第p个数据点,nk表示第k个类中的数据点个数,b(i,j)表示第i个类中第j个数据点的最小类间距离;
步骤7:根据计算KBWP指标值,根据计算AVG_KBWP;
步骤8:基于KBWP的值,所有青蛙进行降序排序,被划分成m个子群,每个子群包含p只青蛙,F=m×p,其中,第一只青蛙进入第一个子群,第二只青蛙进入第二个子群,第m只进入第m个子群,第m+1只进入第一个子群;
步骤9:在每个子群内,确定Xw,Xb和Xg。Xw和Xb分别代表最坏和最好位置的青蛙,具有全局最优适应度的青蛙被定义为Xg
步骤10:按照跳跃规则进行子群进化,最坏的青蛙Xw跳向最好的青蛙Xb;如果跳跃产生更优的解,代替最坏的青蛙;否则,最坏的青蛙被删除,按照约束条件S=rand(Xg-Xw)随机产生新的青蛙来代替它;
步骤11:局部搜索达到预定义的迭代次数后,将所有青蛙按照适应度值进行降序排序,记录具有全局最优适应度的青蛙Xg,按照步骤2重新划分子群,并进行局部优化;
步骤12:当全局最优青蛙的适应度的相对改变小于预定义的值或迭代次数达到预定义的值,优化聚类数和核参数结束,输出聚类结果。

Claims (5)

1.混合蛙跳算法的自适应核k-means方法与系统,其特征是:根据数据的结构特征,设计了一种适用于核空间的聚类有效性指标KBWP(Kernel Between-Within Proportion),将该指标作为适应度,利用混合蛙跳算法同时优化聚类数和核参数,聚类过程中无需人工介入,最终得到适于当前数据的聚类结果,该方法具体如下:
步骤1:导入数据集,随机初始化青蛙种群Xi,i=1,2,...,F,青蛙的位置信息表示优化参数,使用核k-means进行聚类并计算KBWP;
步骤2:随机选取k个初始聚类中心,将其他数据点划分到距离其最近的聚类中心所属的类,得到k个初始类{c1,c2,…,ck};
步骤3:根据计算得到新的聚类中心,更新每个类ci=(x∈D|i=argminj=1,2,...,k||Φ(x)-mj||),Φ是映射函数;
步骤4:重复步骤3,直到每个类不再发生改变,一次核k-means方法结束;
步骤5:根据计算类内距离,表示第i个类中第q个数据点且q≠j,表示第i个类中第j个数据点,ni表示第i个类中的数据点个数,w(i,j)表示第i个类中第j个数据点的类内距离;
步骤6:根据计算类间距离,c和j表示聚类标签,表示第c类中的第p个数据点,nk表示第k个类中的数据点个数,b(i,j)表示第i个类中第j个数据点的最小类间距离;
步骤7:根据计算KBWP指标值,根据
计算AVG_KBWP;
步骤8:基于KBWP的值,所有青蛙进行降序排序,被划分成m个子群,每个子群包含p只青蛙,F=m×p,其中,第一只青蛙进入第一个子群,第二只青蛙进入第二个子群,第m只进入第m个子群,第m+1只进入第一个子群;
步骤9:在每个子群内,确定Xw,Xb和Xg。Xw和Xb分别代表最坏和最好位置的青蛙,具有全局最优适应度的青蛙被定义为Xg
步骤10:按照跳跃规则进行子群进化,最坏的青蛙Xw跳向最好的青蛙Xb;如果跳跃产生更优的解,代替最坏的青蛙;否则,最坏的青蛙被删除,按照约束条件S=rand(Xg-Xw)随机产生新的青蛙来代替它;
步骤11:局部搜索达到预定义的迭代次数后,将所有青蛙按照适应度值进行降序排序,记录具有全局最优适应度的青蛙Xg,按照步骤2重新划分子群,并进行局部优化;
步骤12:当全局最优青蛙的适应度的相对改变小于预定义的值或迭代次数达到预定义的值,优化聚类数和核参数结束,输出聚类结果。
2.根据权利要求1所述的混合蛙跳算法的自适应核k-means方法与系统,其特征在于:SFLA结合了两个搜索方法的技巧,粒子群优化的局部搜索技巧和混合复杂进化的信息混合技巧,这种组合的策略能使混合蛙跳算法搜索到次优的解,避免局部最值,利用混合蛙跳算法优化核k-means,不仅节省时间,且聚类效果结果较佳。
3.根据权利要求1所述的混合蛙跳算法的自适应核k-means方法与系统,其特征在于:混合蛙跳算法中包含五个参数,种群大小F,子群数量m,子群内更新次数N,种群进化最大次数G,最大移动步数Dmax;经过实践确定F=600,m=20,N=25,G=200,Dmax通常在5和10之间。
4.根据权利要求1所述的混合蛙跳算法的自适应核k-means方法与系统,其特征在于:在步骤3中,Φ(x)是非线性转换,核函数通过Φ(x)可将n维空间中的任意随机向量X映射到高维空间,核函数可以表示为κ(xi,xj)=<Φ(xi),Φ(xj)>。
5.根据权利要求1所述的混合蛙跳算法的自适应核k-means方法与系统,其特征在于:该方法是自适应地,不需要为核k-means方法提前设置聚类数和核参数,而是根据不同数据的结构特征自适应地得到合适的参数,不仅可以处理具有不同结构的数据集聚类问题,还可以得到较好的效果。
CN201710201837.6A 2017-03-30 2017-03-30 混合蛙跳算法的自适应核k‑means方法与系统 Pending CN106991442A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710201837.6A CN106991442A (zh) 2017-03-30 2017-03-30 混合蛙跳算法的自适应核k‑means方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710201837.6A CN106991442A (zh) 2017-03-30 2017-03-30 混合蛙跳算法的自适应核k‑means方法与系统

Publications (1)

Publication Number Publication Date
CN106991442A true CN106991442A (zh) 2017-07-28

Family

ID=59411975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710201837.6A Pending CN106991442A (zh) 2017-03-30 2017-03-30 混合蛙跳算法的自适应核k‑means方法与系统

Country Status (1)

Country Link
CN (1) CN106991442A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107895066A (zh) * 2017-10-26 2018-04-10 西北工业大学 一种基于改进混合蛙跳算法的四旋翼无人机参数辨识方法
CN109063779A (zh) * 2018-08-09 2018-12-21 河海大学常州校区 一种云制造资源集群k-means聚类方法
CN109214465A (zh) * 2018-10-09 2019-01-15 辽宁工程技术大学 基于重要抽样的流数据聚类方法
CN109687440A (zh) * 2018-12-26 2019-04-26 广东电网有限责任公司 一种放松管制环境下分布式发电投资及配网规划优化方法
CN110930412A (zh) * 2019-11-29 2020-03-27 南通大学 一种用于眼底血管图像聚类分割的近似骨架蛙群编号方法
CN112000333A (zh) * 2020-07-15 2020-11-27 南京航空航天大学 基于飞行员功能状态的航电界面设计重构方法
CN112185419A (zh) * 2020-09-30 2021-01-05 天津大学 一种基于机器学习的玻璃瓶裂纹检测方法
CN113113927A (zh) * 2021-05-13 2021-07-13 北方工业大学 一种综合多典型天气场景的储能系统容量配置方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107895066A (zh) * 2017-10-26 2018-04-10 西北工业大学 一种基于改进混合蛙跳算法的四旋翼无人机参数辨识方法
CN109063779A (zh) * 2018-08-09 2018-12-21 河海大学常州校区 一种云制造资源集群k-means聚类方法
CN109214465A (zh) * 2018-10-09 2019-01-15 辽宁工程技术大学 基于重要抽样的流数据聚类方法
CN109687440A (zh) * 2018-12-26 2019-04-26 广东电网有限责任公司 一种放松管制环境下分布式发电投资及配网规划优化方法
CN110930412A (zh) * 2019-11-29 2020-03-27 南通大学 一种用于眼底血管图像聚类分割的近似骨架蛙群编号方法
CN110930412B (zh) * 2019-11-29 2022-04-22 南通大学 一种用于眼底血管图像聚类分割的近似骨架蛙群编号方法
CN112000333A (zh) * 2020-07-15 2020-11-27 南京航空航天大学 基于飞行员功能状态的航电界面设计重构方法
CN112185419A (zh) * 2020-09-30 2021-01-05 天津大学 一种基于机器学习的玻璃瓶裂纹检测方法
CN113113927A (zh) * 2021-05-13 2021-07-13 北方工业大学 一种综合多典型天气场景的储能系统容量配置方法

Similar Documents

Publication Publication Date Title
CN106991442A (zh) 混合蛙跳算法的自适应核k‑means方法与系统
CN103942419B (zh) 一种混合智能优化方法
CN110188785A (zh) 一种基于遗传算法的数据聚类分析方法
Zhang et al. Efficient and merged biogeography-based optimization algorithm for global optimization problems
CN114565239B (zh) 用于产业园区的综合低碳能源调度方法及系统
Yao et al. Clustering of typical wind power scenarios based on K-means clustering algorithm and improved artificial bee colony algorithm
Sheng et al. Multilocal search and adaptive niching based memetic algorithm with a consensus criterion for data clustering
CN109840551A (zh) 一种用于机器学习模型训练的优化随机森林参数的方法
Zhang et al. Multi-hive artificial bee colony algorithm for constrained multi-objective optimization
CN114742593A (zh) 一种物流仓储中心优化选址方法及系统
Pigozzi et al. Factors impacting diversity and effectiveness of evolved modular robots
Liu et al. Immunodomaince based clonal selection clustering algorithm
Dai et al. Feature selection of high-dimensional biomedical data using improved SFLA for disease diagnosis
Chauhan et al. Competitive Swarm Optimizer: A decade survey
Cheng et al. Unsupervised deep embedded fusion representation of single-cell transcriptomics
CN108256623A (zh) 基于周期交互机制和知识板协同机制的多种群微粒群算法
CN104732522A (zh) 一种基于多态蚁群算法的图像分割方法
CN107273842A (zh) 基于csjoga算法的选择性集成人脸识别方法
CN108614889B (zh) 基于混合高斯模型的移动对象连续k近邻查询方法及系统
CN107065520A (zh) 一种冷风机参数配置优化方法
CN111883208B (zh) 一种基因序列优化方法、装置、设备及介质
CN108573264A (zh) 一种基于新型蜂群聚类算法的家居行业潜在客户识别方法
Yan et al. A data clustering algorithm based on mussels wandering optimization
Feng et al. Bean optimization algorithm based on negative binomial distribution
Atasever et al. The use of artificial intelligence optimization algorithms in unsupervised classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170728

WD01 Invention patent application deemed withdrawn after publication