CN112381157A - 一种基于樽海鞘群算法优化的模糊c均值聚类方法 - Google Patents
一种基于樽海鞘群算法优化的模糊c均值聚类方法 Download PDFInfo
- Publication number
- CN112381157A CN112381157A CN202011294923.4A CN202011294923A CN112381157A CN 112381157 A CN112381157 A CN 112381157A CN 202011294923 A CN202011294923 A CN 202011294923A CN 112381157 A CN112381157 A CN 112381157A
- Authority
- CN
- China
- Prior art keywords
- goblet
- sea squirt
- clustering
- fuzzy
- center
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于樽海鞘群算法优化的模糊C均值聚类方法,该方法包括:初始化该优化算法参数,预处理待聚类的数据集;构建目标函数,即对可行解的评价函数;对目标函数进行最优值求解,得到最优值并确定对应的最优初始聚类中心;根据最优初始聚类中心进行模糊C均值聚类,最终得到聚类结果。采用本发明方法或系统对模糊C均值聚类进行基于樽海鞘群算法的初始聚类中心优化,解决了模糊聚类效果极易受随机初始聚类中心的影响。
Description
技术领域
本发明涉及聚类方法领域,特别是涉及一种基于樽海鞘群算法优化的模糊C均值聚类方法。
背景技术
模糊C均值(FCM)是一种基于无监督学习机制的常用聚类方法,该聚类函数利用聚类中心(距离)计算函数和FCM目标函数。FCM的主要步骤是迭代过程,它更新隶属函数值和中心位置及其值。在FCM中,高隶属度值表示更靠近该类中心,低隶属度值表示距该类中心较远。FCM对初始聚类中心极其敏感,聚类数目、数据集特征和模糊指数m等因素都对聚类效果影响很大,不同的初始聚类中心即可能导致不同的聚类结构,该聚类算法易受初始聚类中心影响而陷入局部最优,初始聚类中心的选取是问题所在。
解决聚类算法中初始聚类中心选取的问题的方法主要有传统的数学逻辑方法和智能计算算法两大类,传统的方法由于自身逻辑复杂或者难以保证有效形成更优的初始聚类中心,导致其在面对聚类算法初始类中心选取这类非线性优化问题时求解难度较高。传统的粒子群算法在面对高维度、大规模、多约束的初始聚类中心选取问题容易陷入局部最优解而不能保证全局收敛。
发明内容
本发明的目的是提供一种基于樽海鞘群算法优化的模糊C均值聚类方法,对模糊C均值聚类进行基于樽海鞘群算法的初始聚类中心优化,解决了模糊聚类结果极易受初始聚类中心的选取的影响而陷入局部最优的问题。
为实现上述目的,本发明提供了如下方案:
一种基于樽海鞘群算法优化的模糊C均值聚类方法,包括:
根据该优化算法的特征初始化所需参数,预处理待聚类的若干数据集;
根据数据集描述设置待聚类数据集的聚类数目;
根据樽海鞘群优化算法对初始聚类中心的编码,并使用对其评价作为目标函数;
根据樽海鞘群算法结合所述模糊聚类初始聚类中心对所述目标函数进行最优值求解,得到最优值;
根据所述最优值确定对应的最优初始聚类中心;
根据所述最优初始聚类中心作为模糊C均值聚类的初始化聚类中心,并继续进行后续步骤;
根据所述初始聚类中心确定方法解决了模糊聚类极易受初始点影响的问题。
可选的,所述根据所述樽海鞘群优化算法结合的初始聚类中心编码的方式具体为:根据待聚类数据集的已知聚类数目C和待聚类数据集的属性数目,也即是数据维度dim确定所述聚类中心在优化算法中编码应为C×dim维的向量,编码方式具体可表示为C=c1,1,c1,2,...c1,d,c2,1,c2,2...ci,j...cc,dim,其中ci,j,i∈(1,2,...C),j∈(1,2,...dim)代表第i类中心的第j维的数据值。
可选的,所述根据樽海鞘群算法结合所述模糊聚类初始聚类中心对所述目标函数进行最优值求解,得到最优值具体包括:
步骤1:随机初始化樽海鞘群算法的参数:樽海鞘群数量,迭代次数,以及维度,樽海鞘个体的位置以及参数的上下界;
步骤2:计算所述樽海鞘群种群中所述的樽海鞘群个体的适应度值;所述适应度值表示所述樽海鞘群种群中所述樽海鞘群的优劣;
步骤3:按照适应度大小,将适应度值最大的樽海鞘设置为领导者,其余的樽海鞘设置为跟随者,不同的角色的位置更新公式不同;
步骤4:更新樽海鞘群中个体的位置;
步骤5:判断终止条件,是否达到迭代次数或者适应度值不在提高。输出作为领导者的樽海鞘的位置,即为最佳的初始聚类中心。
所述目标函数遵循的约束条件为:根据公式保证每一待聚类目标对应所有类别的隶属度之和为1;其中ui,j是xj属于类别ci的隶属度,ci是类i的聚类中心;初始聚类中心根据公式计算其对应的隶属度矩阵,隶属度矩阵根据公式计算出新的聚类中心,即跳转到上一步计算隶属度矩阵的过程,循环往复,直到达到循环终止条件其中0<ε<1是迭代终止参数,k代表迭代代数。
所述步骤4中包括如下步骤:
步骤4.1:按照公式更新作为领导者的樽海鞘的位置,具体公式如下:
其中,表示为第一个樽海鞘(领导者)在第j个维度上的位置,Fj表示为在第j个维度上的食物源,即表示为第j个维度上的当前最优解,ubj表示第j个维度上的樽海鞘个体的位置上限,lbj表示为第j个维度上樽海鞘个体的下限,通过上限和下限控制每个维度上的搜索范围;c1,c2,c3随机数,其中c2和c3表示为0到1的随机数;
步骤4.2:在更新作为领导者的樽海鞘的位置时,其中最重要的一个参数是c1,它平衡了樽海鞘算法的全局搜索和局部搜索能力,具体的公式如下:
其中,l表示为一个当前的迭代次数,L表示为总的迭代次数;
步骤5.3:更新作为跟随者的樽海鞘的位置,具体的更新公式如下:
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明中通过运用樽海鞘群优化算法迭代更新产生较优的初始聚类中心,进而实现了对模糊C均值聚类极易受随机初始类中心影响而陷入局部最优的问题的解决。采用樽海鞘群算法进行初始聚类中心选取能够进行全局搜索,不易陷入局部最优。但又未舍弃局部寻优,局部和全局两者兼顾,参数少,原理简单,易于实现,通用性强。相较于遗传算法、蝙蝠算法、引力搜索算法、粒子群算法等,在寻找全局最优和避免局部最优以及收敛速度上都有一定的优势。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1:本发明的具体的实施方式流程图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于樽海鞘群算法优化的模糊C均值聚类方法,对模糊C均值聚类进行基于樽海鞘群算法的初始聚类中心优化,解决了模糊聚类结果极易受初始聚类中心的选取的影响而陷入局部最优的问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例优化的模糊C均值聚类方法流程图。参见图1,一种基于樽海鞘群算法优化的模糊C均值聚类方法,包括:
根据该优化算法的特征初始化所需参数,预处理待聚类的若干数据集;根据数据集描述设置各待聚类数据集的聚类数目;
根据樽海鞘群优化算法对初始聚类中心的编码,并使用对其评价作为目标函数;
根据樽海鞘群算法结合所述模糊聚类初始聚类中心对所述目标函数进行最优值求解,得到最优值;
根据所述最优值确定对应的最优初始聚类中心;
根据所述最优初始聚类中心作为模糊C均值聚类的初始化聚类中心,并继续进行后续步骤以达到解决模糊聚类极易受初始点影响的问题的目标;
采用上述方法对模糊聚类初始聚类中心进行优化,能够实现全局搜索,不易陷入局部最优。但又未舍弃局部寻优,局部和全局两者兼顾,参数少,原理简单,易于实现,通用性强。
步骤3具体包括:根据所述樽海鞘群优化算法结合的初始聚类中心编码的方式具体为:根据待聚类数据集的已知聚类数目C和待聚类数据集的属性数目,也即是数据维度dim,确定所述聚类中心在优化算法中编码应为C×dim维的向量,编码方式具体可表示为Cluster=c1,1,c1,2,...c1,d,c2,1,c2,2...ci,j...cc,d,其中ci,j,i∈(1,2,...C),j∈(1,2,...dim)代表第i类中心的第j维的数据值。
步骤4具体包括:
随机初始化樽海鞘群算法的参数:樽海鞘群数量,迭代次数以及维度,樽海鞘个体的位置以及参数的上下界;
计算所述樽海鞘群种群中所述的樽海鞘群个体的适应度值;所述适应度值表示所述樽海鞘群种群中所述樽海鞘群的优劣;
按照适应度大小,将适应度值最大的樽海鞘设置为领导者,其余的樽海鞘设置为跟随者,不同的角色的位置更新公式不同;
更新樽海鞘群中个体的位置;
判断终止条件,是否达到迭代次数或者适应度值不在提高。输出作为领导者的樽海鞘的位置,即为最佳的初始聚类中心。
本发明中采用樽海鞘群算法进行求解,具体樽海鞘群算法如下:
其中j∈{1,2,...,D-1,D},minxj,maxxj分别表示搜索空间第j维分量的最大值与最小值。种群中,领导者每一维的状态为追随者每一维的状态为其中d∈{1,2,...,D-1,D},D表示领导者的维数,m=2,3,...N表示追随者的序号。
针对模糊聚类初始聚类中心的特点,设定好樽海鞘群算法的原始参数,并且根据约束条件对各个樽海鞘的初始位置进行设定。在此设定中,我们选取所述樽海鞘群优化算法结合的初始聚类中心作为个体变量,所述聚类中心在优化算法中编码应为C×dim维的向量,其具体编码表示方式为Cluster=c1,1,c1,2,...c1,d,c2,1,c2,2...ci,j...cc,d,即将C个类中心整合编码成一个樽海鞘群个体的位置编码。
Step2按照公式更新作为领导者的樽海鞘的位置,具体公式如下:
其中,表示为第一个樽海鞘(领导者)在第j个维度上的位置,Fj表示为在第j个维度上的食物源,即表示为第j个维度上的当前最优解,ubj表示第j个维度上的樽海鞘个体的位置上限,lbj表示为第j个维度上樽海鞘个体的下限,通过上限和下限控制每个维度上的搜索范围;c1,c2,c3随机数,其中c2和c3表示为0到1的随机数;
Step3在更新作为领导者的樽海鞘的位置时,其中最重要的一个参数是c1,它平衡了樽海鞘算法的全局搜索和局部搜索能力,具体的公式如下:
其中,l表示为一个当前的迭代次数,L表示为总的迭代次数。
Step4更新作为跟随者的樽海鞘的位置,具体的更新公式如下:
Step5记录当前所得到的最优的个体的位置:
若未达到最大迭代代数maxIteration或小于优化误差则跳转至步骤(2),否则将当前最优个体的位置作为结果输出。输出的结果就是的最终结果。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (6)
1.一种基于樽海鞘群算法优化的模糊C均值聚类方法,其特征在于,该方法通过模拟樽海鞘群捕食猎物来寻找无监督学习的模糊聚类的最优类中心,包括如下步骤:
根据该优化算法的特征初始化所需参数,预处理待聚类的若干数据集;
根据数据集描述设置待聚类数据集的聚类数目;
根据樽海鞘群优化算法对初始聚类中心的编码,并使用对其评价作为目标函数;
根据樽海鞘群算法结合所述模糊聚类初始聚类中心对所述目标函数进行最优值求解,得到最优值;
根据所述最优值确定对应的最优初始聚类中心;
根据所述最优初始聚类中心作为模糊C均值聚类的初始化聚类中心,并继续进行后续步骤;
根据所述初始聚类中心确定方法解决了模糊聚类极易受初始点影响的问题。
3.根据权利要求1所述的方法,其特征在于,樽海鞘群优化算法结合的初始聚类中心编码的方式具体为:根据待聚类数据集的已知聚类数目C和待聚类数据集的属性数目,也即是数据维度dim确定所述聚类中心在优化算法中编码应为C×dim维的向量,编码方式具体可表示为Cluster=c1,1,c1,2,...c1,d,c2,1,c2,2...ci,j...cc,dim,其中ci,j,i∈(1,2,...C),j∈(1,2,...dim)代表第i类中心的第j维的数据值。
4.根据权利要求1所述的方法,其特征在于,所述根据樽海鞘群算法结合所述模糊聚类初始聚类中心对所述目标函数进行最优值求解,得到最优值具体包括:
步骤1:随机初始化樽海鞘群算法的参数:樽海鞘群数量,迭代次数,以及维度,樽海鞘个体的位置以及参数的上下界;
步骤2:计算所述樽海鞘群种群中所述的樽海鞘群个体的适应度值;所述适应度值表示所述樽海鞘群种群中所述樽海鞘群的优劣;
步骤3:按照适应度大小,将适应度值最大的樽海鞘设置为领导者,其余的樽海鞘设置为跟随者,不同的角色的位置更新公式不同;
步骤4:更新樽海鞘群中个体的位置;
步骤5:判断终止条件,是否达到迭代次数或者适应度值不在提高,输出作为领导者的樽海鞘的位置,即为最佳的初始聚类中心。
6.根据权利要求4所述的方法,其特征在于:所述步骤4中包括如下步骤:
步骤4.1:按照公式更新作为领导者的樽海鞘的位置,具体公式如下:
其中,表示为第一个樽海鞘(领导者)在第j个维度上的位置,Fj表示为在第j个维度上的食物源,即表示为第j个维度上的当前最优解,ubj表示第j个维度上的樽海鞘个体的位置上限,lbj表示为第j个维度上樽海鞘个体的下限,通过上限和下限控制每个维度上的搜索范围;c1,c2,c3随机数,其中c2和c3表示为0到1的随机数;
步骤4.2:在更新作为领导者的樽海鞘的位置时,其中最重要的一个参数是c1,它平衡了樽海鞘算法的全局搜索和局部搜索能力,具体的公式如下:
其中,l表示为一个当前的迭代次数,L表示为总的迭代次数;
步骤5.3:更新作为跟随者的樽海鞘的位置,具体的更新公式如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011294923.4A CN112381157A (zh) | 2020-11-18 | 2020-11-18 | 一种基于樽海鞘群算法优化的模糊c均值聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011294923.4A CN112381157A (zh) | 2020-11-18 | 2020-11-18 | 一种基于樽海鞘群算法优化的模糊c均值聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112381157A true CN112381157A (zh) | 2021-02-19 |
Family
ID=74584193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011294923.4A Pending CN112381157A (zh) | 2020-11-18 | 2020-11-18 | 一种基于樽海鞘群算法优化的模糊c均值聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112381157A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113099425A (zh) * | 2021-04-13 | 2021-07-09 | 北京工业大学 | 一种高能效的无人机辅助d2d资源分配方法 |
CN113393035A (zh) * | 2021-06-16 | 2021-09-14 | 东莞理工学院 | 一种电动汽车日充放电功率预测方法 |
CN115952432A (zh) * | 2022-12-21 | 2023-04-11 | 四川大学华西医院 | 一种基于糖尿病数据的无监督聚类方法 |
-
2020
- 2020-11-18 CN CN202011294923.4A patent/CN112381157A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113099425A (zh) * | 2021-04-13 | 2021-07-09 | 北京工业大学 | 一种高能效的无人机辅助d2d资源分配方法 |
CN113099425B (zh) * | 2021-04-13 | 2023-04-07 | 北京工业大学 | 一种高能效的无人机辅助d2d资源分配方法 |
CN113393035A (zh) * | 2021-06-16 | 2021-09-14 | 东莞理工学院 | 一种电动汽车日充放电功率预测方法 |
CN113393035B (zh) * | 2021-06-16 | 2023-09-01 | 东莞理工学院 | 一种电动汽车日充放电功率预测方法 |
CN115952432A (zh) * | 2022-12-21 | 2023-04-11 | 四川大学华西医院 | 一种基于糖尿病数据的无监督聚类方法 |
CN115952432B (zh) * | 2022-12-21 | 2024-03-12 | 四川大学华西医院 | 一种基于糖尿病数据的无监督聚类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112381157A (zh) | 一种基于樽海鞘群算法优化的模糊c均值聚类方法 | |
CN108334949B (zh) | 一种基于优化深度卷积神经网络结构快速进化的图像分类器构建方法 | |
CN110263227B (zh) | 基于图神经网络的团伙发现方法和系统 | |
CN109783682B (zh) | 一种基于点对相似度的深度非松弛哈希图像检索方法 | |
CN109241291A (zh) | 基于深度强化学习的知识图谱最优路径查询系统及其方法 | |
Dong et al. | An Adaptive Multiobjective Genetic Algorithm with Fuzzy c‐Means for Automatic Data Clustering | |
CN113312505A (zh) | 一种基于离散在线哈希学习的跨模态检索方法及系统 | |
Liu et al. | Deep Boltzmann machines aided design based on genetic algorithms | |
CN110033089A (zh) | 基于分布式估计算法的深度神经网络参数优化方法及系统 | |
WO2023124342A1 (zh) | 一种针对图像分类的神经网络结构低成本自动搜索方法 | |
CN116341605A (zh) | 一种基于反向学习策略的灰狼算法混合优化方法 | |
CN112734051A (zh) | 一种针对分类问题的进化集成学习方法 | |
CN115909002A (zh) | 一种基于对比学习的图像翻译方法 | |
CN115272774A (zh) | 基于改进自适应差分进化算法的对抗样本攻击方法及系统 | |
CN111832817A (zh) | 基于mcp罚函数的小世界回声状态网络时间序列预测方法 | |
Zhai et al. | Rectified meta-learning from noisy labels for robust image-based plant disease classification | |
CN114780879A (zh) | 一种用于知识超图的可解释性链接预测方法 | |
CN113239503B (zh) | 基于改进k-means聚类算法的新能源出力场景分析方法及系统 | |
Yao et al. | Hash bit selection with reinforcement learning for image retrieval | |
CN111105077A (zh) | 一种基于变异萤火虫算法的含dg配电网重构方法 | |
CN113179276B (zh) | 基于显式和隐含特征学习的智能入侵检测方法和系统 | |
Zhang et al. | Self-growing binary activation network: A novel deep learning model with dynamic architecture | |
CN113537623A (zh) | 基于注意力机制及多模态的服务需求动态预测方法及系统 | |
CN116015967B (zh) | 基于改进鲸鱼算法优化delm的工业互联网入侵检测方法 | |
Li et al. | Teaching-learning-based optimization enhanced with multiobjective sorting based and cooperative learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210219 |
|
WD01 | Invention patent application deemed withdrawn after publication |