CN112381157A

CN112381157A - 一种基于樽海鞘群算法优化的模糊c均值聚类方法

Info

Publication number: CN112381157A
Application number: CN202011294923.4A
Authority: CN
Inventors: 严忠贞; 江元璋; 周可薇; 张军; 张俊杰; 严赛男; 朱信远; 陈豪
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2021-02-19

Abstract

本发明公开一种基于樽海鞘群算法优化的模糊C均值聚类方法，该方法包括：初始化该优化算法参数，预处理待聚类的数据集；构建目标函数，即对可行解的评价函数；对目标函数进行最优值求解，得到最优值并确定对应的最优初始聚类中心；根据最优初始聚类中心进行模糊C均值聚类，最终得到聚类结果。采用本发明方法或系统对模糊C均值聚类进行基于樽海鞘群算法的初始聚类中心优化，解决了模糊聚类效果极易受随机初始聚类中心的影响。

Description

一种基于樽海鞘群算法优化的模糊C均值聚类方法

技术领域

本发明涉及聚类方法领域，特别是涉及一种基于樽海鞘群算法优化的模糊C均值聚类方法。

背景技术

模糊C均值(FCM)是一种基于无监督学习机制的常用聚类方法，该聚类函数利用聚类中心(距离)计算函数和FCM目标函数。FCM的主要步骤是迭代过程，它更新隶属函数值和中心位置及其值。在FCM中，高隶属度值表示更靠近该类中心，低隶属度值表示距该类中心较远。FCM对初始聚类中心极其敏感，聚类数目、数据集特征和模糊指数m等因素都对聚类效果影响很大，不同的初始聚类中心即可能导致不同的聚类结构，该聚类算法易受初始聚类中心影响而陷入局部最优，初始聚类中心的选取是问题所在。

解决聚类算法中初始聚类中心选取的问题的方法主要有传统的数学逻辑方法和智能计算算法两大类，传统的方法由于自身逻辑复杂或者难以保证有效形成更优的初始聚类中心，导致其在面对聚类算法初始类中心选取这类非线性优化问题时求解难度较高。传统的粒子群算法在面对高维度、大规模、多约束的初始聚类中心选取问题容易陷入局部最优解而不能保证全局收敛。

发明内容

本发明的目的是提供一种基于樽海鞘群算法优化的模糊C均值聚类方法，对模糊C均值聚类进行基于樽海鞘群算法的初始聚类中心优化，解决了模糊聚类结果极易受初始聚类中心的选取的影响而陷入局部最优的问题。

为实现上述目的，本发明提供了如下方案：

一种基于樽海鞘群算法优化的模糊C均值聚类方法，包括：

根据该优化算法的特征初始化所需参数，预处理待聚类的若干数据集；

根据数据集描述设置待聚类数据集的聚类数目；

根据樽海鞘群优化算法对初始聚类中心的编码，并使用对其评价作为目标函数；

根据樽海鞘群算法结合所述模糊聚类初始聚类中心对所述目标函数进行最优值求解，得到最优值；

根据所述最优值确定对应的最优初始聚类中心；

根据所述最优初始聚类中心作为模糊C均值聚类的初始化聚类中心，并继续进行后续步骤；

根据所述初始聚类中心确定方法解决了模糊聚类极易受初始点影响的问题。

可选的，所述目标函数具体为：

其中u_i,j是x_j属于类别c_i的隶属度，c_i是类i的聚类中心，|| ||_norm表示归一化数据的欧氏距离。

可选的，所述根据所述樽海鞘群优化算法结合的初始聚类中心编码的方式具体为：根据待聚类数据集的已知聚类数目C和待聚类数据集的属性数目，也即是数据维度dim确定所述聚类中心在优化算法中编码应为C×dim维的向量，编码方式具体可表示为C＝c_1,1,c_1,2,...c_1,d,c_2,1,c_2,2...c_i,j...c_c,dim，其中c_i,j,i∈(1,2,...C),j∈(1,2,...dim)代表第i类中心的第j维的数据值。

可选的，所述根据樽海鞘群算法结合所述模糊聚类初始聚类中心对所述目标函数进行最优值求解，得到最优值具体包括：

步骤1：随机初始化樽海鞘群算法的参数:樽海鞘群数量，迭代次数，以及维度，樽海鞘个体的位置以及参数的上下界；

步骤2：计算所述樽海鞘群种群中所述的樽海鞘群个体的适应度值；所述适应度值表示所述樽海鞘群种群中所述樽海鞘群的优劣；

步骤3：按照适应度大小，将适应度值最大的樽海鞘设置为领导者，其余的樽海鞘设置为跟随者，不同的角色的位置更新公式不同；

步骤4：更新樽海鞘群中个体的位置；

步骤5：判断终止条件，是否达到迭代次数或者适应度值不在提高。输出作为领导者的樽海鞘的位置，即为最佳的初始聚类中心。

所述目标函数遵循的约束条件为：根据公式

保证每一待聚类目标对应所有类别的隶属度之和为1；其中u_i,j是x_j属于类别c_i的隶属度，c_i是类i的聚类中心；初始聚类中心根据公式

计算其对应的隶属度矩阵，隶属度矩阵根据公式

计算出新的聚类中心，即跳转到上一步计算隶属度矩阵的过程，循环往复，直到达到循环终止条件

其中0＜ε＜1是迭代终止参数，k代表迭代代数。

所述步骤4中包括如下步骤：

步骤4.1:按照公式更新作为领导者的樽海鞘的位置，具体公式如下：

其中，

表示为第一个樽海鞘(领导者)在第j个维度上的位置，F_j表示为在第j个维度上的食物源，即表示为第j个维度上的当前最优解，ub_j表示第j个维度上的樽海鞘个体的位置上限，lb_j表示为第j个维度上樽海鞘个体的下限，通过上限和下限控制每个维度上的搜索范围；c₁，c₂，c₃随机数，其中c₂和c₃表示为0到1的随机数；

步骤4.2:在更新作为领导者的樽海鞘的位置时，其中最重要的一个参数是c₁，它平衡了樽海鞘算法的全局搜索和局部搜索能力，具体的公式如下：

其中，l表示为一个当前的迭代次数，L表示为总的迭代次数；

步骤5.3：更新作为跟随者的樽海鞘的位置，具体的更新公式如下：

其中，i≥2，

表示第i个作为跟随者的樽海鞘的位置。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明中通过运用樽海鞘群优化算法迭代更新产生较优的初始聚类中心，进而实现了对模糊C均值聚类极易受随机初始类中心影响而陷入局部最优的问题的解决。采用樽海鞘群算法进行初始聚类中心选取能够进行全局搜索，不易陷入局部最优。但又未舍弃局部寻优，局部和全局两者兼顾，参数少，原理简单，易于实现，通用性强。相较于遗传算法、蝙蝠算法、引力搜索算法、粒子群算法等，在寻找全局最优和避免局部最优以及收敛速度上都有一定的优势。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1：本发明的具体的实施方式流程图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例优化的模糊C均值聚类方法流程图。参见图1，一种基于樽海鞘群算法优化的模糊C均值聚类方法，包括：

根据该优化算法的特征初始化所需参数，预处理待聚类的若干数据集；根据数据集描述设置各待聚类数据集的聚类数目；

根据所述最优值确定对应的最优初始聚类中心；

根据所述最优初始聚类中心作为模糊C均值聚类的初始化聚类中心，并继续进行后续步骤以达到解决模糊聚类极易受初始点影响的问题的目标；

采用上述方法对模糊聚类初始聚类中心进行优化，能够实现全局搜索，不易陷入局部最优。但又未舍弃局部寻优，局部和全局两者兼顾，参数少，原理简单，易于实现，通用性强。

其中，步骤3中的目标函数具体为：目标函数具体为：

其中其中u_i,j是x_j属于类别c_i的隶属度，c_i是类i的聚类中心，|| ||_norm表示归一化数据的欧氏距离。

步骤3具体包括：根据所述樽海鞘群优化算法结合的初始聚类中心编码的方式具体为：根据待聚类数据集的已知聚类数目C和待聚类数据集的属性数目，也即是数据维度dim，确定所述聚类中心在优化算法中编码应为C×dim维的向量，编码方式具体可表示为Cluster＝c_1,1,c_1,2,...c_1,d,c_2,1,c_2,2...c_i,j...c_c,d，其中c_i,j,i∈(1,2,...C),j∈(1,2,...dim)代表第i类中心的第j维的数据值。

步骤4具体包括：

随机初始化樽海鞘群算法的参数:樽海鞘群数量，迭代次数以及维度，樽海鞘个体的位置以及参数的上下界；

计算所述樽海鞘群种群中所述的樽海鞘群个体的适应度值；所述适应度值表示所述樽海鞘群种群中所述樽海鞘群的优劣；

按照适应度大小，将适应度值最大的樽海鞘设置为领导者，其余的樽海鞘设置为跟随者，不同的角色的位置更新公式不同；

更新樽海鞘群中个体的位置；

判断终止条件，是否达到迭代次数或者适应度值不在提高。输出作为领导者的樽海鞘的位置，即为最佳的初始聚类中心。

本发明中采用樽海鞘群算法进行求解，具体樽海鞘群算法如下：

Step1初始化：设置樽海鞘种群的总数为N，捕食空间的维度为D。

表示第t个种群中第i个樽海鞘的位置，

当t＝0时，即初始时刻，在解空间内随机生成N个解

其具体的生成公式为

其中j∈{1,2,...,D-1,D}，minx^j，maxx^j分别表示搜索空间第j维分量的最大值与最小值。种群中，领导者每一维的状态为

追随者每一维的状态为

其中d∈{1,2,...,D-1,D}，D表示领导者的维数，m＝2,3,...N表示追随者的序号。

针对模糊聚类初始聚类中心的特点，设定好樽海鞘群算法的原始参数，并且根据约束条件对各个樽海鞘的初始位置进行设定。在此设定中，我们选取所述樽海鞘群优化算法结合的初始聚类中心作为个体变量，所述聚类中心在优化算法中编码应为C×dim维的向量，其具体编码表示方式为Cluster＝c_1,1,c_1,2,...c_1,d,c_2,1,c_2,2...c_i,j...c_c,d，即将C个类中心整合编码成一个樽海鞘群个体的位置编码。

Step2按照公式更新作为领导者的樽海鞘的位置，具体公式如下：

其中，

Step3在更新作为领导者的樽海鞘的位置时，其中最重要的一个参数是c₁，它平衡了樽海鞘算法的全局搜索和局部搜索能力，具体的公式如下：

其中，l表示为一个当前的迭代次数，L表示为总的迭代次数。

Step4更新作为跟随者的樽海鞘的位置，具体的更新公式如下：

其中，i≥2，

表示第i个作为跟随者的樽海鞘的位置。

Step5记录当前所得到的最优的个体的位置:

若未达到最大迭代代数maxIteration或小于优化误差则跳转至步骤(2)，否则将当前最优个体的位置作为结果输出。输出的结果就是的最终结果。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于樽海鞘群算法优化的模糊C均值聚类方法，其特征在于，该方法通过模拟樽海鞘群捕食猎物来寻找无监督学习的模糊聚类的最优类中心，包括如下步骤：

根据数据集描述设置待聚类数据集的聚类数目；

根据所述最优值确定对应的最优初始聚类中心；

2.根据权利要求1所述的方法，其特征在于，所述目标函数具体为

3.根据权利要求1所述的方法，其特征在于，樽海鞘群优化算法结合的初始聚类中心编码的方式具体为：根据待聚类数据集的已知聚类数目C和待聚类数据集的属性数目，也即是数据维度dim确定所述聚类中心在优化算法中编码应为C×dim维的向量，编码方式具体可表示为Cluster＝c_1,1,c_1,2,...c_1,d,c_2,1,c_2,2...c_i,j...c_c,dim，其中c_i,j,i∈(1,2,...C),j∈(1,2,...dim)代表第i类中心的第j维的数据值。

4.根据权利要求1所述的方法，其特征在于，所述根据樽海鞘群算法结合所述模糊聚类初始聚类中心对所述目标函数进行最优值求解，得到最优值具体包括：

步骤4：更新樽海鞘群中个体的位置；

步骤5：判断终止条件，是否达到迭代次数或者适应度值不在提高，输出作为领导者的樽海鞘的位置，即为最佳的初始聚类中心。

5.根据权利要求1所述的方法，其特征在于，所述目标函数遵循的约束条件为：根据公式