CN109308496A

CN109308496A - 一种基于模糊聚类迭代与投影寻踪的最优方案遴选方法

Info

Publication number: CN109308496A
Application number: CN201811184450.5A
Authority: CN
Inventors: 赵嘉; 付雪峰; 谭德坤; 栾辉; 汪佳佳; 樊棠怀
Original assignee: Nanchang Institute of Technology
Current assignee: Nanchang Institute of Technology
Priority date: 2018-10-11
Filing date: 2018-10-11
Publication date: 2019-02-05

Abstract

本发明公开了数据聚类挖掘技术领域的一种基于模糊聚类迭代与投影寻踪的最优方案遴选方法，该方法的具体步骤如下：S1：针对样本集中的每个个体进行适度评判，寻找最优对象；S2：对两个空间平行进化；S3：将主体群空间和信念空间互补融合后，若进化指数达到设定值的整倍数时，则进行接收操作和影响操作；S4：当运算终止条件达到时，停止运算，否则迭代次数加1，继续运算；S5：按照样本件距离最短遴选出最优的方案输出，本发明能够避开密度窗宽的选择问题，所有参数在运算过程中智能设定，通过投影寻踪聚类和模糊聚类迭代保证了其聚类效果，针对聚类中心和投影方向进行了寻优，提高了数据关键向量的优化速度以及最优方案的遴选时间。

Description

一种基于模糊聚类迭代与投影寻踪的最优方案遴选方法

技术领域

本发明公开了一种基于模糊聚类迭代与投影寻踪的最优方案遴选方法，具体为数据聚类挖掘技术领域。

背景技术

聚类是数据挖掘中一个必不可少的子领域。聚类算法的目的是将一个样本集中的每一类相似的样本分别汇聚为各个类簇，类簇可以描述为一个包含密度相对较高的点集的多维空间中的连通区域，他们借助包含密度相对低的点集的区域与其他区域相分离。对于聚类算法来说，要求想同类内样本相似性尽可能大，不同类别间相似性尽可能小，一般也采用根据样本间距离来描述的类内密度和类间距离两个参数对聚类效果进行评判，即类别内样本密度越大越好，而类别间隔越远越好。目前聚类算法已广泛应用于图像分割、数据挖掘及统计科学中。投影寻踪聚类和模糊聚类迭代是目前应用广泛的两种聚类算法，其策略均为挖掘样本集内在分布规律，从而对关键向量进行优化，使得聚类评价结果满足函数最优化的要求，聚类效果良好。

但是传统的投影寻踪聚类用投影值标准差来表征类间密度，投影点在每个窗中的分布情况来表征类内密度，密度窗宽为唯一需设定的参数，并且其取值是否合理直接关系到聚类结果的有效性，目前用于确定密度窗宽的计算方法均缺乏理论证明，不能验证聚类结果的科学性；而模糊聚类迭代中的待评价样本数量大、指标维数高时，其计算复杂度很高，对样本分散情况的依赖性很高，受预设聚类中心影响很大，易陷入局部收敛。为此，我们提出了一种基于模糊聚类迭代与投影寻踪的最优方案遴选方法投入使用，以解决上述问题。

发明内容

本发明的目的在于提供一种基于模糊聚类迭代与投影寻踪的最优方案遴选方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于模糊聚类迭代与投影寻踪的最优方案遴选方法，该方法的具体步骤如下：

S1：针对样本集中的每个个体进行适度评判，寻找最优对象；

S2：对两个空间平行进化，其中主体群空间进化规则为混沌差分进化算法，信念空间采用基于分段线性混沌映射的混沌搜索进行进化；

S3：将主体群空间和信念空间互补融合后，若进化指数达到设定值的整倍数时，则进行接收操作和影响操作；

S4：当运算终止条件达到时，停止运算，否则迭代次数加1，继续运算；

S5：按照样本件距离最短遴选出最优的方案输出。

优选的，所述步骤S2中，分段线性混沌映射的表达式如下：式中，r为控制参数。

优选的，所述步骤S2中，混沌差分进化算法的具体流程如下：假设有样本集X＝{X₁,X₂,…X_N}^T,每个X_j有M维指标，令X_j＝{x_1j,x_2j,…,x_Mj}，由模糊化理论得出，矩阵X转化成标准指标矩阵R，即R_ij(x_{i max}-x_ij)/(x_{i max}-x_{i min})，式中，x_{i max}、x_{i min}分别是指标i的最大值和最小值，为了得到最优隶属矩阵U和最优聚类中心矩阵S，将聚类目标使样本空间的加权广义欧式距离平方和最小，其目标函数为其中u_hi表示x_i对第h类中的隶属度，ω_i是指标i的权重，r_ij是标准化后的样本j第i项指标的特征值，s_ih在类别h中的聚类中心。

优选的，所述步骤S3中，接收操作的具体流程如下：假设信念空间的大小为M,当进行接收操作时，主体群空间将当前适应度值最高的M个解提供给信念空间，信念空间通过对比适应度值高低，取最优的M个个体替换原空间中适应度值较小个体。

优选的，所述步骤S3中，影响操作的具体流程如下：当运行影响操作时，信念空间选择适应度值最高的0.5M个个体来取代主群体空间中适应度值较低的个体。

优选的，所述步骤S3中，采用投影值标准差作为S(y)表征类间距离，采用样本与聚类中心间的加权广义欧氏距离平方和作为D(y)来表征类内样本密度，该投影值无需选择密度窗宽参数，通过求解最小化投影指标函数值即min{Q_F(a)}来得到最优投影方向向量，即

与现有技术相比，本发明的有益效果是：本发明能够避开密度窗宽的选择问题，所有参数在运算过程中智能设定，通过投影寻踪聚类和模糊聚类迭代保证了其聚类效果，针对聚类中心和投影方向进行了寻优，提高了数据关键向量的优化速度以及最优方案的遴选时间。

附图说明

图1为本发明工作流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种技术方案：一种基于模糊聚类迭代与投影寻踪的最优方案遴选方法，该方法的具体步骤如下：

S5：按照样本件距离最短遴选出最优的方案输出。

其中，所述步骤S2中，分段线性混沌映射的表达式如下：式中，r为控制参数，所述步骤S2中，混沌差分进化算法的具体流程如下：假设有样本集X＝{X₁,X₂,…X_N}^T,每个X_j有M维指标，令X_j＝{x_1j,x_2j,…,x_Mj}，由模糊化理论得出，矩阵X转化成标准指标矩阵R，即R_ij(x_{i max}-x_ij)/(x_{i max}-x_{i min})，式中，x_{i max}、x_{i min}分别是指标i的最大值和最小值，为了得到最优隶属矩阵U和最优聚类中心矩阵S，将聚类目标使样本空间的加权广义欧式距离平方和最小，其目标函数为其中u_hi表示x_i对第h类中的隶属度，ω_i是指标i的权重，r_ij是标准化后的样本j第i项指标的特征值，s_ih在类别h中的聚类中心，所述步骤S3中，接收操作的具体流程如下：假设信念空间的大小为M,当进行接收操作时，主体群空间将当前适应度值最高的M个解提供给信念空间，信念空间通过对比适应度值高低，取最优的M个个体替换原空间中适应度值较小个体，所述步骤S3中，采用投影值标准差作为S(y)表征类间距离，采用样本与聚类中心间的加权广义欧氏距离平方和作为D(y)来表征类内样本密度，该投影值无需选择密度窗宽参数，通过求解最小化投影指标函数值即min{Q_F(a)}来得到最优投影方向向量，即

在进行模糊聚类迭代和投影寻踪的融合时，其具体的流程如下：标准化样本，然后用随机函数对投影方向向量进行初始化处理；对投影值进行计算，然后随机生成投影值聚类中心矩阵；由于高维样本集已被投影为一维投影值，M变为常量1，权重向量也降至一维，因此，ω等于1，s_ih变为s_h，隶属度矩阵可转换为根据计算模糊聚类的适应度，若满足模糊聚类终止条件，则进行投影方向优化；根据计算模糊投影寻踪的适应度，多达到终止条件，则计算其类别特征值，否则，进行投影值计算；将最优隶属度代入计算聚类类别特征值，由类别特征值得到样本所属类别离散值，从而直观得到聚类结果，同时根据类别特征值的大小进行排序，得到最优遴选方案。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于模糊聚类迭代与投影寻踪的最优方案遴选方法，其特征在于：该方法的具体步骤如下：

S5：按照样本件距离最短遴选出最优的方案输出。

2.根据权利要求1所述的一种基于模糊聚类迭代与投影寻踪的最优方案遴选方法，其特征在于：所述步骤S2中，分段线性混沌映射的表达式如下：式中，r为控制参数。

3.根据权利要求1所述的一种基于模糊聚类迭代与投影寻踪的最优方案遴选方法，其特征在于：所述步骤S2中，混沌差分进化算法的具体流程如下：假设有样本集X＝{X₁,X₂,…X_N}^T,每个X_j有M维指标，令X_j＝{x_1j,x_2j,…,x_Mj}，由模糊化理论得出，矩阵X转化成标准指标矩阵R，即R_ij(x_imax-x_ij)/(x_imax-x_imin)，式中，x_imax、x_imin分别是指标i的最大值和最小值，为了得到最优隶属矩阵U和最优聚类中心矩阵S，将聚类目标使样本空间的加权广义欧式距离平方和最小，其目标函数为其中u_hi表示x_i对第h类中的隶属度，ω_i是指标i的权重，r_ij是标准化后的样本j第i项指标的特征值，s_ih在类别h中的聚类中心。

4.根据权利要求1所述的一种基于模糊聚类迭代与投影寻踪的最优方案遴选方法，其特征在于：所述步骤S3中，接收操作的具体流程如下：假设信念空间的大小为M,当进行接收操作时，主体群空间将当前适应度值最高的M个解提供给信念空间，信念空间通过对比适应度值高低，取最优的M个个体替换原空间中适应度值较小个体。

5.根据权利要求1所述的一种基于模糊聚类迭代与投影寻踪的最优方案遴选方法，其特征在于：所述步骤S3中，影响操作的具体流程如下：当运行影响操作时，信念空间选择适应度值最高的0.5M个个体来取代主群体空间中适应度值较低的个体。

6.根据权利要求1所述的一种基于模糊聚类迭代与投影寻踪的最优方案遴选方法，其特征在于：所述步骤S3中，采用投影值标准差作为S(y)表征类间距离，采用样本与聚类中心间的加权广义欧氏距离平方和作为D(y)来表征类内样本密度，该投影值无需选择密度窗宽参数，通过求解最小化投影指标函数值即min{Q_F(a)}来得到最优投影方向向量，即