CN109960703A

CN109960703A - 用于大数据挖掘聚类的自适应pso-pfcm聚类方法

Info

Publication number: CN109960703A
Application number: CN201910233570.8A
Authority: CN
Inventors: 曹建蜀; 王晟
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2019-07-02

Abstract

本发明公开了提供的用于大数据挖掘聚类的自适应PSO‑PFCM聚类方法将模块密度计算及其自适应聚类数目用于大数据聚类过程中，使原本需要人为设定聚类数据的大数据聚类方法可以自动的确定最佳聚类数目，使得大数据处理过程中的PSO‑PFCM算法在保留了器优良性能的同时，适应不同的原始数据集的聚类，减少了大量人为工作。

Description

用于大数据挖掘聚类的自适应PSO-PFCM聚类方法

技术领域

本发明属于大数据处理技术领域，具体涉及一种用于大数据挖掘过程中的自适应PSO-PFCM聚类方法。

背景技术

聚类分析(Clustering Analysis,CA)是基于数学方法研究对象，并对给定对象进行划分的无监督的机器学习方法。CA是将目标对象以一定的度量标准划分到所对应的多个簇中，为使簇内存有较好的相似性，而簇间却有明显的相异性。此外，它能够在不需要领域知识的前提下从数据中得到额外的有用信息，并且能够直观而快速的反应数据特征。而传统的模糊聚类算法需要人为设定聚类数目，不同数据集不能自适应判断类别数，使得不同数据集的模糊聚类非常不方便。

发明内容

针对现有技术中的上述不足，本发明提供的用于大数据挖掘聚类的自适应PSO-PFCM聚类方法解决了传统的模糊聚类算法需要人为设定聚类数目，不同数据集的模糊聚类非常不方便的问题。

为了达到上述发明目的，本发明采用的技术方案为：用于大数据挖掘聚类的自适应PSO-PFCM聚类方法，包括以下步骤：

S1、对数据集进行初始化处理，将数据集划分成由若干个体组成的群体；并确定群体中的个体初始最优位置；

S2、通过PFCM算法对个体初始最优位置进行更新，得到群体聚类中心；

S3、根据群体聚类中心p_gd(t+1)进行聚类，确定当前最优聚类结果对应的目标聚类数目；

S4、计算当前最优聚类结果对应的模块密度，并更新最大模块密度；

S5、确定更新后的最大模块密度对应的最优聚类结果，并更新目标聚类数目；

S6、判断更新后的目标聚类数目是否小于1；

若是，则将该目标聚类数目对应的最优聚类结果作为大数据挖掘聚类过程中的聚类结果；

若否，则返回步骤S1。

进一步地，所述步骤S1具体为：

S11、对数据集中的数据样本进行编码，并将编码后的数据样本随机分成若干类；

S12、重复执行步骤S1 N次，产生N个初始候选解，构成初始群体；

其中，每个初始候选解表示群体中的个体初始最优位置p_id(0)。

进一步地，所述步骤S2具体为：

S21、通过PFCM算法对当前个体最优位置p_id(t)进行处理，更新模糊划分矩阵、用户参数、可能性划分矩阵和个体最优位置；

其中，第一次通过PFCM算法对当前个体最优位置p_id(t)进行处理时的当前个体最优位置p_id(t)为个体初始最优位置p_id(0)；

S22、根据更新后的模糊划分矩阵U^t+1、用户参数γ_i和可能性划分矩阵T^t+1确定并更新适应度函数f₀(x)；

其中，第一次更新前的适应度函数f₀(x)中的模糊划分矩阵U^t+1、用户参数γ_i和可能性划分矩阵T^t+1均为随机设置；

S23、将更新后的个体最优位置p_id(t+1)代入到更新后的适应度函数f(x)中，得到使适应度函数f(x)值最大的解，即为更新后的群体的最优位置p_gd(t+1)；

S24、重复步骤S21-步骤S23，并判断迭代次数是否达到设定的迭代阈值t_end或当前群体的最优位置p_gd(t+1)是否为全局最优解；

若是，则进入步骤S25；

若否，则进入步骤S26；

S25、得到当前群体的最优位置p_gd(t+1)即为当前群体聚类中心，并进入步骤S3；

S26、对当前最优个体位置依次进行粒子速度和粒子位置的更新并返回步骤S21。

进一步地，所述步骤S22中的第一次更新前的适应度函数f₀(x)为：

其中，

式中，X为数据集合，X＝{X₁,X₂,...X_n}，且X_k∈X，X_k为任意数据对象，每个数据对象X_k有s个属性，因此，X_k＝{X_k1,X_k2,...,X_ks}；

U为模糊划分矩阵；

T为可能性划分矩阵；

V为在PFCM算法中的最优个体位置；

n为数据集中样本的个数；

i为当前类别标号；

e为编码后的样本分成的类别数；

a和b分别为被赋予u_ik和t_ik被的权重，均为常数值；

m和η为模糊权重，m，m,η∈[1,∞)；

u_ik为隶属度值；

t_ik为可能性值；

γ_i为用户参数。

进一步地，所述步骤S24中，当前群体的最优位置为全局最优解的条件为：当前群体的最优位置p_gd(t+1)对应的适应度函数f(x)的值大于设置的停止阈值ε。

进一步地，所述步骤S26中：

粒子速度的更新公式为：

v_ij(t+1)＝wv_ij(t)+c₁r₁(p_ij(t)-x_ij(t))+c₂r₂(g_ij(t)-x_ij(t))

式中，v_ij(t+1)为第t+1次迭代时个体最优位置对应粒子速度；

w为惯性权重；

c₁和c₂均为加速因子；

r₁和r₂均为分布在区间(0,1)上的随机变量；

p_ij(t)为个体当前最优位置信息；

x_ij(t)为更新后的个体位置信息；

g_ij(t)为群体当前最优位置信息；

粒子位置的更新公式为：

x_ij(t+1)＝x'_ij(t)+v_ij(t+1)

式中，x_ij(t+1)为第t+1次迭代更新时个体对应的粒子位置；

x'_ij(t)为第t次迭代时，经过PFCM算法修正后的个体最优位置。

进一步地，所述步骤S4中：通过模块密度函数计算当前最优聚类结果的模块密度；

其中，模块密度函数为：

式中，为当前最优聚类结果的模块密度；

e为聚类类别数；

c为类别标号；

V_c为数据集中数据样本点构成的无向图G(V,E,A)的顶点集合V；

为顶点集合V_c的补集；

link(V_c,V_c)为社团内部边权重和的度量值；

为社团内样本点和社团外样本点之间的边权重和的度量值。

进一步地，所述无向图G的顶点集合V中数据的类别数e即为当前最优聚类结果的聚类数目e。

进一步地，所述步骤S5中，更新目标聚类数目的方法具体为：每更新一次最大模块密度，则将目标聚类数目在其原值的基础上减1。

本发明的有益效果为：本发明的有益效果为：本发明提供的用于大数据挖掘聚类的自适应PSO-PFCM聚类方法将模块密度计算及其自适应聚类数目用于大数据聚类过程中，使原本需要人为设定聚类数据的大数据聚类方法可以自动的确定最佳聚类数目，使得大数据处理过程中的PSO-PFCM算法在保留了器优良性能的同时，适应不同的原始数据集的聚类，减少了大量人为工作。

附图说明

图1为本发明中用于大数据挖掘聚类的自适应PSO-PFCM聚类方法实现流程图。

图2为本发明中得到当前最优聚类结果方法流程图。

图3为本发明提供的实施例中对Wine数据集进行仿真时的聚类结果图。

图4为本发明提供的实施例中Iris数据集仿真结果。

图5本发明提供的实施例中对Wine数据集在聚类数目为3时的聚类结果。

图6为本发明提供的实施例中Wine数据集真实的数据分布。

图7本发明提供的实施例中对Iris数据集在聚类数目为3时的聚类结果。

图8为本发明提供的实施例中Iris数据集真实的数据分布。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

本发明主要用到了两种聚类思想：

1.模糊聚类：模糊聚类分析是涉及事物之间的模糊界限时按一定要求对事物进行分类的数学方法。事物之间的界限，有些是确切的，有些则是模糊的。例人群中的面貌相像程度之间的界限是模糊的，天气阴、晴之间的界限也是模糊的。当聚类涉及事物之间的模糊界限时，需运用模糊聚类分析方法。但现有模糊聚类算法需要人为设定聚类数目，不同数据集不能自适应判断类别数。

2.基于密度的方法：基于密度的方法与其它方法的一个根本区别是：它不是基于各种各样的距离的，而是基于密度的；这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。

基于上述两种聚类思想本发明提供了如图1所示的用于大数据挖掘聚类的自适应PSO-PFCM聚类方法，包括以下步骤：

S6、判断更新后的目标聚类数目是否小于1；

若否，则返回步骤S1。

上述所述步骤S1具体为：

上述步骤S2具体为：

第一次更新前的适应度函数f₀(x)为：

其中，

U为模糊划分矩阵；

T为可能性划分矩阵；

V为在PFCM算法中的最优个体位置；

n为数据集中样本的个数；

i为当前类别标号；

e为编码后的样本分成的类别数；

a和b分别为被赋予u_ik和t_ik被的权重，均为常数值；

m和η为模糊权重，m，m,η∈[1,∞)；

u_ik为隶属度值；

t_ik为可能性值；

γ_i为用户参数。

其中，第t+1次更新时，模糊划分矩阵用户参数可能性划分矩阵最优个体位置式中，d_ik为第k个数据样本与第i个最优个体位置(聚类中心)v_i之间的欧式距离。

S24、重复步骤S21-步骤S23，并判断迭代次数是否达到设定的迭代阈值t_end或当前群体的最优位置p_gd(t+1)是否为全局最优解，

若是，则进入步骤S25；

若否，则进入步骤S26；

其中，当前群体的最优位置为全局最优解的条件为：当前群体的最优位置p_gd(t+1)对应的适应度函数f(x)的值大于设置的停止阈值ε。

其中，聚类结果为通过计算样本点与聚类中心间的欧式聚类，样本点归属于距离它欧式聚类最小的聚类中心所属类别。

其中，粒子速度的更新公式为：

v_ij(t+1)＝wv_ij(t)+c₁r₁(p_ij(t)-x_ij(t))+c₂r₂(g_ij(t)-x_ij(t))

式中，v_ij(t+1)为第t+1次迭代时个体最优位置对应粒子速度；

w为惯性权重，体现了当代粒子与前一代粒子之间的相互影响关系，一般来说0.4≤w≤0.9；

c₁和c₂均为加速因子，也称为粒子向个体或群体最优方向前进的最大步长，一般c₁＝c₂＝2；

r₁和r₂均为分布在区间(0,1)上的随机变量；

p_ij(t)为个体当前最优位置信息；

x_ij(t)为更新后的个体位置信息；

g_ij(t)为群体当前最优位置信息；

粒子位置的更新公式为：

x_ij(t+1)＝x'_ij(t)+v_ij(t+1)

式中，x_ij(t+1)为第t+1次迭代更新时个体对应的粒子位置；

x'_ij(t)为第t次迭代时，经过PFCM算法修正后的个体最优位置。

上述步骤S4中：通过模块密度函数计算当前最优聚类结果的模块密度；

其中，模块密度函数为：

式中，为当前最优聚类结果的模块密度；

e为聚类类别数；

c为类别标号；

V_c为数据集中数据样本点构成的无向图G(V,E,A)的顶点集合V；

为顶点集合V_c的补集；

link(Vc,Vc)为社团内部边权重和的度量值；

为社团内样本点和社团外样本点之间的边权重和的度量值。

其中，c＝min{H(i,j)}；式中，H(i,j)为两点间欧式距离，a为调控因子，c为两点间欧式距离最小值；

上述所述无向图G的顶点集合V中数据的类别数e即为当前最优聚类结果的聚类数目e；

上述步骤S5中，更新目标聚类数目的方法具体为：每更新一次最大模块密度，则将目标聚类数目在其原值的基础上减1。

在本发明的一个实施例中，提供了通过本发明方法对wine数据集进行聚类的结果：wine数据集作为实验数据集，该实验数据集是对意大利统一第去生产的三种不同品种的酒，做大量分析多得出的数据，这些数据包括了三种酒中的13中不同成分的数据使用wine数据集合iris数据集在MATLAB上对上述算法进行仿真，经过上述算法后，得出最佳聚类数目为3，与数据集实际类别数相同；在图3中，横坐标为聚类数目，纵坐标为模块密度值，由图可以看出，当聚类数目达到最大，该方法在没有人为干预的前提下，找到了正确的聚类数目，达到了该方法的预计目标。

图4表示iris数据集仿真结果，由图4可以看出，Iris数据集在聚类过程中聚类数目为3时，根据聚类结果计算得到的模块密度值取得最大值，则最优聚类数目为3，与Iris数据集真实的类别数相同，验证了算法对于Iris数据集类别数目判断的正确性。

图5、图6分别展示了Wine数据集在聚类数目为3时的聚类结果与Wine数据集真实的数据分布。为了清晰展示聚类效果，图中展示了Wine数据集第一、第十三维数据的分布情况。

图7、图8分别展示了Iris数据集在聚类数目为3时的聚类结果与Iris数据集真实的数据分布。为了清晰展示聚类效果，图中展示了Iris数据集第一、第二、第三维数据的分布情况。

本发明的有益效果为：本发明提供的用于大数据挖掘聚类的自适应PSO-PFCM聚类方法将模块密度计算及其自适应聚类数目用于大数据聚类过程中，使原本需要人为设定聚类数据的大数据聚类方法可以自动的确定最佳聚类数目，使得大数据处理过程中的PSO-PFCM算法在保留了器优良性能的同时，适应不同的原始数据集的聚类，减少了大量人为工作。

Claims

1.用于大数据挖掘聚类的自适应PSO-PFCM聚类方法，其特征在于，包括以下步骤：

S3、根据群体聚类中心进行聚类，确定当前最优聚类结果对应的目标聚类数目；

S6、判断更新后的目标聚类数目是否小于1；

若否，则返回步骤S1。

2.根据权利要求1所述的用于大数据挖掘聚类的自适应PSO-PFCM聚类方法，其特征在于，所述步骤S1具体为：

3.根据权利要求2所述的用于大数据挖掘聚类的自适应PSO-PFCM聚类方法，其特征在于，所述步骤S2具体为：

若是，则进入步骤S25；

若否，则进入步骤S26；

4.根据权利要求3所述的用于大数据挖掘聚类的自适应PSO-PFCM聚类方法，其特征在于，所述步骤S22中的第一次更新前的适应度函数f₀(x)为：

其中，

U为模糊划分矩阵；

T为可能性划分矩阵；

V为在PFCM算法中的最优个体位置；

n为数据集中样本的个数；

i为当前类别标号；

e为编码后的样本分成的类别数；

a和b分别为被赋予u_ik和t_ik被的权重，均为常数值；

m和η为模糊权重，m，m,η∈[1,∞)；

u_ik为隶属度值；

t_ik为可能性值；

γ_i为用户参数。

5.根据权利要求3所述的用于大数据挖掘聚类的自适应PSO-PFCM聚类方法，其特征在于，所述步骤S24中，当前群体的最优位置为全局最优解的条件为：当前群体的最优位置p_gd(t+1)对应的适应度函数f(x)的值大于设置的停止阈值ε。

6.根据权利要求3所述的用于大数据挖掘聚类的自适应PSO-PFCM聚类方法，其特征在于，所述步骤S26中：

粒子速度的更新公式为：

v_ij(t+1)＝wv_ij(t)+c₁r₁(p_ij(t)-x_ij(t))+c₂r₂(g_ij(t)-x_ij(t))

式中，v_ij(t+1)为第t+1次迭代时个体最优位置对应粒子速度；

w为惯性权重；

c₁和c₂均为加速因子；

r₁和r₂均为分布在区间(0,1)上的随机变量；

p_ij(t)为个体当前最优位置信息；

x_ij(t)为更新后的个体位置信息；

g_ij(t)为群体当前最优位置信息；

粒子位置的更新公式为：

x_ij(t+1)＝x'_ij(t)+v_ij(t+1)

式中，x_ij(t+1)为第t+1次迭代更新时个体对应的粒子位置；

x'_ij(t)为第t次迭代时，经过PFCM算法修正后的个体最优位置。

7.根据权利要求3所述的用于大数据挖掘聚类的自适应PSO-PFCM聚类方法，其特征在于，所述步骤S4中：通过模块密度函数计算当前最优聚类结果的模块密度；

其中，模块密度函数为：

式中，为当前最优聚类结果的模块密度；

e为聚类类别数；

c为类别标号；

V_c为数据集中数据样本点构成的无向图G(V,E,A)的顶点集合V；

为顶点集合V_c的补集；

link(V_c,V_c)为社团内部边权重和的度量值；

为社团内样本点和社团外样本点之间的边权重和的度量值。

8.根据权利要求7所述的用于大数据挖掘聚类的自适应PSO-PFCM聚类方法，其特征在于，所述无向图G的顶点集合V中数据的类别数e即为当前最优聚类结果的聚类数目e。

9.根据权利要求1所述的用于大数据挖掘聚类的自适应PSO-PFCM聚类方法，其特征在于，所述步骤S5中，更新目标聚类数目的方法具体为：每更新一次最大模块密度，则将目标聚类数目在其原值的基础上减1。