CN104008197A

CN104008197A - 一种特征加权的模糊紧致散布聚类方法

Info

Publication number: CN104008197A
Application number: CN201410265975.7A
Authority: CN
Inventors: 周媛; 何军; 夏景明
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2014-06-13
Filing date: 2014-06-13
Publication date: 2014-08-27
Anticipated expiration: 2034-06-13
Also published as: CN104008197B

Abstract

针对现有的WFCM算法在聚类时没有考虑样本硬划分实际情况，FCS算法没有考虑硬划分边界点的情况以及忽略样本特征参数对聚类影响的问题，本发明公开了一种特征加权的模糊紧致散布聚类方法。本发明通过对样本隶属度、特征权重进行调整，遵循了样本硬划分的实际情况，并充分考虑样本特征参数对样本划分的影响，尽可能使得样本类内紧致、类间分散，解决了位于硬划分边界的样本隶属度问题，对于噪声数据和异常数据实现了更有效的划分。聚类性能良好，收敛速度快、迭代效率高。实验证明，本算法聚类性能良好，收敛速度快、迭代效率高。与现有方法相比，本发明聚类准确率高，耗时明显减少，适于应用在工业控制中实时性要求高的场合。

Description

一种特征加权的模糊紧致散布聚类方法

技术领域

本发明属于数据处理技术领域，尤其是涉及一种特征加权的模糊紧致散布聚类方法。

背景技术

在自然科学和社会科学中，存在着大量的分类问题，聚类方法是研究(样品或指标)分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法，应用领域非常广泛。模糊C-均值(FCM)聚类算法是常用的无监督模式识别方法，有很多对FCM算法的改进，其中基于特征加权的FCM(WFCM)聚类算法考虑了样本各特征参数对聚类中心的影响，改善了噪声、异常数据影响等情况。但是，这些基于FCM的聚类算法，实质都只考虑了样本的类内紧致性(类内散度)，而忽略了样本类间散布性(类间散度)。Kuo-Lung Wu等人提出的FCS(Fuzzy Compactness and Separation)算法考虑了类内紧致和类间散布，并兼容了样本的硬划分和模糊划分，这更符合实际情况；国内有宋风溪等人提出了最大散度差判别准则的分类方法，该准则综合考虑类间散度和类内散度来求最优投影向量以对样本进行分类；皋军等人将模糊度引入了最大散度差判别准则提出了FMSDC(fuzzy maximum scatter differencediscriminant criterion)算法，在模糊聚类的同时进行了降维；支晓斌等人指出皋军等人的算法中的错误，提出FMSDC-FCS聚类算法，该算法是皋军等人算法的正确版本，利用FCM算法初始化隶属度和样本均值，再用FMSDC算法进行降维，用FCS算法对降维数据进行聚类，其聚类实质还是采用FCS算法。

而在利用上述算法进行数据分类的过程中，我们发现，实际数据有些处于某类硬划分区域和硬划分边界上，这些数据的隶属度就不需要模糊化，这是FCM算法以及相关扩展FCM算法所不能解决的。FCS算法虽然考虑了样本硬划分问题，但是却没有考虑处于硬划分边界上的样本情况，这就导致了对实际数据进行分类时，遇到边界数据时出现分类准确度不高或运算耗时过长的问题。

发明内容

针对现有的WFCM算法在聚类时没有考虑样本硬划分实际情况，FCS算法没有考虑硬划分边界点的情况以及忽略样本特征参数对聚类影响的问题，本发明公开了一种特征加权的模糊紧致散布聚类方法。

为了达到上述目的，本发明提供如下技术方案：

一种特征加权的模糊紧致散布聚类方法，包括如下步骤：

步骤一：设置隶属度指数m、特征加权指数α∈[-10，-1]∪(1,10]、β∈{0.005,0.05,0.5,1}，初始迭代次数p＝0以及迭代误差ε＞0，随机生成初始聚类中心a_i(a_i为第i类聚类中心)，(c为类别数)；

步骤二：根据下式计算系数η_i：

η_{i} = \frac{β}{4} \frac{\min_{{i &NotEqual; i}^{'}} | | a_{i} - a_{i^{'}} | |_{2}}{\max_{t} | | a_{t} - \overset{&OverBar;}{X} | |^{2}}

其中，为样本均值；

步骤三：根据下式更新样本隶属度μ_ij：

μ_{ij} = \frac{{(Σ_{k = 1}^{s} ω_{k}^{α} (| | x_{ij} - a_{ik} | |^{2} - η_{i} | | a_{ik} - \overset{&OverBar;}{X_{k}} | |^{2}))}^{\frac{1}{1 - m}}}{Σ_{t = 1}^{c} {(Σ_{k = 1}^{s} ω_{k}^{α} (| | x_{jk} - a_{tk} | |^{2} - η_{t} | | a_{tk} - \overset{&OverBar;}{X_{k}} | |^{2}))}^{\frac{1}{1 - m}}}

记

Δ_{ij} = Σ_{k = 1}^{s} ω_{k}^{α} (| {| x}_{ij} - a_{ik} | |^{2} - η_{i} | | a_{ik} - \overset{&OverBar;}{X_{k}} | |^{2})

当样本点x_j存在落在硬划分边界上时，此时Δ_ij＝0，在保证各样本点相对于第i类的距离尺度不变的前提下，对Δ_ij≥0的根据下式进行调整：

Δ_{ij} = Δ_{ij} + rand * \min_{j} (Δ_{ij} > 0) (j = 1, . . ., n)

调整后利用下式计算新的μ_ij：

μ_{ij} \frac{{Δ_{ij}}^{\frac{1}{1 - m}}}{Σ_{t = 1}^{c} {Δ_{tj}}^{\frac{1}{1 - m}}}

因为有样本点x_j落在第i类硬划分区域内，所以会有μ_ij＜0，因此对μ_ij进行硬划分调整：

\{\begin{matrix} μ_{ij} = 1, & Δ_{ij} < 0 \\ μ_{i^{'} j} = 0, & i^{'} &NotEqual; i \end{matrix}

步骤四：根据下式计算特征权重ω_k：

ω_{k} = \frac{{(Σ_{i = 1}^{c} Σ_{j = 1}^{n} μ_{ij}^{m} (| | x_{ij} - a_{ij} | |^{2} - η_{i} | | a_{ik} - \overset{&OverBar;}{X_{k}} | |^{2}))}^{\frac{1}{1 - α}}}{Σ_{t = 1}^{s} {(Σ_{i = 1}^{c} Σ_{j = 1}^{n} μ_{ij}^{m} (| | x_{jt} - a_{it} | |^{2} - η_{i} | | a_{it} - \overset{&OverBar;}{X_{t}} | |^{2}))}^{\frac{1}{1 - α}}}

记

Δ_{k} = Σ_{i = 1}^{c} Σ_{j = 1}^{n} μ_{ij}^{m} (| | x_{jk} - a_{ik} | |^{2} - η_{i} | | a_{ik} - \overset{&OverBar;}{X_{k}} | |^{2})

若Δ_k＜0，因为ω_k∈[0,1]，所以需将Δ_k投影到大于0的区间且保证各样本的第k个特征参数与第i类的硬划分区的距离尺度不变，于是利用下式调整Δ_k：

Δ_{k} = Δ_{k} - \min_{k} (Δ_{k}) + \min_{k} (Δ_{k} > 0)

调整后利用特征权重公式计算新的ω_k；

步骤五：根据下式计算聚类中心a_i：

a_{ik} = \frac{Σ_{j = 1}^{n} μ_{ij}^{m} (x_{ij} - η_{i} \overset{&OverBar;}{X_{k}})}{Σ_{j = 1}^{n} μ_{ij}^{m} (1 - η_{i})}

步骤六：令迭代次数p＝p+1，直到max_i|a_i'-a_i|＜ε；否则转到步骤二；

步骤七：将第t次迭代得到的μ_ij输出，根据即第j个样本属于第i类。

进一步的，所述样本隶属度μ_ij和特征权重ω_k通过如下步骤计算：

建立目标函数：

J_{WFCS} = Σ_{i = 1}^{c} Σ_{j = 1}^{n} Σ_{k = 1}^{s} μ_{ij}^{m} ω_{k}^{α} | | x_{jk} - a_{ik} | |^{2} - Σ_{i = 1}^{c} Σ_{j = 1}^{n} Σ_{k = 1}^{s} η_{i} μ_{ij}^{m} ω_{k}^{α} | | a_{ik} - \overset{&OverBar;}{X_{k}} | |^{2}

特征加权的FCS聚类问题表示如下：

\{\begin{matrix} {\min J}_{WFCS} \\ s . t . Σ_{j = 1}^{n} μ_{ij} = 1, Σ_{k = 1}^{s} ω_{k} = 1 \end{matrix}

利用拉格朗日乘子法得到：

L = Σ_{i = 1}^{c} Σ_{j = 1}^{n} Σ_{k = 1}^{s} μ_{ij}^{m} ω_{k}^{α} | | x_{jk} - a_{ik} | |^{2} - Σ_{i = 1}^{c} Σ_{j = 1}^{n} Σ_{k = 1}^{s} η_{i} μ_{ij}^{m} ω_{ik}^{α} | | a_{ik} - \overset{&OverBar;}{X_{k}} | |^{2} - Σ_{i = 1}^{n} (λ_{i} (Σ_{j = 1}^{c} μ_{ij} - 1)) - λ_{1} (Σ_{k = 1}^{s} ω_{k} - 1)

上式中，λ_i、λ₁是拉格朗日乘子；

根据上式分别对μ_ij、ω_k求偏导并令偏导结果为零得到μ_ij、ω_k。

本发明还提供了基于特征加权的模糊紧致散布聚类方法的工业数据分类方法，包括：获得传感器采集到的数据后，通过本发明提供的WFCS方法(步骤一～七)对采集的数据进行分类，再根据分类结果判断工业设备或工艺的当前状态。

进一步的，所述传感器采集的是航空发动机状态数据，判断的是航空发动机的健康状态。

有益效果：

本发明遵循了样本硬划分的实际情况，并充分考虑样本特征参数对样本划分的影响，尽可能使得样本类内紧致、类间分散，解决了位于硬划分边界的样本隶属度问题，对于噪声数据和异常数据实现了更有效的划分。聚类性能良好，收敛速度快、迭代效率高。实验证明，本算法聚类性能良好，收敛速度快、迭代效率高。与现有方法相比，本发明聚类准确率高，耗时明显减少，适于应用在工业控制中实时性要求高的场合。

附图说明

图1为特征加权的模糊紧致散布聚类方法步骤流程示意图；

图2为Iris数据集中原始数据的第一、二维特征分布示意图；

图3为β＝1,m＝2,α＝2时，WFCS算法聚类结果、聚类中心及收敛性示意图；

图4为β＝0.5,m＝2,α＝3时，WFCS算法聚类结果、聚类中心及收敛性示意图；

图5为β＝0.05,m＝2,α＝4时，WFCS算法聚类结果、聚类中心及收敛性示意图；

图6为β＝0.005,m＝2,α＝3时，WFCS算法聚类结果、聚类中心及收敛性示意图；

图7为样本的硬划分结果示意图。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

我们发现，现实生活中的数据无监督聚类，是存在样本对聚类中心的硬划分的，并且，处于硬划分边界上的样本相比硬划分区域外的样本对该类的隶属度应该最大，但是小于1，且样本的各特征参数对聚类是有不同的影响，本发明正是基于上述思路，提出了一种改进的模糊紧致散布聚类方法。

首先定义样本特征加权类内散度和样本特征加权类间散度如下：

S_{WFW} = Σ_{i = 1}^{c} Σ_{j = 1}^{n} Σ_{k = 1}^{s} μ_{ij}^{m} ω_{k}^{α} | | x_{jk} - a_{ik} | |^{2} - - - (1)

S_{WFB} = Σ_{i = 1}^{c} Σ_{j = 1}^{n} Σ_{k = 1}^{s} η_{i} μ_{ij}^{m} ω_{k}^{α} | | a_{ik} - \overset{&OverBar;}{X_{k}} | |^{2} - - - (2)

特征加权系数α∈[-10,0)∪(1,10]；

建立目标函数：

J_{WFCS} = Σ_{i = 1}^{c} Σ_{j = 1}^{n} Σ_{k = 1}^{s} μ_{ij}^{m} ω_{k}^{α} | | x_{jk} - a_{ik} | |^{2} - Σ_{i = 1}^{c} Σ_{j = 1}^{n} Σ_{k = 1}^{s} η_{i} μ_{ij}^{m} ω_{k}^{α} | | a_{ik} - \overset{&OverBar;}{X_{k}} | |^{2}

特征加权的FCS聚类问题表示如下：

\{\begin{matrix} {\min J}_{WFCS} \\ s . t . Σ_{j = 1}^{n} μ_{ij} = 1, Σ_{k = 1}^{s} ω_{k} = 1 \end{matrix}

利用拉格朗日乘子法得到：

L = Σ_{i = 1}^{c} Σ_{j = 1}^{n} Σ_{k = 1}^{s} μ_{ij}^{m} ω_{k}^{α} | | x_{jk} - a_{ik} | |^{2} - Σ_{i = 1}^{c} Σ_{j = 1}^{n} Σ_{k = 1}^{s} η_{i} μ_{ij}^{m} ω_{ik}^{α} | | a_{ik} - \overset{&OverBar;}{X_{k}} | |^{2} - Σ_{i = 1}^{n} (λ_{i} (Σ_{j = 1}^{c} μ_{ij} - 1)) - λ_{1} (Σ_{k = 1}^{s} ω_{k} - 1)

上式中，λ_i、λ₁是拉格朗日乘子；

根据上式分别对μ_ij、λ_i，ω_k、λ₁，a_ik求偏导并令偏导结果为零，求得:

μ_{ij} = \frac{{(Σ_{k = 1}^{s} ω_{k}^{α} (| | x_{ij} - a_{ik} | |^{2} - η_{i} | | a_{ik} - \overset{&OverBar;}{X_{k}} | |^{2}))}^{\frac{1}{1 - m}}}{Σ_{t = 1}^{c} {(Σ_{k = 1}^{s} ω_{k}^{α} (| | x_{jk} - a_{tk} | |^{2} - η_{t} | | a_{tk} - \overset{&OverBar;}{X_{k}} | |^{2}))}^{\frac{1}{1 - m}}} - - - (3)

ω_{k} = \frac{{(Σ_{i = 1}^{c} Σ_{j = 1}^{n} μ_{ij}^{m} (| | x_{ij} - a_{ij} | |^{2} - η_{i} | | a_{ik} - \overset{&OverBar;}{X_{k}} | |^{2}))}^{\frac{1}{1 - α}}}{Σ_{t = 1}^{s} {(Σ_{i = 1}^{c} Σ_{j = 1}^{n} μ_{ij}^{m} (| | x_{jt} - a_{it} | |^{2} - η_{i} | | a_{it} - \overset{&OverBar;}{X_{t}} | |^{2}))}^{\frac{1}{1 - α}}} - - - (4)

a_{ik} = \frac{Σ_{j = 1}^{n} μ_{ij}^{m} (x_{ij} - η_{i} \overset{&OverBar;}{X_{k}})}{Σ_{j = 1}^{n} μ_{ij}^{m} (1 - η_{i})} - - - (5)

特征加权的模糊紧致散布聚类方法，如图1所示，包括如下步骤：

步骤二：根据下式计算系数η_i：

η_{i} = \frac{β}{4} \frac{\min_{{i &NotEqual; i}^{'}} | | a_{i} - a_{i^{'}} | |_{2}}{\max_{t} | | a_{t} - \overset{&OverBar;}{X} | |^{2}} - - - (6)

其中，为样本均值。

步骤三：根据公式(3)更新样本隶属度μ_ij；

记

Δ_{ij} = Σ_{k = 1}^{s} ω_{k}^{α} (| {| x}_{ij} - a_{ik} | |^{2} - η_{i} | | a_{ik} - \overset{&OverBar;}{X_{k}} | |^{2}) - - - (7)

若Δ_ij＞0有考虑到样本点xj存在落在硬划分边界情况(此时Δ_ij＝0)，此时如果直接用式(3)计算时得μ_ij为正无穷大，算法无效，因此在该种情况下还需要对μ_ij进行调整，对于落在第i类硬划分边界的样本点本身就具有模糊性，如果把它进行硬划分是和实际情况不相符的，但是和其他落在硬划分区域外的样本点相比，x_j对于第i类有更大的模糊隶属度，因此在保证各样本点相对于第i类的距离尺度不变的前提下，对Δ_ij≥0的根据下式进行调整：

Δ_{ij} = Δ_{ij} + rand * \min_{j} (Δ_{ij} > 0) (j = 1, . . ., n) - - - (8)

调整后利用下式计算新的μ_ij：

μ_{ij} \frac{{Δ_{ij}}^{\frac{1}{1 - m}}}{Σ_{t = 1}^{c} {Δ_{tj}}^{\frac{1}{1 - m}}} - - - (9)

\{\begin{matrix} μ_{ij} = 1, & Δ_{ij} < 0 \\ μ_{i^{'} j} = 0, & i^{'} &NotEqual; i \end{matrix} - - - (10)

步骤四：根据式(4)计算特征权重ω_k，

同样的，我们也要对ω_k进行调整：

记

Δ_{k} = Σ_{i = 1}^{c} Σ_{j = 1}^{n} μ_{ij}^{m} (| | x_{jk} - a_{ik} | |^{2} - η_{i} | | a_{ik} - \overset{&OverBar;}{X_{k}} | |^{2}) - - - (11)

考虑第i类的硬划分样本点仅对该类权重计算有效而对其他类无效，μ_ij＝1和μ_i'_j＝0保证了硬划分样本点对所属类的贡献，同时也避免了对其他类的影响。

当Δ_k＝0时所有样本的第k个特征参数的影响一样，所以ω_k＝0。

由式(11)可知，Δ_k实质是样本点到各类硬划分区域的距离和的模糊表示，由于各类硬划分区域不可能重叠，除非样本分布极不均衡，否则Δ_k＞0。若Δ_k＜0，因为ω_k∈[0,1]，所以需将Δ_k投影到大于0的区间且保证各样本的第k个特征参数与第i类的硬划分区的距离尺度不变，于是利用下式调整：

Δ_{k} = Δ_{k} - \min_{k} (Δ_{k}) + \min_{k} (Δ_{k} > 0) - - - (10)

调整后利用式(3)计算新的ω_k。

步骤五：根据下式计算聚类中心a_i

a_{ik} = \frac{Σ_{j = 1}^{n} μ_{ij}^{m} (x_{ij} - η_{i} \overset{&OverBar;}{X_{k}})}{Σ_{j = 1}^{n} μ_{ij}^{m} (1 - η_{i})} - - - (11)

步骤六：令迭代次数p＝p+1，直到max_i|a_i'-a_i|＜ε；否则转到步骤二。

通过上述步骤，遵循了样本硬划分的实际情况，并充分考虑样本特征参数对样本划分的影响，尽可能使得样本类内紧致、类间分散，解决了位于硬划分边界的样本隶属度问题，对于噪声数据和异常数据实现了更有效的划分。

实施例二：

为了更好地说明本发明的性能，我们采用本发明方法针对UCI respository of machinelearning databases的其中一个真实数据集：Iris数据集进行分类实验，模糊指数m＝2，迭代误差精度取10^-6，参数β分别设为(0.005,0.05,0.5,1),Iris数据集中共150个样本分为3类，其中第2类和第3类有交叉，原始数据的第一维特征分布如图2所示，采用本发明算法(简称WFCS算法)的聚类结果如图3-图6所示。从图3～图6的(a)图中可以看出，本算法具备基本聚类功能，聚类结果和图2所示的原始数据分布大致相同，随着β的减小，第一类的聚类中心逐渐向其他两类聚类中心靠近，由于第二、第三类数据有交叉，所以这两类的聚类中心变化不明显，但整体的模糊划分程度越高；图2～图5的(b)给出的是聚类中心变化量，可看出本文算法收敛速度快、迭代效率高；本算法使样本的特征加权类内散布尽可能小且特征加权类间散布尽可能大，若各聚类中心越分散则特征加权类间散布越小则样本模糊划分程度越高。图7为样本的硬划分结果示意图，图7(a)中共有55个样本被硬划分，图7(b)中共有52个样本被硬划分，图7(c)中共有39个样本被硬划分，图7(d)中共有7个样本被硬划分。这表明本文算法保留了FCS算法的样本硬划分特性，且β越大样本硬划分程度越高。上述实验结果表明，本算法聚类性能良好，收敛速度快、迭代效率高。

实施例三：

为了验证本发明的优越性，我们分别用FCS、WFCM和本发明提供的WFCS三个方法对Iris数据集进行实验。

实验中，模糊指数m＝2，迭代误差精度取10^-6，参数β分别设为(0.005,0.05,0.5,1)，客观起见，实验考虑到综合最好和最差情况，执行100次，取最好结果和平均平均结果，用RandIndex(Accuracy)、迭代次数(IterNO)、执行时间(Time)、平均准确率(avg_Accuracy)、平均迭代次数(avg_Iterno)、平均执行时间(avg_Time)三个指标来衡量算法性能。三种算法的聚类结果中最好和平均结果如表1所示：

Algorithm	Accury	IterNO	Time	avg_Accury	avg_Iterno	avg_Time
							FCS	0.893333	38	0.317758	0.893333	36	0.334561
WFCM	0.96	46	1.596757	0.96	44	0.800227
							WFCS	0.96	22	0.047355	0.96	35	0.05789

表1

从表1中可以看出，对于Iris数据集，WFCS算法聚类准确率要高于FCS算法，最好情况所耗时间仅是WFCM算法的3％，平均耗时比WFCM算法减少93％。

实施例四：

我们再分别用FCS、WFCM和本发明提供的WFCS三个方法对航空发动机气路仿真数据集(加噪)进行实验，结果如表2所示。GasPath数据集是航空发动机气路数据，包括DEGT、DNH、DFF三个特征参数，共300个样本，其中健康状态数据200个，故障状态数据100个。

Algorithm	Accury	IterNO	Time	avg_Accury	avg_Iterno	avg_Time
							FCS	0.906667	25	0.203496	0.906667	24	0.171021
WFCM	0.98	35	0.328382	0.98	33	0.136873
							WFCS	0.98	29	0.044616	0.98	30	0.046394

表2

从表2看出，对于GasPath数据集，WFCS算法聚类准确率、耗时都要明显优于要高于FCS算法和WFCM算法，适于应用在工业控制中实时性要求高的场合。

实施例五：

本发明还提供了本发明工业控制中的具体应用方法：

首先，必须针对工业控制中的重要具体参数进行状态监视(通常需要设置各类传感器以获得全面的数据)，获得传感器采集到的数据后，通过本发明提供的WFCS方法(步骤一～七)对采集的数据进行分类，再根据分类结果判断工业设备或工艺的当前状态。例如通过传感器对航空发动机进行状态监视，通过对采集的数据进行分类(，通过本发明提供的WFCS方法，步骤一～七)，判断航空发动机当前是否是非健康状态。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种特征加权的模糊紧致散布聚类方法，其特征在于，包括如下步骤：

步骤一：设置隶属度指数m、特征加权指数α∈[-10，-1]∪(1,10]、β∈{0.005,0.05,0.5,1}，初始迭代次数p＝0以及迭代误差ε＞0，随机生成初始聚类中心a_i，(c为类别数)；

步骤二：根据下式计算系数η_i：

η_{i} = \frac{β}{4} \frac{\min_{{i &NotEqual; i}^{'}} | | a_{i} - a_{i^{'}} | |_{2}}{\max_{t} | | a_{t} - \overset{&OverBar;}{X} | |^{2}}

其中，为样本均值；

步骤三：根据下式更新样本隶属度μ_ij：

μ_{ij} = \frac{{(Σ_{k = 1}^{s} ω_{k}^{α} (| | x_{ij} - a_{ik} | |^{2} - η_{i} | | a_{ik} - \overset{&OverBar;}{X_{k}} | |^{2}))}^{\frac{1}{1 - m}}}{Σ_{t = 1}^{c} {(Σ_{k = 1}^{s} ω_{k}^{α} (| | x_{jk} - a_{tk} | |^{2} - η_{t} | | a_{tk} - \overset{&OverBar;}{X_{k}} | |^{2}))}^{\frac{1}{1 - m}}}

记

Δ_{ij} = Σ_{k = 1}^{s} ω_{k}^{α} (| {| x}_{ij} - a_{ik} | |^{2} - η_{i} | | a_{ik} - \overset{&OverBar;}{X_{k}} | |^{2})

Δ_{ij} = Δ_{ij} + rand * \min_{j} (Δ_{ij} > 0) (j = 1, . . ., n)

调整后利用下式计算新的μ_ij：

μ_{ij} \frac{{Δ_{ij}}^{\frac{1}{1 - m}}}{Σ_{t = 1}^{c} {Δ_{tj}}^{\frac{1}{1 - m}}}

\{\begin{matrix} μ_{ij} = 1, & Δ_{ij} < 0 \\ μ_{i^{'} j} = 0, & i^{'} &NotEqual; i \end{matrix}

步骤四：根据下式计算特征权重ω_k：

ω_{k} = \frac{{(Σ_{i = 1}^{c} Σ_{j = 1}^{n} μ_{ij}^{m} (| | x_{ij} - a_{ij} | |^{2} - η_{i} | | a_{ik} - \overset{&OverBar;}{X_{k}} | |^{2}))}^{\frac{1}{1 - α}}}{Σ_{t = 1}^{s} {(Σ_{i = 1}^{c} Σ_{j = 1}^{n} μ_{ij}^{m} (| | x_{jt} - a_{it} | |^{2} - η_{i} | | a_{it} - \overset{&OverBar;}{X_{t}} | |^{2}))}^{\frac{1}{1 - α}}}

记

Δ_{k} = Σ_{i = 1}^{c} Σ_{j = 1}^{n} μ_{ij}^{m} (| | x_{jk} - a_{ik} | |^{2} - η_{i} | | a_{ik} - \overset{&OverBar;}{X_{k}} | |^{2})

Δ_{k} = Δ_{k} - \min_{k} (Δ_{k}) + \min_{k} (Δ_{k} > 0)

调整后利用特征权重公式计算新的ω_k；

步骤五：根据下式计算聚类中心a_i：

a_{ik} = \frac{Σ_{j = 1}^{n} μ_{ij}^{m} (x_{ij} - η_{i} \overset{&OverBar;}{X_{k}})}{Σ_{j = 1}^{n} μ_{ij}^{m} (1 - η_{i})}

2.根据权利要求1所述的特征加权的模糊紧致散布聚类方法，其特征在于：所述样本隶属度μ_ij和特征权重ω_k通过如下步骤计算：

建立目标函数：

J_{WFCS} = Σ_{i = 1}^{c} Σ_{j = 1}^{n} Σ_{k = 1}^{s} μ_{ij}^{m} ω_{k}^{α} | | x_{jk} - a_{ik} | |^{2} - Σ_{i = 1}^{c} Σ_{j = 1}^{n} Σ_{k = 1}^{s} η_{i} μ_{ij}^{m} ω_{k}^{α} | | a_{ik} - \overset{&OverBar;}{X_{k}} | |^{2}

特征加权的FCS聚类问题表示如下：

\{\begin{matrix} {\min J}_{WFCS} \\ s . t . Σ_{j = 1}^{n} μ_{ij} = 1, Σ_{k = 1}^{s} ω_{k} = 1 \end{matrix}

利用拉格朗日乘子法得到：

L = Σ_{i = 1}^{c} Σ_{j = 1}^{n} Σ_{k = 1}^{s} μ_{ij}^{m} ω_{k}^{α} | | x_{jk} - a_{ik} | |^{2} - Σ_{i = 1}^{c} Σ_{j = 1}^{n} Σ_{k = 1}^{s} η_{i} μ_{ij}^{m} ω_{ik}^{α} | | a_{ik} - \overset{&OverBar;}{X_{k}} | |^{2} - Σ_{i = 1}^{n} (λ_{i} (Σ_{j = 1}^{c} μ_{ij} - 1)) - λ_{1} (Σ_{k = 1}^{s} ω_{k} - 1)

上式中，λ_i、λ₁是拉格朗日乘子；

根据上式分别对μ_ij、ω_k求偏导并令偏导结果为零得到μi_j、ω_k。

3.一种基于特征加权的模糊紧致散布聚类方法的工业数据分类方法，包括如下步骤：获得传感器采集到的数据后，通过权利要求要求1或2所述的特征加权的模糊紧致散布聚类方法对采集的数据进行分类，再根据分类结果判断工业设备或工艺的当前状态。

4.根据权利要求3所述的基于特征加权的模糊紧致散布聚类方法的工业数据分类方法，包括如下步骤：所述传感器采集的是航空发动机状态数据，判断的是航空发动机的健康状态。