CN104008197A - 一种特征加权的模糊紧致散布聚类方法 - Google Patents
一种特征加权的模糊紧致散布聚类方法 Download PDFInfo
- Publication number
- CN104008197A CN104008197A CN201410265975.7A CN201410265975A CN104008197A CN 104008197 A CN104008197 A CN 104008197A CN 201410265975 A CN201410265975 A CN 201410265975A CN 104008197 A CN104008197 A CN 104008197A
- Authority
- CN
- China
- Prior art keywords
- sigma
- sample
- delta
- eta
- omega
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
针对现有的WFCM算法在聚类时没有考虑样本硬划分实际情况,FCS算法没有考虑硬划分边界点的情况以及忽略样本特征参数对聚类影响的问题,本发明公开了一种特征加权的模糊紧致散布聚类方法。本发明通过对样本隶属度、特征权重进行调整,遵循了样本硬划分的实际情况,并充分考虑样本特征参数对样本划分的影响,尽可能使得样本类内紧致、类间分散,解决了位于硬划分边界的样本隶属度问题,对于噪声数据和异常数据实现了更有效的划分。聚类性能良好,收敛速度快、迭代效率高。实验证明,本算法聚类性能良好,收敛速度快、迭代效率高。与现有方法相比,本发明聚类准确率高,耗时明显减少,适于应用在工业控制中实时性要求高的场合。
Description
技术领域
本发明属于数据处理技术领域,尤其是涉及一种特征加权的模糊紧致散布聚类方法。
背景技术
在自然科学和社会科学中,存在着大量的分类问题,聚类方法是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法,应用领域非常广泛。模糊C-均值(FCM)聚类算法是常用的无监督模式识别方法,有很多对FCM算法的改进,其中基于特征加权的FCM(WFCM)聚类算法考虑了样本各特征参数对聚类中心的影响,改善了噪声、异常数据影响等情况。但是,这些基于FCM的聚类算法,实质都只考虑了样本的类内紧致性(类内散度),而忽略了样本类间散布性(类间散度)。Kuo-Lung Wu等人提出的FCS(Fuzzy Compactness and Separation)算法考虑了类内紧致和类间散布,并兼容了样本的硬划分和模糊划分,这更符合实际情况;国内有宋风溪等人提出了最大散度差判别准则的分类方法,该准则综合考虑类间散度和类内散度来求最优投影向量以对样本进行分类;皋军等人将模糊度引入了最大散度差判别准则提出了FMSDC(fuzzy maximum scatter differencediscriminant criterion)算法,在模糊聚类的同时进行了降维;支晓斌等人指出皋军等人的算法中的错误,提出FMSDC-FCS聚类算法,该算法是皋军等人算法的正确版本,利用FCM算法初始化隶属度和样本均值,再用FMSDC算法进行降维,用FCS算法对降维数据进行聚类,其聚类实质还是采用FCS算法。
而在利用上述算法进行数据分类的过程中,我们发现,实际数据有些处于某类硬划分区域和硬划分边界上,这些数据的隶属度就不需要模糊化,这是FCM算法以及相关扩展FCM算法所不能解决的。FCS算法虽然考虑了样本硬划分问题,但是却没有考虑处于硬划分边界上的样本情况,这就导致了对实际数据进行分类时,遇到边界数据时出现分类准确度不高或运算耗时过长的问题。
发明内容
针对现有的WFCM算法在聚类时没有考虑样本硬划分实际情况,FCS算法没有考虑硬划分边界点的情况以及忽略样本特征参数对聚类影响的问题,本发明公开了一种特征加权的模糊紧致散布聚类方法。
为了达到上述目的,本发明提供如下技术方案:
一种特征加权的模糊紧致散布聚类方法,包括如下步骤:
步骤一:设置隶属度指数m、特征加权指数α∈[-10,-1]∪(1,10]、β∈{0.005,0.05,0.5,1},初始迭代次数p=0以及迭代误差ε>0,随机生成初始聚类中心ai(ai为第i类聚类中心),(c为类别数);
步骤二:根据下式计算系数ηi:
其中,为样本均值;
步骤三:根据下式更新样本隶属度μij:
记
当样本点xj存在落在硬划分边界上时,此时Δij=0,在保证各样本点相对于第i类的距离尺度不变的前提下,对Δij≥0的根据下式进行调整:
调整后利用下式计算新的μij:
因为有样本点xj落在第i类硬划分区域内,所以会有μij<0,因此对μij进行硬划分调整:
步骤四:根据下式计算特征权重ωk:
记
若Δk<0,因为ωk∈[0,1],所以需将Δk投影到大于0的区间且保证各样本的第k个特征参数与第i类的硬划分区的距离尺度不变,于是利用下式调整Δk:
调整后利用特征权重公式计算新的ωk;
步骤五:根据下式计算聚类中心ai:
步骤六:令迭代次数p=p+1,直到maxi|ai'-ai|<ε;否则转到步骤二;
步骤七:将第t次迭代得到的μij输出,根据即第j个样本属于第i类。
进一步的,所述样本隶属度μij和特征权重ωk通过如下步骤计算:
建立目标函数:
特征加权的FCS聚类问题表示如下:
利用拉格朗日乘子法得到:
上式中,λi、λ1是拉格朗日乘子;
根据上式分别对μij、ωk求偏导并令偏导结果为零得到μij、ωk。
本发明还提供了基于特征加权的模糊紧致散布聚类方法的工业数据分类方法,包括:获得传感器采集到的数据后,通过本发明提供的WFCS方法(步骤一~七)对采集的数据进行分类,再根据分类结果判断工业设备或工艺的当前状态。
进一步的,所述传感器采集的是航空发动机状态数据,判断的是航空发动机的健康状态。
有益效果:
本发明遵循了样本硬划分的实际情况,并充分考虑样本特征参数对样本划分的影响,尽可能使得样本类内紧致、类间分散,解决了位于硬划分边界的样本隶属度问题,对于噪声数据和异常数据实现了更有效的划分。聚类性能良好,收敛速度快、迭代效率高。实验证明,本算法聚类性能良好,收敛速度快、迭代效率高。与现有方法相比,本发明聚类准确率高,耗时明显减少,适于应用在工业控制中实时性要求高的场合。
附图说明
图1为特征加权的模糊紧致散布聚类方法步骤流程示意图;
图2为Iris数据集中原始数据的第一、二维特征分布示意图;
图3为β=1,m=2,α=2时,WFCS算法聚类结果、聚类中心及收敛性示意图;
图4为β=0.5,m=2,α=3时,WFCS算法聚类结果、聚类中心及收敛性示意图;
图5为β=0.05,m=2,α=4时,WFCS算法聚类结果、聚类中心及收敛性示意图;
图6为β=0.005,m=2,α=3时,WFCS算法聚类结果、聚类中心及收敛性示意图;
图7为样本的硬划分结果示意图。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
我们发现,现实生活中的数据无监督聚类,是存在样本对聚类中心的硬划分的,并且,处于硬划分边界上的样本相比硬划分区域外的样本对该类的隶属度应该最大,但是小于1,且样本的各特征参数对聚类是有不同的影响,本发明正是基于上述思路,提出了一种改进的模糊紧致散布聚类方法。
首先定义样本特征加权类内散度和样本特征加权类间散度如下:
特征加权系数α∈[-10,0)∪(1,10];
建立目标函数:
特征加权的FCS聚类问题表示如下:
利用拉格朗日乘子法得到:
上式中,λi、λ1是拉格朗日乘子;
根据上式分别对μij、λi,ωk、λ1,aik求偏导并令偏导结果为零,求得:
特征加权的模糊紧致散布聚类方法,如图1所示,包括如下步骤:
步骤一:设置隶属度指数m、特征加权指数α∈[-10,-1]∪(1,10]、β∈{0.005,0.05,0.5,1},初始迭代次数p=0以及迭代误差ε>0,随机生成初始聚类中心ai(ai为第i类聚类中心),(c为类别数);
步骤二:根据下式计算系数ηi:
其中,为样本均值。
步骤三:根据公式(3)更新样本隶属度μij;
记
若Δij>0有考虑到样本点xj存在落在硬划分边界情况(此时Δij=0),此时如果直接用式(3)计算时得μij为正无穷大,算法无效,因此在该种情况下还需要对μij进行调整,对于落在第i类硬划分边界的样本点本身就具有模糊性,如果把它进行硬划分是和实际情况不相符的,但是和其他落在硬划分区域外的样本点相比,xj对于第i类有更大的模糊隶属度,因此在保证各样本点相对于第i类的距离尺度不变的前提下,对Δij≥0的根据下式进行调整:
调整后利用下式计算新的μij:
因为有样本点xj落在第i类硬划分区域内,所以会有μij<0,因此对μij进行硬划分调整:
步骤四:根据式(4)计算特征权重ωk,
同样的,我们也要对ωk进行调整:
记
考虑第i类的硬划分样本点仅对该类权重计算有效而对其他类无效,μij=1和μi'j=0保证了硬划分样本点对所属类的贡献,同时也避免了对其他类的影响。
当Δk=0时所有样本的第k个特征参数的影响一样,所以ωk=0。
由式(11)可知,Δk实质是样本点到各类硬划分区域的距离和的模糊表示,由于各类硬划分区域不可能重叠,除非样本分布极不均衡,否则Δk>0。若Δk<0,因为ωk∈[0,1],所以需将Δk投影到大于0的区间且保证各样本的第k个特征参数与第i类的硬划分区的距离尺度不变,于是利用下式调整:
调整后利用式(3)计算新的ωk。
步骤五:根据下式计算聚类中心ai
步骤六:令迭代次数p=p+1,直到maxi|ai'-ai|<ε;否则转到步骤二。
步骤七:将第t次迭代得到的μij输出,根据即第j个样本属于第i类。
通过上述步骤,遵循了样本硬划分的实际情况,并充分考虑样本特征参数对样本划分的影响,尽可能使得样本类内紧致、类间分散,解决了位于硬划分边界的样本隶属度问题,对于噪声数据和异常数据实现了更有效的划分。
实施例二:
为了更好地说明本发明的性能,我们采用本发明方法针对UCI respository of machinelearning databases的其中一个真实数据集:Iris数据集进行分类实验,模糊指数m=2,迭代误差精度取10-6,参数β分别设为(0.005,0.05,0.5,1),Iris数据集中共150个样本分为3类,其中第2类和第3类有交叉,原始数据的第一维特征分布如图2所示,采用本发明算法(简称WFCS算法)的聚类结果如图3-图6所示。从图3~图6的(a)图中可以看出,本算法具备基本聚类功能,聚类结果和图2所示的原始数据分布大致相同,随着β的减小,第一类的聚类中心逐渐向其他两类聚类中心靠近,由于第二、第三类数据有交叉,所以这两类的聚类中心变化不明显,但整体的模糊划分程度越高;图2~图5的(b)给出的是聚类中心变化量,可看出本文算法收敛速度快、迭代效率高;本算法使样本的特征加权类内散布尽可能小且特征加权类间散布尽可能大,若各聚类中心越分散则特征加权类间散布越小则样本模糊划分程度越高。图7为样本的硬划分结果示意图,图7(a)中共有55个样本被硬划分,图7(b)中共有52个样本被硬划分,图7(c)中共有39个样本被硬划分,图7(d)中共有7个样本被硬划分。这表明本文算法保留了FCS算法的样本硬划分特性,且β越大样本硬划分程度越高。上述实验结果表明,本算法聚类性能良好,收敛速度快、迭代效率高。
实施例三:
为了验证本发明的优越性,我们分别用FCS、WFCM和本发明提供的WFCS三个方法对Iris数据集进行实验。
实验中,模糊指数m=2,迭代误差精度取10-6,参数β分别设为(0.005,0.05,0.5,1),客观起见,实验考虑到综合最好和最差情况,执行100次,取最好结果和平均平均结果,用RandIndex(Accuracy)、迭代次数(IterNO)、执行时间(Time)、平均准确率(avg_Accuracy)、平均迭代次数(avg_Iterno)、平均执行时间(avg_Time)三个指标来衡量算法性能。三种算法的聚类结果中最好和平均结果如表1所示:
Algorithm | Accury | IterNO | Time | avg_Accury | avg_Iterno | avg_Time |
FCS | 0.893333 | 38 | 0.317758 | 0.893333 | 36 | 0.334561 |
WFCM | 0.96 | 46 | 1.596757 | 0.96 | 44 | 0.800227 |
WFCS | 0.96 | 22 | 0.047355 | 0.96 | 35 | 0.05789 |
表1
从表1中可以看出,对于Iris数据集,WFCS算法聚类准确率要高于FCS算法,最好情况所耗时间仅是WFCM算法的3%,平均耗时比WFCM算法减少93%。
实施例四:
我们再分别用FCS、WFCM和本发明提供的WFCS三个方法对航空发动机气路仿真数据集(加噪)进行实验,结果如表2所示。GasPath数据集是航空发动机气路数据,包括DEGT、DNH、DFF三个特征参数,共300个样本,其中健康状态数据200个,故障状态数据100个。
Algorithm | Accury | IterNO | Time | avg_Accury | avg_Iterno | avg_Time |
FCS | 0.906667 | 25 | 0.203496 | 0.906667 | 24 | 0.171021 |
WFCM | 0.98 | 35 | 0.328382 | 0.98 | 33 | 0.136873 |
WFCS | 0.98 | 29 | 0.044616 | 0.98 | 30 | 0.046394 |
表2
从表2看出,对于GasPath数据集,WFCS算法聚类准确率、耗时都要明显优于要高于FCS算法和WFCM算法,适于应用在工业控制中实时性要求高的场合。
实施例五:
本发明还提供了本发明工业控制中的具体应用方法:
首先,必须针对工业控制中的重要具体参数进行状态监视(通常需要设置各类传感器以获得全面的数据),获得传感器采集到的数据后,通过本发明提供的WFCS方法(步骤一~七)对采集的数据进行分类,再根据分类结果判断工业设备或工艺的当前状态。例如通过传感器对航空发动机进行状态监视,通过对采集的数据进行分类(,通过本发明提供的WFCS方法,步骤一~七),判断航空发动机当前是否是非健康状态。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (4)
1.一种特征加权的模糊紧致散布聚类方法,其特征在于,包括如下步骤:
步骤一:设置隶属度指数m、特征加权指数α∈[-10,-1]∪(1,10]、β∈{0.005,0.05,0.5,1},初始迭代次数p=0以及迭代误差ε>0,随机生成初始聚类中心ai,(c为类别数);
步骤二:根据下式计算系数ηi:
其中,为样本均值;
步骤三:根据下式更新样本隶属度μij:
记
当样本点xj存在落在硬划分边界上时,此时Δij=0,在保证各样本点相对于第i类的距离尺度不变的前提下,对Δij≥0的根据下式进行调整:
调整后利用下式计算新的μij:
因为有样本点xj落在第i类硬划分区域内,所以会有μij<0,因此对μij进行硬划分调整:
步骤四:根据下式计算特征权重ωk:
记
若Δk<0,因为ωk∈[0,1],所以需将Δk投影到大于0的区间且保证各样本的第k个特征参数与第i类的硬划分区的距离尺度不变,于是利用下式调整Δk:
调整后利用特征权重公式计算新的ωk;
步骤五:根据下式计算聚类中心ai:
步骤六:令迭代次数p=p+1,直到maxi|ai'-ai|<ε;否则转到步骤二;
步骤七:将第t次迭代得到的μij输出,根据即第j个样本属于第i类。
2.根据权利要求1所述的特征加权的模糊紧致散布聚类方法,其特征在于:所述样本隶属度μij和特征权重ωk通过如下步骤计算:
建立目标函数:
特征加权的FCS聚类问题表示如下:
利用拉格朗日乘子法得到:
上式中,λi、λ1是拉格朗日乘子;
根据上式分别对μij、ωk求偏导并令偏导结果为零得到μij、ωk。
3.一种基于特征加权的模糊紧致散布聚类方法的工业数据分类方法,包括如下步骤:获得传感器采集到的数据后,通过权利要求要求1或2所述的特征加权的模糊紧致散布聚类方法对采集的数据进行分类,再根据分类结果判断工业设备或工艺的当前状态。
4.根据权利要求3所述的基于特征加权的模糊紧致散布聚类方法的工业数据分类方法,包括如下步骤:所述传感器采集的是航空发动机状态数据,判断的是航空发动机的健康状态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410265975.7A CN104008197B (zh) | 2014-06-13 | 2014-06-13 | 一种特征加权的模糊紧致散布聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410265975.7A CN104008197B (zh) | 2014-06-13 | 2014-06-13 | 一种特征加权的模糊紧致散布聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104008197A true CN104008197A (zh) | 2014-08-27 |
CN104008197B CN104008197B (zh) | 2016-03-30 |
Family
ID=51368854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410265975.7A Expired - Fee Related CN104008197B (zh) | 2014-06-13 | 2014-06-13 | 一种特征加权的模糊紧致散布聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104008197B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182511A (zh) * | 2014-08-20 | 2014-12-03 | 南京信息工程大学 | 一种簇特征加权的模糊紧致散布聚类方法 |
CN105278526A (zh) * | 2015-11-19 | 2016-01-27 | 东北大学 | 一种基于正则化架构的工业过程故障分离方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831474A (zh) * | 2012-08-06 | 2012-12-19 | 江南大学 | 基于量子粒子群优化改进的模糊c-均值聚类方法 |
CN103680158A (zh) * | 2013-10-14 | 2014-03-26 | 长沙理工大学 | 基于c-均值模糊聚类分析的控制子区动态划分方法 |
-
2014
- 2014-06-13 CN CN201410265975.7A patent/CN104008197B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831474A (zh) * | 2012-08-06 | 2012-12-19 | 江南大学 | 基于量子粒子群优化改进的模糊c-均值聚类方法 |
CN103680158A (zh) * | 2013-10-14 | 2014-03-26 | 长沙理工大学 | 基于c-均值模糊聚类分析的控制子区动态划分方法 |
Non-Patent Citations (2)
Title |
---|
MIIN-SHEN YANG 等: "A Novel Fuzzy Clustering Alogrithm", 《IEEE INTERNATIONAL SYMPOSIUM ON COMPUTATIONAL INTELLIGENCE IN ROBOTS AND AUTOMATION》 * |
支晓斌 等: "截集型特征加权模糊C-均值聚类算法", 《现代电子技术》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182511A (zh) * | 2014-08-20 | 2014-12-03 | 南京信息工程大学 | 一种簇特征加权的模糊紧致散布聚类方法 |
CN104182511B (zh) * | 2014-08-20 | 2017-09-26 | 南京信息工程大学 | 一种簇特征加权的模糊紧致散布聚类方法 |
CN105278526A (zh) * | 2015-11-19 | 2016-01-27 | 东北大学 | 一种基于正则化架构的工业过程故障分离方法 |
CN105278526B (zh) * | 2015-11-19 | 2017-12-01 | 东北大学 | 一种基于正则化架构的工业过程故障分离方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104008197B (zh) | 2016-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nair et al. | Cluster-based feedback control of turbulent post-stall separated flows | |
CN104866692B (zh) | 一种基于自适应代理模型的飞行器多目标优化方法 | |
Yao et al. | A modified multi-objective sorting particle swarm optimization and its application to the design of the nose shape of a high-speed train | |
CN102789539B (zh) | 一种飞行器升力面结构优化设计方法 | |
Li et al. | Hybrid optimization algorithm based on chaos, cloud and particle swarm optimization algorithm | |
CN104182511A (zh) | 一种簇特征加权的模糊紧致散布聚类方法 | |
CN111062425B (zh) | 基于c-k-smote算法的不平衡数据集处理方法 | |
Li et al. | A novel global optimization algorithm and data-mining methods for turbomachinery design | |
CN108549904A (zh) | 基于轮廓系数的差分隐私保护K-means聚类方法 | |
CN106778838A (zh) | 一种预测空气质量的方法 | |
CN105808976A (zh) | 一种基于推荐模型的miRNA靶基因预测方法 | |
Ishar et al. | Metric for attractor overlap | |
CN106357458B (zh) | 网元异常检测方法及装置 | |
Wang et al. | Multiple-parameter radar signal sorting using support vector clustering and similitude entropy index | |
Liang | Annealing evolutionary stochastic approximation Monte Carlo for global optimization | |
CN104008197B (zh) | 一种特征加权的模糊紧致散布聚类方法 | |
CN101702172A (zh) | 一种基于类-属性关系依赖度的数据离散化方法 | |
Lombardi et al. | Aircraft air inlet design optimization via surrogate-assisted evolutionary computation | |
Gajawada et al. | Projected clustering using particle swarm optimization | |
CN107169522A (zh) | 一种基于粗糙集和粒子群算法的改进模糊c‑均值聚类算法 | |
Li et al. | Wind pressure coefficients zoning method based on an unsupervised learning algorithm | |
CN109961085A (zh) | 基于贝叶斯估计的航班延误预测模型的建立方法及装置 | |
CN106570618A (zh) | 一种基于聚类分析和神经网络的负荷同时系数预测方法 | |
CN112990603A (zh) | 考虑频域分解后数据特征的空调冷负荷预测方法及系统 | |
Lei et al. | Three-Dimensional Multi-Objective Design Optimization of a 6.5-Stage Axial Flow Compressor Blades With Lean and Twist |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160330 Termination date: 20190613 |
|
CF01 | Termination of patent right due to non-payment of annual fee |