CN107766887A - 一种局部加权的不完整数据混杂聚类方法 - Google Patents

一种局部加权的不完整数据混杂聚类方法 Download PDF

Info

Publication number
CN107766887A
CN107766887A CN201710993558.8A CN201710993558A CN107766887A CN 107766887 A CN107766887 A CN 107766887A CN 201710993558 A CN201710993558 A CN 201710993558A CN 107766887 A CN107766887 A CN 107766887A
Authority
CN
China
Prior art keywords
data
fitness
clustering
individuals
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710993558.8A
Other languages
English (en)
Inventor
张利
牛明航
孙颖
石振桔
郭炜儒
孙军
王军
赵中洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning University
Original Assignee
Liaoning University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning University filed Critical Liaoning University
Priority to CN201710993558.8A priority Critical patent/CN107766887A/zh
Publication of CN107766887A publication Critical patent/CN107766887A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Genetics & Genomics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Physiology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明涉及一种局部加权的不完整数据混杂聚类方法,其步骤如下:(1)收集数据;(2)数据处理:随机使部分数据缺少部分属性,变成不完整数据;(3)数据估算:利用改进的遗传算法中的个体对缺失数据进行估算;(4)聚类分析:对估算的数据进行模糊聚类分析;本发明提出了一种改进的遗传算法优化局部加权的不完整数据混杂聚类算法(GLW‑FCM),达到搜索全部问题空间找到最优解的目的。使用UCI标准测试数据集包括:Iris、Bupa、Wine和Breast。将本文所提出的算法与其他五种算法在Matlab环境下做对比实验分析,改进后的算法在整个问题空间隐含了并行性进行搜索最佳解,获得了更加理想的聚类结果。有效降低了平均误分数、平均错误分类标准差和平均迭代终止次数。

Description

一种局部加权的不完整数据混杂聚类方法
技术领域
本发明涉及一种局部加权的不完整数据混杂聚类方法,属于不完整数据聚类领域。
背景技术
信息技术高速发展带来的是各个领域的海量、复杂的数据,无论在容量方面还是规模方面都已经远远的超出了人为可以处理的能力。为了高效且准确的分析这些数据,聚类分析已经成为新的发展和新的趋势,利用计算机编写的程序智能且准确的完成分类。
模糊C-均值(FCM)作为一个基本无监督聚类方法,通常适合处理没有丢失属性的数据聚类。然而,在实际生活和工业应用中数据漏输、录入错误、设备故障、计划改变、数据采集失败及随机噪声影响等因素致使了数据的不再完整,这时对存在缺失属性的数据进行聚类分析将会影响其结果的精准性。传统的WDS-FCM算法、PDS-FCM算法、OCS-FCM算法、NPS-FCM算法、NNI算法。聚类效果仍然不是很理想。所以我们需要一种更加优化的方法。
若只用利用局部加权优化聚类算法,与FCM算法相类似都是采用梯度下降机制寻优的;对初始设置的参数值都较敏感以及容易出现陷入局部收敛的局限性等等。若只利用遗传算法优化聚类算法,虽然聚类效果得到明显的提升,但是仍有过早收敛等缺陷。
发明内容
本发明针对上述问题,提出一种更加合理的聚类方法,该方法基于改进的遗传算法的局部加权的不完整数据混杂聚类方法,并将运用于数据分类中,具体步骤如下:
本发明的目的是通过下述技术方案实现的:一种局部加权的不完整数据混杂聚类方法,其步骤如下:
(1)收集数据:所使用的数据为UCI标准测试数据集包括:Iris、Bupa、Wine和Breast;
(2)数据处理:随机使部分数据缺少部分属性,变成不完整数据;
(3)数据估算:利用改进的遗传算法中的个体对不完整数据的缺失属性进行估算;
(4)聚类分析:基于matlab软件对估算的数据进行模糊聚类分析.
所述步骤(3)利用改进的遗传算法中的个体对不完整数据的缺失属性进行估算的过程如下:
(1)问题编码:由临近样本对缺失数据的属性进行估算,对要处理的问题:优化最近邻样本个数、模糊化参数和函数宽度参数进行编码处理;
(2)初始化参数:设定模糊聚类算法中聚类类别数c,迭代收敛阈值ε,遗传种群规模为M,遗传算法的选择概率Ps,染色体交叉概率Pc,自主学习的混杂变异概率常量Pm1和Pm2,初始设置个体Ep(1)(p=1,2,...,M),最大迭代数量G;
(3)搜索临近样本:当遗传迭代次数为t(t=1,2,...,G),每一个个体表示为Ep(t)(1≤p≤M),根据相似度公式,搜索出缺失数据的q个最邻近样本;相似度公式如下:
其中分别表示样本的第j个属性值,且
(4)估算缺失属性,获取新的数据集:通过结合高斯核函数确定的权系数对缺失值得估值获得新的数据集,公式如下:
缺失属性可以表示为:
其中:Wk表示为不完整数据样本的q个最近邻样本的相对应属性值的域;是q个最近邻域样本中相对应属性值之一;wkp(p∈Wk)表示权值,满足限制条件0≤wkp≤1,权值的大小将取决于样本与最近邻样本的相似度;权值wkp计算公式表示为:
其中:表示为采用高斯核函数定义的不完整数据样本和最近邻样本之间的距离;σ表示函数宽度参数,它将掌控着权值函数wkp的衰减程度;计算不完整的样本与最近邻域中的样本的距离得到较合理的加权系数,相邻样本与缺失样本距离越大,相应权值越小,该方法能够更好的考虑数据集的邻域结构信息;δk表示归一化常数,计算公式表示为:
(5)聚类原型和划分矩阵更新:当迭代次数取值为l=(1,2...)时,结合划分矩阵Ul-1,利用聚类原型计算公式更新聚类原型Vl;划分矩阵更新:按照聚类原型Vl,利用隶属度计算公式更新划分矩阵Ul;若出现的结果,则算法进行下一步,输出划分矩阵U和聚类原型V;否则将继续下次寻优过程l=l+1,重新聚类原型和划分矩阵更新;聚类原型公式如下:
隶属度计算公式如下:
(6)适应度值确定:通过公式(计算每个个体Ep(t)(1≤p≤M)的适应度值,采取升序排列染色体的适应度值;按照适应度值的大小判断个体的优劣性;适应度公式如下:
其中vi表示为第i类的聚类原型,uik被用来表示样本数据xk隶属于模糊子类第i类的程度,对于条件满足下式:
记U=[uik]∈Rc×n为模糊划分矩阵;m∈(1,∞)表示模糊化参数,它将决定聚类分析结果的模糊程度,其中一般经典取值为m=2;
(7)修正的轮盘赌策略:在种群中选择父代,种群前期时候,当适应度比较分散的时候,采用适应度进行一定程度的缩小,而且适应度越是高的个体,缩小的幅度越大;在种群后期,当适应度相对集中的时候,对其进行扩大,适应度越大的个体,放大幅度也相对大;采用修正的轮盘赌的选择策略公式,第t代个体的Ep(t)的被选择概率如下:
F(Ep(t))=a*F(Ep(t))+b (11)
其中:Fmax表示适应度最大值;Favg表示适应度平均值;F为适应度值;c表示调节参数;Ej(t)表示种群规模M中的个体;
(8)交叉操作:算法的交叉操作将父代优良基因遗传到子代,一对父代个体交叉操作后会产生多个子代个体,所以子代个体之间存有角逐现象;设Ep(t)和Ef(t)(p≠f)分别作为第t代的父代染色体,为增加竞争性,产生四个子代个体:
其中,我们把交叉算子的定义为β∈[0,1];min(Ep(t),Ef(t))和max(Ep(t),Ef(t))的每个元素分量取Ep(t)和Ef(t)(p≠f)相对应的极小值和极大值;上面有4种交叉方式产生的子代方法个体势必会好于传统单一的算术或两点式交叉方式,再按照产生的子代个体中挑选出适应度值最优的两个个体,以此作为交叉操作产生的子代;
(9)变异操作:为免染早熟、基因变异位置的随机性和一成不变的变异概率,于任意个体的适应度值大于所有个体适应度平均值的个体应用较小变异概率进行变异引导,这样的做法有利于保证算法变异方向的正确性,较优质量的染色体得以遗传给子代;对于任意个体的适应度值小于所有染色体适应度平均值的个体应用较大变异概率进行变异引导,这样可以使得劣质的个体被淘汰,自主学习的混杂变异概率为:
其中:Fmax表示适应度最大值;Favg表示适应度平均值,F表示适应度;t表示遗传优化算法的迭代次数;Pm1和Pm2分别为自主学习的混杂变异概率常量且Pm1<Pm2
(10)根据选择算子从候选中间代Em(t)个体生成子代个体E(t+1)个体;
(11).如果遗传更新次数为t=G或遗传优化结果连续8代不发生变化,则停止寻优运算并获得适当的参数,并进行相应的聚类分析;否则,设置t=t+1并且返回3)。
本发明的有益效果:对数据部分属性缺失的数据,本发明提出了一种更加高效的聚类方法,对于数据不完整数据的聚类,利用与不完整数据样本具有相似邻域结构的数据样本来构造一个新的数据集,更加充分的考虑数据概率分布信息。提出了局部加权的不完整数据模糊聚类,后用改进的遗传算法对局部加权的不完整数据模糊聚类算法进行优化。从而在平均误分数、平均迭代终止次数、平均错误分类标准差方面取得了更好的效果。是一种高效和便捷的处理大数据挖掘的重要工具及方法,它可以根据数据集的特点,调整聚类时采取的方法。
附图说明
图1是Iris数据集q值对误差比率的影响图。
图2是Bupa数据集q值对误差比率的影响图。
图3是Wine数据集q值对误差比率的影响图。
图4是Breast数据集q值对误差比率的影响图。
图5是Wine数据集优化次数与聚类结果之间的变化曲线图。
图中,a,b,d,c分别代表随着迭代次数的增加错误率、最近邻样本个数、模糊化参数和函数宽度参数的变化。
图6是Breast数据集优化次数与聚类结果之间的变化曲线图。
图中,a,b,d,c分别代表随着迭代次数的增加错误率、最近邻样本个数、模糊化参数和函数宽度参数的变化。
图7是GLW-FCM算法的整体框架图。
图8是改进遗传优化的FCM算法的基本流程图。
具体实施方式
本文利用与不完整数据样本具有相似邻域结构的数据样本通过部加权的不完整数据算法来构造一个新的数据集,更加充分的考虑数据概率分布信息。算法首先确定丢失数据的最近邻域样本信息,该最近邻域样本的确定方法将计算样本间的相似性程度。将多维不完整数据中的丢失属性用最近邻域中具有相似结构的数据样本的相对应加权属性值进行描述。其中,不同的符合最近邻域规则的样本可以从不同角度对缺失属性进行插补利用高斯核函数定义样本间的相似程度,计算不完整样本与最近邻域内样本的距离得到较合理的加权系数。
遗传启发策略的参数搜索方式作为指导上述的迭代优化过程,并在区间约束范围内改进最近邻样本个数、模糊化参数和函数宽度参数,同时得到较合理的数据划分。将最近邻样本个数、模糊化参数和函数宽度参数组成一个向量,遗传算法中每个染色体代表上述参数的一组解,并且可以搜索出最终适应度最合适的最优个体。
1.局部加权的不完整数据算法
(1)初始化算法中的参数:设置聚类算法中的迭代停止阈值ε>0,聚类类别数c,模糊化参数m∈(1,∞),函数宽度参数σ,初始化划分矩阵U(0)和缺失属性,设置迭代次数l(l=1,2,...)。
(2)最近邻样本个数:根据最近邻样本取值策略确定最近邻样本个数q。
(3)搜索最近邻样本:根据公式(1)和(2)的相似度计算方法,搜索出缺失数据的q个最近邻样本。
(4)估算缺失属性:利用公式(3)、(4)和(5)计算缺失样本属性。
(5)获取新的数据集:通过结合高斯核函数确定的权系数对缺失值的估值获得新的数据集。
(6)聚类原型更新:当迭代次数取值为l(l=1,2,...)时,结合划分矩阵U(l-1),利用聚类原型计算公式(6)更新聚类原型V(l)
(7)划分矩阵更新:按照聚类原型V(l),利用隶属度计算公式(7)更新划分矩阵U(l)
(8)算法终止条件:若出现的结果,则局部加权的不完整数据算法停止,输出划分矩阵U和聚类原型V;否则将继续下次寻优过程l=l+1,返回6)
2.改进的遗传算法优化局部加权的不完整数据算法。
(1)问题编码:由临近样本对缺失数据的属性进行估算,对要处理的问题:优化最近邻样本个数、模糊化参数和函数宽度参数进行编码处理;
(2)初始化参数:设定模糊聚类算法中聚类类别数c,迭代收敛阈值ε,遗传种群规模为M,遗传算法的选择概率Ps,染色体交叉概率Pc,自主学习的混杂变异概率常量Pm1和Pm2,初始设置个体Ep(1)(p=1,2,...,M),最大迭代数量G;
(3)搜索临近样本:当遗传迭代次数为t(t=1,2,...,G),每一个个体表示为Ep(t)(1≤p≤M),根据相似度公式,搜索出缺失数据的q个最邻近样本;相似度公式如下:
其中分别表示样本的第j个属性值,且
(4)估算缺失属性,获取新的数据集:通过结合高斯核函数确定的权系数对缺失值得估值获得新的数据集,公式如下:
缺失属性可以表示为:
其中:Wk表示为不完整数据样本的q个最近邻样本的相对应属性值的域;是q个最近邻域样本中相对应属性值之一;wkp(p∈Wk)表示权值,满足限制条件0≤wkp≤1,权值的大小将取决于样本与最近邻样本的相似度;权值wkp计算公式表示为:
其中:表示为采用高斯核函数定义的不完整数据样本和最近邻样本之间的距离;σ表示函数宽度参数,它将掌控着权值函数wkp的衰减程度;计算不完整的样本与最近邻域中的样本的距离得到较合理的加权系数,相邻样本与缺失样本距离越大,相应权值越小,该方法能够更好的考虑数据集的邻域结构信息;δk表示归一化常数,计算公式表示为:
(5)聚类原型和划分矩阵更新:当迭代次数取值为l=(1,2...)时,结合划分矩阵Ul-1,利用聚类原型计算公式更新聚类原型Vl;划分矩阵更新:按照聚类原型Vl,利用隶属度计算公式更新划分矩阵Ul;若出现的结果,则算法进行下一步,输出划分矩阵U和聚类原型V;否则将继续下次寻优过程l=l+1,重新聚类原型和划分矩阵更新;聚类原型公式如下:
隶属度计算公式如下:
(6)适应度值确定:通过公式(计算每个个体Ep(t)(1≤p≤M)的适应度值,采取升序排列染色体的适应度值;按照适应度值的大小判断个体的优劣性;适应度公式如下:
其中vi表示为第i类的聚类原型,uik被用来表示样本数据xk隶属于模糊子类第i类的程度,对于条件满足下式:
记U=[uik]∈Rc×n为模糊划分矩阵;m∈(1,∞)表示模糊化参数,它将决定聚类分析结果的模糊程度,其中一般经典取值为m=2;
(7)修正的轮盘赌策略:在种群中选择父代,种群前期时候,当适应度比较分散的时候,采用适应度进行一定程度的缩小,而且适应度越是高的个体,缩小的幅度越大;在种群后期,当适应度相对集中的时候,对其进行扩大,适应度越大的个体,放大幅度也相对大;采用修正的轮盘赌的选择策略公式,第t代个体的Ep(t)的被选择概率如下:
F(Ep(t))=a*F(Ep(t))+b (11)
其中:Fmax表示适应度最大值;Favg表示适应度平均值;F为适应度值;c表示调节参数;Ej(t)表示种群规模M中的个体;
(8)交叉操作:算法的交叉操作将父代优良基因遗传到子代,一对父代个体交叉操作后会产生多个子代个体,所以子代个体之间存有角逐现象;设Ep(t)和Ef(t)(p≠f)分别作为第t代的父代染色体,为增加竞争性,产生四个子代个体:
其中,我们把交叉算子的定义为β∈[0,1];min(Ep(t),Ef(t))和max(Ep(t),Ef(t))的每个元素分量取Ep(t)和Ef(t)(p≠f)相对应的极小值和极大值;上面有4种交叉方式产生的子代方法个体势必会好于传统单一的算术或两点式交叉方式,再按照产生的子代个体中挑选出适应度值最优的两个个体,以此作为交叉操作产生的子代;
(9)变异操作:为免染早熟、基因变异位置的随机性和一成不变的变异概率,于任意个体的适应度值大于所有个体适应度平均值的个体应用较小变异概率进行变异引导,这样的做法有利于保证算法变异方向的正确性,较优质量的染色体得以遗传给子代;对于任意个体的适应度值小于所有染色体适应度平均值的个体应用较大变异概率进行变异引导,这样可以使得劣质的个体被淘汰,自主学习的混杂变异概率为:
其中:Fmax表示适应度最大值;Favg表示适应度平均值,F表示适应度;t表示遗传优化算法的迭代次数;Pm1和Pm2分别为自主学习的混杂变异概率常量且Pm1<Pm2
(10)根据选择算子从候选中间代Em(t)个体生成子代个体E(t+1)个体;
(11).如果遗传更新次数为t=G或遗传优化结果连续8代不发生变化,则停止寻优运算并获得适当的参数,并进行相应的聚类分析;否则,设置t=t+1并且返回3)。
3.实现过程
(1)收集数据:所使用的数据为UCI标准测试数据集包括:Iris、Bupa、Wine和Breast;
(2)数据处理:随机使部分数据缺少部分属性,变成不完整数据;
(3)数据估算:利用改进的遗传算法中的个体对不完整数据的缺失属性进行估算;
(4)聚类分析:基于matlab软件对估算的数据进行模糊聚类分析;
实验基于缺失率百分之二十,10次运行结果取平均值可以得出本发明在平均误分数和平均错误分类标准差方面表现优异,在平均终止迭代次数方面较好。具有稳定的聚类性能和较高的聚类结果精确度。
实验结果对比表如下表1、表2、表3:
表1平均误分数实验结果
表2平均迭代终止次数实验结果
表3平均错误分类标准偏差实验结果

Claims (2)

1.一种局部加权的不完整数据混杂聚类方法,其步骤如下:
(1)收集数据:所使用的数据为UCI标准测试数据集包括:Iris、Bupa、Wine和Breast;
(2)数据处理:随机使部分数据缺少部分属性,变成不完整数据;
(3)数据估算:利用改进的遗传算法中的个体对不完整数据的缺失属性进行估算;
(4)聚类分析:基于matlab软件对估算的数据进行模糊聚类分析.
2.根据权利要求1所述的一种局部加权的不完整数据混杂聚类方法,其特征在于:所述步骤(3)利用改进的遗传算法中的个体对不完整数据的缺失属性进行估算的过程如下:
(1)问题编码:由临近样本对缺失数据的属性进行估算,对要处理的问题:优化最近邻样本个数、模糊化参数和函数宽度参数进行编码处理;
(2)初始化参数:设定模糊聚类算法中聚类类别数c,迭代收敛阈值ε,遗传种群规模为M,遗传算法的选择概率Ps,染色体交叉概率Pc,自主学习的混杂变异概率常量Pm1和Pm2,初始设置个体Ep(1)(p=1,2,...,M),最大迭代数量G;
(3)搜索临近样本:当遗传迭代次数为t(t=1,2,...,G),每一个个体表示为Ep(t)(1≤p≤M),根据相似度公式,搜索出缺失数据的q个最邻近样本;相似度公式如下:
<mrow> <msub> <mi>D</mi> <mrow> <mi>k</mi> <mi>p</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mi>s</mi> <mrow> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>s</mi> </msubsup> <msub> <mi>I</mi> <mi>j</mi> </msub> </mrow> </mfrac> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>s</mi> </msubsup> <msup> <mrow> <mo>(</mo> <msub> <mover> <mi>x</mi> <mo>~</mo> </mover> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>-</mo> <msub> <mover> <mi>x</mi> <mo>~</mo> </mover> <mrow> <mi>j</mi> <mi>p</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <msub> <mi>I</mi> <mi>j</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
其中分别表示样本的第j个属性值,且
(4)估算缺失属性,获取新的数据集:通过结合高斯核函数确定的权系数对缺失值得估值获得新的数据集,公式如下:
缺失属性可以表示为:
<mrow> <msub> <mover> <mi>x</mi> <mo>~</mo> </mover> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>=</mo> <msub> <mo>&amp;Sigma;</mo> <mrow> <mi>p</mi> <mo>&amp;Element;</mo> <msub> <mi>w</mi> <mi>k</mi> </msub> </mrow> </msub> <msub> <mi>w</mi> <mrow> <mi>k</mi> <mi>p</mi> </mrow> </msub> <msub> <mover> <mi>x</mi> <mo>~</mo> </mover> <mrow> <mi>j</mi> <mi>p</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>
其中:Wk表示为不完整数据样本的q个最近邻样本的相对应属性值的域;是q个最近邻域样本中相对应属性值之一;wkp(p∈Wk)表示权值,满足限制条件0≤wkp≤1,权值的大小将取决于样本与最近邻样本的相似度;权值wkp计算公式表示为:
<mrow> <msub> <mi>w</mi> <mrow> <mi>k</mi> <mi>p</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>&amp;delta;</mi> <mi>k</mi> </msub> </mfrac> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <mo>|</mo> <mo>|</mo> <msub> <mover> <mi>x</mi> <mo>~</mo> </mover> <mi>k</mi> </msub> <mo>-</mo> <msub> <mover> <mi>x</mi> <mo>~</mo> </mover> <mi>p</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>/</mo> <msup> <mrow> <mo>(</mo> <mrow> <mn>2</mn> <mi>&amp;sigma;</mi> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>
其中:表示为采用高斯核函数定义的不完整数据样本和最近邻样本之间的距离;σ表示函数宽度参数,它将掌控着权值函数wkp的衰减程度;计算不完整的样本与最近邻域中的样本的距离得到较合理的加权系数,相邻样本与缺失样本距离越大,相应权值越小,该方法能够更好的考虑数据集的邻域结构信息;δk表示归一化常数,计算公式表示为:
<mrow> <msub> <mi>&amp;delta;</mi> <mi>k</mi> </msub> <mo>=</mo> <mo>&amp;Sigma;</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <mo>|</mo> <mo>|</mo> <msub> <mover> <mi>x</mi> <mo>~</mo> </mover> <mi>k</mi> </msub> <mo>-</mo> <msub> <mover> <mi>x</mi> <mo>~</mo> </mover> <mi>p</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>/</mo> <msup> <mrow> <mo>(</mo> <mrow> <mn>2</mn> <mi>&amp;sigma;</mi> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>
(5)聚类原型和划分矩阵更新:当迭代次数取值为l=(1,2...)时,结合划分矩阵Ul-1,利用聚类原型计算公式更新聚类原型Vl;划分矩阵更新:按照聚类原型Vl,利用隶属度计算公式更新划分矩阵Ul;若出现的结果,则算法进行下一步,输出划分矩阵U和聚类原型V;否则将继续下次寻优过程l=l+1,重新聚类原型和划分矩阵更新;聚类原型公式如下:
<mrow> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msubsup> <mi>u</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> <mi>m</mi> </msubsup> <msub> <mover> <mi>x</mi> <mo>~</mo> </mover> <mi>k</mi> </msub> </mrow> <mrow> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msubsup> <mi>u</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> <mi>m</mi> </msubsup> </mrow> </mfrac> <mo>,</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>...</mn> <mo>,</mo> <mi>c</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>
隶属度计算公式如下:
<mrow> <msub> <mi>u</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>=</mo> <msup> <mrow> <mo>&amp;lsqb;</mo> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>c</mi> </msubsup> <msup> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mover> <mi>x</mi> <mo>~</mo> </mover> <mi>k</mi> </msub> <mo>-</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mover> <mi>x</mi> <mo>~</mo> </mover> <mi>k</mi> </msub> <mo>-</mo> <msub> <mi>v</mi> <mi>t</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> </mrow> </mfrac> <mo>)</mo> </mrow> <mfrac> <mn>1</mn> <mrow> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> </msup> <mo>&amp;rsqb;</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>
(6)适应度值确定:通过公式(计算每个个体Ep(t)(1≤p≤M)的适应度值,采取升序排列染色体的适应度值;按照适应度值的大小判断个体的优劣性;适应度公式如下:
<mrow> <mi>F</mi> <mrow> <mo>(</mo> <msub> <mi>E</mi> <mi>p</mi> </msub> <mo>(</mo> <mi>t</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>c</mi> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msubsup> <mi>u</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> <mi>m</mi> </msubsup> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mi>k</mi> </msub> <mo>-</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>
其中vi表示为第i类的聚类原型,uik被用来表示样本数据xk隶属于模糊子类第i类的程度,对于条件满足下式:
<mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>c</mi> </munderover> <msub> <mi>u</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mi>k</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>...</mn> <mo>,</mo> <mi>n</mi> </mrow>
记U=[uik]∈Rc×n为模糊划分矩阵;m∈(1,∞)表示模糊化参数,它将决定聚类分析结果的模糊程度,其中一般经典取值为m=2;
(7)修正的轮盘赌策略:在种群中选择父代,种群前期时候,当适应度比较分散的时候,采用适应度进行一定程度的缩小,而且适应度越是高的个体,缩小的幅度越大;在种群后期,当适应度相对集中的时候,对其进行扩大,适应度越大的个体,放大幅度也相对大;采用修正的轮盘赌的选择策略公式,第t代个体的Ep(t)的被选择概率如下:
<mrow> <mi>a</mi> <mo>=</mo> <mfrac> <mrow> <mo>(</mo> <mi>c</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> <msub> <mi>F</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> </msub> </mrow> <mrow> <msub> <mi>F</mi> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>F</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>
<mrow> <mi>b</mi> <mo>=</mo> <mfrac> <mrow> <msub> <mi>F</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>F</mi> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> </msub> <mo>-</mo> <mi>c</mi> <mo>*</mo> <msub> <mi>F</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>F</mi> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>F</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>F</mi> <mrow> <mo>(</mo> <msub> <mi>E</mi> <mi>p</mi> </msub> <mo>(</mo> <mi>t</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>=</mo> <mi>a</mi> <mo>*</mo> <mi>F</mi> <mrow> <mo>(</mo> <msub> <mi>E</mi> <mi>p</mi> </msub> <mo>(</mo> <mi>t</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>+</mo> <mi>b</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <msub> <mi>P</mi> <mi>s</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>E</mi> <mi>p</mi> </msub> <mo>(</mo> <mi>t</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>F</mi> <mrow> <mo>(</mo> <msub> <mi>E</mi> <mi>p</mi> </msub> <mo>(</mo> <mi>t</mi> <mo>)</mo> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <mi>F</mi> <mrow> <mo>(</mo> <msub> <mi>E</mi> <mi>j</mi> </msub> <mo>(</mo> <mi>t</mi> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>12</mn> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中:Fmax表示适应度最大值;Favg表示适应度平均值;F为适应度值;c表示调节参数;Ej(t)表示种群规模M中的个体;
(8)交叉操作:算法的交叉操作将父代优良基因遗传到子代,一对父代个体交叉操作后会产生多个子代个体,所以子代个体之间存有角逐现象;设Ep(t)和Ef(t)(p≠f)分别作为第t代的父代染色体,为增加竞争性,产生四个子代个体:
<mrow> <mtable> <mtr> <mtd> <mrow> <msub> <mi>overl</mi> <mn>1</mn> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>E</mi> <mi>p</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>E</mi> <mi>f</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> <mn>2</mn> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>overl</mi> <mn>2</mn> </msub> <mo>=</mo> <mfrac> <mrow> <mo>(</mo> <msub> <mi>E</mi> <mi>min</mi> </msub> <mo>+</mo> <msub> <mi>E</mi> <mi>max</mi> </msub> <mo>)</mo> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&amp;beta;</mi> <mo>)</mo> <mo>+</mo> <mo>(</mo> <msub> <mi>E</mi> <mi>p</mi> </msub> <mo>(</mo> <mi>t</mi> <mo>)</mo> <mo>+</mo> <msub> <mi>E</mi> <mi>f</mi> </msub> <mo>(</mo> <mi>t</mi> <mo>)</mo> <mo>)</mo> <mi>&amp;beta;</mi> </mrow> <mn>2</mn> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>overl</mi> <mn>3</mn> </msub> <mo>=</mo> <msub> <mi>E</mi> <mi>min</mi> </msub> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&amp;beta;</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>min</mi> <mrow> <mo>(</mo> <msub> <mi>E</mi> <mi>p</mi> </msub> <mo>(</mo> <mi>t</mi> <mo>)</mo> <mo>,</mo> <msub> <mi>E</mi> <mi>f</mi> </msub> <mo>(</mo> <mi>t</mi> <mo>)</mo> <mo>)</mo> </mrow> <mi>&amp;beta;</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>overl</mi> <mn>4</mn> </msub> <mo>=</mo> <msub> <mi>E</mi> <mi>max</mi> </msub> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&amp;beta;</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>max</mi> <mrow> <mo>(</mo> <msub> <mi>E</mi> <mi>p</mi> </msub> <mo>(</mo> <mi>t</mi> <mo>)</mo> <mo>,</mo> <msub> <mi>E</mi> <mi>f</mi> </msub> <mo>(</mo> <mi>t</mi> <mo>)</mo> <mo>)</mo> </mrow> <mi>&amp;beta;</mi> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>13</mn> <mo>)</mo> </mrow> </mrow>
其中,我们把交叉算子的定义为β∈[0,1];min(Ep(t),Ef(t))和max(Ep(t),Ef(t))的每个元素分量取Ep(t)和Ef(t)(p≠f)相对应的极小值和极大值;上面有4种交叉方式产生的子代方法个体势必会好于传统单一的算术或两点式交叉方式,再按照产生的子代个体中挑选出适应度值最优的两个个体,以此作为交叉操作产生的子代;
(9)变异操作:为免染早熟、基因变异位置的随机性和一成不变的变异概率,于任意个体的适应度值大于所有个体适应度平均值的个体应用较小变异概率进行变异引导,这样的做法有利于保证算法变异方向的正确性,较优质量的染色体得以遗传给子代;对于任意个体的适应度值小于所有染色体适应度平均值的个体应用较大变异概率进行变异引导,这样可以使得劣质的个体被淘汰,自主学习的混杂变异概率为:
<mrow> <msub> <mi>P</mi> <mi>m</mi> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mfrac> <mrow> <msub> <mi>P</mi> <mrow> <mi>m</mi> <mn>1</mn> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>F</mi> <mi>max</mi> </msub> <mo>-</mo> <msub> <mi>F</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <msup> <mi>t</mi> <mn>0.5</mn> </msup> <mo>)</mo> <mo>(</mo> <mi>F</mi> <mo>-</mo> <msub> <mi>F</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> </msub> <mo>)</mo> </mrow> </mfrac> <mo>,</mo> <mi>F</mi> <mo>&amp;GreaterEqual;</mo> <msub> <mi>F</mi> <mi>max</mi> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>p</mi> <mrow> <mi>m</mi> <mn>2</mn> </mrow> </msub> <mo>,</mo> <mi>F</mi> <mo>&lt;</mo> <msub> <mi>F</mi> <mi>max</mi> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>14</mn> <mo>)</mo> </mrow> </mrow>
其中:Fmax表示适应度最大值;Favg表示适应度平均值,F表示适应度;t表示遗传优化算法的迭代次数;Pm1和Pm2分别为自主学习的混杂变异概率常量且Pm1<Pm2
(10)根据选择算子从候选中间代Em(t)个体生成子代个体E(t+1)个体;
(11).如果遗传更新次数为t=G或遗传优化结果连续8代不发生变化,则停止寻优运算并获得适当的参数,并进行相应的聚类分析;否则,设置t=t+1并且返回3)。
CN201710993558.8A 2017-10-23 2017-10-23 一种局部加权的不完整数据混杂聚类方法 Pending CN107766887A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710993558.8A CN107766887A (zh) 2017-10-23 2017-10-23 一种局部加权的不完整数据混杂聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710993558.8A CN107766887A (zh) 2017-10-23 2017-10-23 一种局部加权的不完整数据混杂聚类方法

Publications (1)

Publication Number Publication Date
CN107766887A true CN107766887A (zh) 2018-03-06

Family

ID=61269022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710993558.8A Pending CN107766887A (zh) 2017-10-23 2017-10-23 一种局部加权的不完整数据混杂聚类方法

Country Status (1)

Country Link
CN (1) CN107766887A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108897719A (zh) * 2018-05-25 2018-11-27 西安电子科技大学 基于自适应遗传算法的气象数据缺失值填补方法
CN109685136A (zh) * 2018-12-21 2019-04-26 云南电网有限责任公司电力科学研究院 一种高压加热器状态数据分析方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108897719A (zh) * 2018-05-25 2018-11-27 西安电子科技大学 基于自适应遗传算法的气象数据缺失值填补方法
CN108897719B (zh) * 2018-05-25 2019-10-25 西安电子科技大学 基于自适应遗传算法的气象数据缺失值填补方法
CN109685136A (zh) * 2018-12-21 2019-04-26 云南电网有限责任公司电力科学研究院 一种高压加热器状态数据分析方法

Similar Documents

Publication Publication Date Title
Chen et al. Solving many-objective optimization problems via multistage evolutionary search
CN107688825B (zh) 一种改进型的集成加权极限学习机污水处理故障诊断方法
Wang et al. A cluster-based competitive particle swarm optimizer with a sparse truncation operator for multi-objective optimization
CN108595916B (zh) 基于生成对抗网络的基因表达全谱推断方法
CN112232413B (zh) 基于图神经网络与谱聚类的高维数据特征选择方法
WO2023217290A1 (zh) 基于图神经网络的基因表型预测
CN111079788A (zh) 一种基于密度Canopy的K-means聚类方法
Bej et al. A multi-schematic classifier-independent oversampling approach for imbalanced datasets
Furqan et al. Performance of arithmetic crossover and heuristic crossover in genetic algorithm based on alpha parameter
CN114154557A (zh) 癌症组织分类方法、装置、电子设备及存储介质
CN115393632A (zh) 一种基于进化多目标神经网络架构构造的图像分类方法
CN107766887A (zh) 一种局部加权的不完整数据混杂聚类方法
Guo et al. Data mining and application of ship impact spectrum acceleration based on PNN neural network
Çomak A particle swarm optimizer with modified velocity update and adaptive diversity regulation
Ragab et al. Mathematical Modelling of Quantum Kernel Method for Biomedical Data Analysis.
CN112686881B (zh) 基于影像统计特征和lstm复合网络的颗粒物料混合均匀性检测方法
CN113688424A (zh) 基于权重社会网络的个性化差分隐私保护方法
Cui et al. Development of quantum local potential function networks based on quantum assimilation and subspace division
Davarynejad et al. Accelerating convergence towards the optimal pareto front
CN113469107B (zh) 一种融合空间密度分布的轴承故障诊断方法
CN117727373B (zh) 基于样本和特征双加权的特征约简中智c-均值聚类方法
CN111553071B (zh) 一种基于随机嵌入辅助模型的高维多目标演化优化方法
Kaushik et al. Extension of the fuzzy c means clustering algorithm to fit with the composite graph model for web document representation
Yoshinari et al. Probabilistic model-based dynamic architecture search
Wen et al. An Improved Hypervolume-Based Evolutionary Algorithm for Many-Objective Optimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180306

WD01 Invention patent application deemed withdrawn after publication