CN104881688A - 一种两阶段的基于差分进化和模糊c-均值的聚类算法 - Google Patents
一种两阶段的基于差分进化和模糊c-均值的聚类算法 Download PDFInfo
- Publication number
- CN104881688A CN104881688A CN201510319187.6A CN201510319187A CN104881688A CN 104881688 A CN104881688 A CN 104881688A CN 201510319187 A CN201510319187 A CN 201510319187A CN 104881688 A CN104881688 A CN 104881688A
- Authority
- CN
- China
- Prior art keywords
- stage
- population
- algorithm
- cluster
- convergence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2111—Selection of the most significant subset of features by using evolutionary computational techniques, e.g. genetic algorithms
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Physiology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种两阶段的基于差分进化和模糊C-均值的聚类算法,该算法包含两个阶段,第一阶段采用差分进化算法聚类,第二阶段采用模糊C-均值聚类算法聚类,当第一阶段执行到满足切换条件时,进入到第二阶段执行。提供了一种切换条件的具体方式,即测试种群收敛度;并提供了种群收敛度的具体计算方法。提供了一种第一阶段中对变异缩放因子(F)和交叉概率因子(CR)的参数自适应动态调整方法。与现有技术相比,本发明具有对初始值的依赖程度低、收敛速度快、容易收敛于全局最优、对参数F和CR不敏感等优点。
Description
技术领域
本发明是关于数据挖掘中的聚类算法,属于数据挖掘领域,尤其属于聚类领域。
背景技术
聚类是将样本空间的所有对象划分成若干组,使得同一个组内的对象具有很高的相似性,而不同组间的对象具有很大的差异性。其中,模糊C-均值聚类具有完善的理论基础,并已得到广泛应用。然而,模糊C-均值聚类算法存在一些缺点,主要表现在对初始值的依赖程度高、容易收敛于局部最优、对噪音数据处理能力较弱等。
差分进化(Differential Evolution,DE)算法是一种基于种群的寻优算法。差分进化算法对解采用实数向量编码,在整个搜索空间中随机进化,以寻找全局最优解。差分进化算法采用三个控制参数:变异缩放因子(F)、交叉概率因子(CR)、种群规模(NP)。差分进化算法具有对初始值的依赖程度小、容易收敛于全局最优、鲁棒性好等优点。
由于差分进化算法具有上述的一些优点,目前有研究将差分进化算法应用于聚类问题,提出了基于差分进化的模糊聚类算法。然而,现有的基于差分进化的模糊聚类算法具有两方面的缺点:(1)算法所采用的差分进化对变异缩放因子(F)和交叉概率因子(CR)敏感;(2)算法的收敛速度慢。
发明内容
针对现有技术存在的问题,本发明的主要目的在于提供一种对初始值的依赖程度低并且能够快速收敛于全局最优的聚类算法。
为实现上述目的,本发明提供一种两阶段的基于差分进化和模糊C-均值的聚类算法,其特征在于包含以下内容:
1.采用两个阶段相接合的方式进行聚类
如图1所示,本发明包含两个阶段——第一阶段:用差分进化算法聚类;第二阶段:用模糊C-均值聚类算法聚类。
2.参数的自适应动态调整
在本发明的第一阶段中,对变异缩放因子(F)和交叉概率因子(CR)两个参数提供一种自适应动态调整方法,即:每次在种群个体进化之前,先更新F和CR,使得F和CR的值不再是一个常量。通过该方法能有效地减少差分进化算法对F和CR的敏感度。更新F和CR的方法见公式(7)和(8)。
3.测试种群收敛度来作为由第一阶段进入到第二阶段的切换条件
在本发明的第一阶段中,在整个种群完成一次进化后,测试种群的收敛度h,h描述了种群个体之间的差异程度。若h小于事先给定的阈值hc,则结束第一阶段,以第一阶段得到的解作为第二阶段的初值,进入到第二阶段执行;否则继续执行第一阶段,即进行下一次迭代。
4.计算种群收敛度h的方法由公式(12)给出。
附图说明
图1是本发明的流程图。
图2是图1中步骤S1的流程图。
图3是图1中步骤S3的流程图。
具体实施方式
下面结合附图,对本发明的具体实施方式做详细说明。
模糊聚类问题的描述如下:
给定数据集X={x1,x2…,xn},X中有n个对象,其中每个对象有d个维度。聚类就是将X划分为C个类。vi(1≤i≤C)为第i个类的聚类中心,C个聚类中心组成的向量V={v1,v2,…,vc}称为聚类中心矢量。与传统聚类不同,模糊聚类在划分时,每个对象不是严格地被划分到某个类中,而是用对象与类的隶属度来描述,隶属度的计算公式为(14a)和(14b)。Un×C为隶属度矩阵,其中的元素uij表示第i个对象与第j类的隶属度,其满足:
聚类结果的优劣,用目标函数评价,目标函数为:
其中,||xi-vj||2为对象xi与聚类中心vj的距离,m>1是模糊加权参数。
把聚类中心矢量用实数向量编码,可作为原问题的一个解,则解的格式为(3)式所示:
V=[(v11,v12,…,v1d),(v21,v22,…,v2d),…,(vC1,vC2,…,vCd)] (3)
如图1所示,本发明所提供的算法包含两个阶段。
1.第一阶段:采用差分进化算法聚类
1.1初始化
算法执行前,首先由用户给定以下参数:聚类个数C、种群规模NP、收敛度阈值hc、变异缩放因子下界交叉概率因子下界模糊加权参数m、最大迭代次数。
然后初始化种群。初始化种群需要尽可能均匀地覆盖整个解空间,因此需要求得原始数据集X的下界和上界,分别为
其中,是原始数据集X中所有对象第i维度的最小值;是原始数据集X中所有对象第i维度的最大值。
随机初始化一个种群个体V,即一个聚类中心矢量,亦即原问题的一个解,初始化公式如(6)式所示:
vij表示聚类中心矢量的第i个聚类中心的第j个维度的值。其中,rand(0,1)返回一个[0,1]之间的浮点随机数,服从[0,1]上的均匀分布。
初始化NP个这样的聚类中心矢量,NP为种群的规模。第i个聚类中心矢量用Vi(1≤i≤NP)表示。种群为Z={V1,V2,…,VNP},这NP个个体格式一致,但互相各不相等,每个个体均可作为原问题的一个解,但这些解存在着优劣之分。
1.2进化过程
该过程对应图1中的步骤S1。该步又可分为4个步骤:参数自适应动态调整、变异操作、交叉操作和选择操作。
1.2.1参数自适应动态调整
该步骤对应图2中的步骤S1.1。
差分进化算法对变异缩放因子F和交叉概率因子CR敏感,因此本发明提供一种自适应的方法动态更新F和CR,其目的是让算法在执行过程中F和CR不再是常量,从而降低算法对这两个参数的敏感程度。F和CR的更新公式如(7)式和(8)式所示:
其中,和分别表示F和CR的下界。
1.2.2变异操作
该步骤对应图2中的步骤S1.2。
用表示第g代种群中第i个个体。
从种群中随机地选择三个聚类中心矢量进行矢量运算,得到一个临时的实验矢量D,如(9)式所示
其中,ri(i=1,2,3)是互不相等的整数,取值范围为[1,NP]。
1.2.3交叉操作
该步骤对应图2中的步骤S1.3。
通过矢量D与矢量的交叉操作得到交叉后的实验矢量S,S每一维度的取值如(10)式所示
其中,Ir是[1,C×d]上的一个随机整数,使得S中至少有一个分量是由D贡献的。
1.2.4选择操作
该步骤对应图2中的步骤S1.4。
依据目标函数进行选择操作:
1.3测试种群收敛度
该步骤对应图1中的步骤S2及下面的判定操作。
整个种群每完成一次进化后,测试种群的收敛度h,h描述了种群个体之间的差异程度。若h小于事先给定的阈值hc,说明解已经收敛到全局最优解附近,此时停止差分进化算法(图1中第一阶段)的执行,将差分进化算法得到的解作为模糊C-均值聚类算法的初值,进行聚类(图1中第二阶段)。若种群收敛度没有满足阈值条件,则继续执行第一阶段,即进行下一次迭代。通过测试种群收敛度的方式不仅可以得到较快的收敛速度,同时解决了模糊C-均值算法对初值敏感程度高、容易收敛于局部最优的问题。
种群的收敛度用(12)式来计算,若种群的规模为NP,第i个个体的目标函数值为Ji=J(U,Vi),平均目标函数值为则种群收敛度定义如下:
其中
2.第二阶段:用模糊C-均值聚类算法聚类
该步骤对应图1中的步骤S3。
2.1计算隶属度矩阵
该步骤对应图3中的步骤S3.1。
令Ii={j|1≤j≤C,||xi-vj||=0},Ii={1,2,…,C}-Ii。
当Ii=φ时,
当Ii≠φ时,
2.2计算聚类中心矢量
该步骤对应图3中的步骤S3.2。
聚类中心矢量的计算如(15)式所示:
Claims (4)
1.一种两阶段相接合的方式进行聚类的方法,其特征在于:采用两个阶段进行聚类,第一阶段采用差分进化算法聚类,第二阶段采用模糊C-均值聚类算法聚类,当第一阶段执行到满足切换条件时,进入到第二阶段执行,如图1所示。
2.一种权利要求1中的第一阶段的聚类算法中,对变异缩放因子(F)和交叉概率因子(CR)的参数自适应动态调整方法,其特征在于:每次进化之前,先对F和CR进行更新,更新F和CR的方法为公式(7)和(8)。
3.一种权利要求1中的切换条件的具体方式,其特征在于:整个种群完成一次进化后,测试种群收敛度h,若h小于一个事先给定的阈值hc,则结束第一阶段,以第一阶段得到的解作为第二阶段的初值,进入到第二阶段执行;否则继续执行第一阶段,即进行下一次迭代。
4.一种权利要求3中的种群收敛度h的具体计算方法,其特征在于:h由公式(12)来计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510319187.6A CN104881688A (zh) | 2015-06-11 | 2015-06-11 | 一种两阶段的基于差分进化和模糊c-均值的聚类算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510319187.6A CN104881688A (zh) | 2015-06-11 | 2015-06-11 | 一种两阶段的基于差分进化和模糊c-均值的聚类算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104881688A true CN104881688A (zh) | 2015-09-02 |
Family
ID=53949175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510319187.6A Pending CN104881688A (zh) | 2015-06-11 | 2015-06-11 | 一种两阶段的基于差分进化和模糊c-均值的聚类算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104881688A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105654120A (zh) * | 2015-12-25 | 2016-06-08 | 东南大学—无锡集成电路技术研究所 | 一种基于SOM和K-means两阶段聚类的软件负载特征提取方法 |
CN105760710A (zh) * | 2016-03-11 | 2016-07-13 | 浙江工业大学 | 一种基于两阶段差分进化算法的蛋白质结构预测方法 |
CN110739687A (zh) * | 2019-10-24 | 2020-01-31 | 福州大学 | 一种考虑风电高阶不确定性的电力系统分布鲁棒调度方法 |
CN110986960A (zh) * | 2019-12-31 | 2020-04-10 | 哈尔滨工业大学 | 一种基于改进聚类算法的无人机航迹规划方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120048374A (ko) * | 2010-11-05 | 2012-05-15 | 목포대학교산학협력단 | Knn과 gg방법을 이용한 fcm 군집화 기반의 혼합된 무선 실내 측위 방법 |
CN102831474A (zh) * | 2012-08-06 | 2012-12-19 | 江南大学 | 基于量子粒子群优化改进的模糊c-均值聚类方法 |
CN102855301A (zh) * | 2012-08-20 | 2013-01-02 | 中山大学 | 稀疏模糊c均值聚类方法 |
CN103795595A (zh) * | 2014-02-13 | 2014-05-14 | 杨启帆 | 一种局域网内网入侵的智能检测方法 |
CN104536412A (zh) * | 2014-12-23 | 2015-04-22 | 清华大学 | 基于指标预报和解相似度分析的光刻工序动态调度方法 |
-
2015
- 2015-06-11 CN CN201510319187.6A patent/CN104881688A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120048374A (ko) * | 2010-11-05 | 2012-05-15 | 목포대학교산학협력단 | Knn과 gg방법을 이용한 fcm 군집화 기반의 혼합된 무선 실내 측위 방법 |
CN102831474A (zh) * | 2012-08-06 | 2012-12-19 | 江南大学 | 基于量子粒子群优化改进的模糊c-均值聚类方法 |
CN102855301A (zh) * | 2012-08-20 | 2013-01-02 | 中山大学 | 稀疏模糊c均值聚类方法 |
CN103795595A (zh) * | 2014-02-13 | 2014-05-14 | 杨启帆 | 一种局域网内网入侵的智能检测方法 |
CN104536412A (zh) * | 2014-12-23 | 2015-04-22 | 清华大学 | 基于指标预报和解相似度分析的光刻工序动态调度方法 |
Non-Patent Citations (4)
Title |
---|
RYOJI TANABE 等: ""Success-History Based Parameter Adaptation for Differential Evolution"", 《2013 IEEE CONGRESS ON EVOLUTIONARY COMPUTATION (CEC)》 * |
YUCHENG KAO 等: "Fuzzy Clustering by Differential Evolution", 《EIGHTH INTERNATIONAL CONFERENCE ON INTELLIGENT SYSTEMS DESIGN AND APPLICATIONS》 * |
张大斌 等: "基于差分进化自动聚类的信用风险评价模型研究", 《中国管理科学》 * |
梅振益 等: "基于混沌差分进化模糊聚类的多模型建模", 《计算机与应用化学》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105654120A (zh) * | 2015-12-25 | 2016-06-08 | 东南大学—无锡集成电路技术研究所 | 一种基于SOM和K-means两阶段聚类的软件负载特征提取方法 |
CN105654120B (zh) * | 2015-12-25 | 2019-06-21 | 东南大学苏州研究院 | 一种基于SOM和K-means两阶段聚类的软件负载特征提取方法 |
CN105760710A (zh) * | 2016-03-11 | 2016-07-13 | 浙江工业大学 | 一种基于两阶段差分进化算法的蛋白质结构预测方法 |
CN110739687A (zh) * | 2019-10-24 | 2020-01-31 | 福州大学 | 一种考虑风电高阶不确定性的电力系统分布鲁棒调度方法 |
CN110739687B (zh) * | 2019-10-24 | 2021-06-01 | 福州大学 | 一种考虑风电高阶不确定性的电力系统分布鲁棒调度方法 |
CN110986960A (zh) * | 2019-12-31 | 2020-04-10 | 哈尔滨工业大学 | 一种基于改进聚类算法的无人机航迹规划方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kang et al. | A weight-incorporated similarity-based clustering ensemble method based on swarm intelligence | |
CN107203785A (zh) | 多路径高斯核模糊c均值聚类算法 | |
CN110321451B (zh) | 基于分布熵增益损失函数的图像检索算法 | |
CN104881688A (zh) | 一种两阶段的基于差分进化和模糊c-均值的聚类算法 | |
CN107992895A (zh) | 一种Boosting支持向量机学习方法 | |
Fan et al. | Zoning search with adaptive resource allocating method for balanced and imbalanced multimodal multi-objective optimization | |
CN106503731A (zh) | 一种基于条件互信息和K‑means的无监督特征选择方法 | |
CN104881871A (zh) | 基于改进多目标和声搜索算法的交通图像分割方法 | |
Farid et al. | Assigning weights to training instances increases classification accuracy | |
CN103824285B (zh) | 一种基于蝙蝠优化模糊聚类的图像分割方法 | |
CN114626435A (zh) | 一种高准确率的滚动轴承智能故障特征选择方法 | |
CN109934344B (zh) | 一种改进的基于规则模型的多目标分布估计方法 | |
Liu et al. | A weight-incorporated similarity-based clustering ensemble method | |
CN112738724B (zh) | 一种区域目标人群的精准识别方法、装置、设备和介质 | |
Qiu et al. | Support vector machine with parameter optimization by bare bones differential evolution | |
Salih et al. | Jaya: an evolutionary optimization technique for obtaining the optimal Dthr value of evolving clustering method (ECM) | |
Zhang et al. | Evolutionary extreme learning machine based weighted nearest-neighbor equality classification | |
CN104021563B (zh) | 基于多目标模糊聚类和反对学习的噪声图像分割方法 | |
Zhou et al. | Imbalanced Multi-Fault Diagnosis via Improved Localized Feature Selection | |
Sagar et al. | Error Evaluation on K-Means and Hierarchical Clustering with Effect of Distance Functions for Iris Dataset | |
Tian et al. | Aode for source code metrics for improved software maintainability | |
CN104537667A (zh) | 基于方向多目标遗传聚类算法的图像分割方法 | |
Roknizadeh et al. | Hybrid Ensemble optimized algorithm based on Genetic Programming for imbalanced data classification | |
CN109960703A (zh) | 用于大数据挖掘聚类的自适应pso-pfcm聚类方法 | |
Chen et al. | Clustering time-evolving data using an efficient differential evolution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150902 |