CN103617206A - 基于自适应小生境的遗传聚类方法 - Google Patents

基于自适应小生境的遗传聚类方法 Download PDF

Info

Publication number
CN103617206A
CN103617206A CN201310580924.9A CN201310580924A CN103617206A CN 103617206 A CN103617206 A CN 103617206A CN 201310580924 A CN201310580924 A CN 201310580924A CN 103617206 A CN103617206 A CN 103617206A
Authority
CN
China
Prior art keywords
mrow
msub
population
individual
math
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310580924.9A
Other languages
English (en)
Inventor
盛伟国
白丽叶
盛蒙蒙
单鹏霄
陈胜勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201310580924.9A priority Critical patent/CN103617206A/zh
Publication of CN103617206A publication Critical patent/CN103617206A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于自适应小生境的遗传聚类方法。该方法针对较大数据或大数据的遗传聚类问题,提出一种基于自适应小生境的遗传聚类算法。首先,生成一个初始种群,选择父本交叉产生后代;然后,采用自适应RTS小生境方法为每一个后代个体选择一个相似度最高的种群个体,并与其进行生存竞争,若后代优于被选择的竞争个体,则代替其进入种群;该过程不断重复直至终止条件成立并最后给出种群的最优解。

Description

基于自适应小生境的遗传聚类方法
技术领域
本发明涉及智能算法和数据聚类领域,具体涉及一种基于自适应小生境的遗传聚类方法,通过嵌入限制锦标赛选择(RTS)小生境方法自动设置其参数值。
背景技术
数据聚类是机器学习中最难、最具挑战性的问题之一。它的目标是将一个数据对象划分为多个簇,使得同一个簇内的对象彼此相似,来自不同簇的对象彼此不相似。数据聚类是无监督学习的一种基本工具,已被广泛应用于许多科学与工程领域,例如大数据分析和计算机视觉等。一般来讲,当需要把大量信息分类成便于管理的有意义的簇的时候,聚类方法极其重要。
数据聚类算法主要包括分层聚类和分割聚类。分层聚类方法生成簇的层次结构,每个簇嵌套在一个更高层次的簇内。这种方法不存在局部最优以及对初始化敏感等问题。然而,分层聚类在聚类过程中仅利用局部信息,忽略簇的大小和全局形状。此外,该方法是一种静态聚类方法,数据对象在聚类的早期阶段被分配到一个给定的簇后,在下一个阶段不能再被分配到其它的簇中。相对于分层聚类,分割聚类则是一种动态的方法,并且考虑簇的大小和全局形状。本发明专利设计的方法针对数据进行分割聚类。
对于一个较大的数据集,确定其最优分割结果被认为是非常困难的问题。为了解决这一难题,现有的方法往往采用随机优化技术,其中最突出的技术是遗传算法。遗传算法(GA)作为一种搜索和优化技术,目前已被广泛应用于生物信息学、计算机科学、工程学等领域。在数据聚类中,对于一些搜索空间较小的聚类问题,传统的GA通常有能力确定最优聚类方案。然而,对于复杂的聚类问题,往往涉及大量的局部最优解,传统GA则无法找出最优聚类结果。这主要是由于传统的GA在进化过程中不能保持解决方案多样性,从而导致整个种群过早收敛到局部最优解。
小生境方法的出现和发展能够缓解这一问题。在搜索过程中,应用小生境方法可以保持种群的多样性,从而防止陷入较差的局部最优解。然而,这些小生境方法的运行效果通常取决于其特定参数的设置。通常这些参数在被设定为某个值后,在整个遗传算法的运行过程中保持不变。由于遗传算法的运行是动态的过程,在整个运行过程中保持小生境方法参数值不变将在很大程度上限制其运行效果。
本发明提出了一种基于自适应RTS小生境的遗传聚类方法,该方法自动调节RTS小生境方法的参数,在种群中形成并维持高适应度的散布小生境,从而有效地探索聚类问题的复杂决策空间。
发明内容
本发明要解决现有遗传聚类算法的缺点和不足,提出一种基于自适应小生境的遗传聚类方法。该方法设计和采用自适应RTS小生境方法在种群中形成和维持高适宜度的散布小生境,从而有效地探索聚类问题的复杂决策空间。
本发明解决其技术问题所采用的方案是:
一种基于自适应小生境的遗传聚类方法,包括如下步骤:
1.产生一个具有P个解的初始种群;
2.计算初始种群中每一个解的适宜度值;
DB = 1 K Σ i = 1 K max j , j ≠ i { S i + S j d ij }
其中,K为簇数目,dij为簇Ci与Cj之间的距离,Si为簇Ci的散布度,
S I = 1 / | C i | Σ x ∈ C i | | x - z i | |
这里Zi为簇Ci的中心值,|Ci|为簇Ci中数据对象的个数。
3.重复以下(a)-(d)操作步骤,直到满足终止条件:
(a)应用RTS小生境方法选择一对父本,重复该过程直到选择P/2对父本;
(b)对每对父本进行交叉操作产生后代,并对后代执行变异操作;
(c)采用自适应RTS小生境方法为每一个后代个体选择一个相似度最高的种群个体,并与其进行生存竞争;
(d)计算每一个后代个体的适宜度值,如果后代个体优于被选择的竞争个体,则取代其竞争个体进入种群。
4.提供最终种群的最优解。
本发明提出的基于自适应小生境的遗传聚类算法,其关键技术在于采用可自动调节小生境参数的RTS方法,在种群中形成并维持高适应度的散布小生境。
对于每对父本产生的后代中的每一个个体,在种群中随机选取w个个体,确定其中与后代个体相似度最高的个体,并使其与后代个体进行基于适宜度的生存竞争;在选取个体的过程中,参数w值的设定对于方法的实施至关重要。本发明通过设计种群多样性指标,从而自适应的调整w值。
自适应RTS方法的具体步骤如下:
(1)根据个体中簇数目的不同,将种群P分成b个子种群。对于每个子种群Sj(j=1,2,…,b),设c为子种群中的个体数量,k为子种群中个体包含的簇数目,d为数据的维数。
(2)首先,根据每个个体在适宜度,通过其与子种群在解空间平均位置的距离,计算该子种群多样性。详细操作如下:
(2.1)计算子种群的平均基因位置:
A m = 1 c Σ i = 1 c P i , m
上式中,Pi,m为个体Pi的第m个基因,Pi=(Pi,1,Pi,2,…,Pi,k×d)。
(2.2)计算每个个体对子种群多样性的贡献,即计算每个个体到平均基因位置的适宜度加权距离:
P D i S j = w i × 1 k Σ m = 1 k × d ( P i , m - A m ) 2
其中,wi=fi/fave,fi和fave分别是个体的适宜度和子种群的平均适宜度。
(2.3)通过求和所有个体对多样性的贡献,计算该子种群的多样性:
P D S j = Σ i = 1 c P D i S j
然后根据种群中存在的子种群数目,计算其多样性贡献:
P D b = b × PD i max
上式中,
Figure BDA0000416702300000044
为当前一代种群中个体对多样性的最大贡献值。
最后,种群的多样性可以表示为:
PD = P D b + Σ j = 1 b P D S j
(3)通过步骤(2)动态计算得到的种群多样性值并用于自动调节RTS中参数w的值。具体策略:在演化的初始阶段,使用一个较大的值wmax以促进在搜索空间中具较好适宜度小生境的形成。在此阶段,由于越来越多具较好适宜度小生境的形成,种群多样性指标也将相应增长。当种群多样性指标停止增长,则该阶段结束并记录种群多样性的最大值。然后,基于动态计算得到的种群多样性值,根据以下公式自动调节参数w的值:
w = w max - PD P D max × ( w max - w min )
上式中,wmax和wmin分别为w的上下界值,PDmax是到目前为止演化过程中得到的PD的最大值。
本发明的技术构思为:针对现有小生境方法中存在的缺点和不足,提出一种基于自适应小生境的遗传聚类算法,设计了自适应RTS小生境方法。具体的,根据演化聚类过程中动态计算得到的种群多样性指标来自动调整RTS中的参数w。本发明方法可在种群中形成并维持高适应度的散布小生境,从而有效地探索聚类问题的复杂决策空间。
本发明的创新之处在于:首先,设计种群多样性指标,根据该多样性指标自动调节RTS的参数值,从而有效克服如何为RTS设定其至关重要的参数值这一难题;其次,采用发明的自适应RTS方法有效解决较大数据或大数据的遗传聚类问题。对于这一特定问题,设计的种群多样性指标可同时用于促进群体的基因和适宜度的多样性。通过该指标控制RTS的参数,可在种群中形成和维持高适应度的散布小生境,从而有效搜索聚类问题中的复杂决策空间。
附图说明
图1是本发明中基于自适应小生境的遗传聚类方法流程图。
图2a是本发明中采用的模拟数据集1。
图2b是本发明中采用的模拟数据集2。
图3a是本发明中基于自适应小生境的遗传聚类方法在模拟数据1上的运行中得到的最优解平均适宜度值(十次平均)。
图3b是本发明中基于自适应小生境的遗传聚类方法在模拟数据2上的运行中得到的最优解平均适宜度值(十次平均)。
图4a是本发明中基于自适应小生境的遗传聚类方法在模拟数据1上的聚类结果。
图4b是本发明中基于自适应小生境的遗传聚类方法在模拟数据2上的聚类结果。
具体实施方式
下面结合附图1和实例对本发明的技术方案做进一步的详细说明。
1.产生一个具有P个解的初始种群;
2.计算初始种群中每一个解的适宜度值,
DB = 1 K Σ i = 1 K max j , j ≠ i { S i + S j d ij }
其中,K为簇数目,dij为簇Ci与Cj之间的距离,Si为簇Ci的散布度,
S I = 1 / | C i | Σ x ∈ C i | | x - z i | |
这里Zi为簇Ci的中心值,|Ci|为簇Ci中数据对象的个数。
3.重复以下(a)-(d)操作步骤,直到满足终止条件:
(a)应用RTS小生境方法选择一对父本,重复该过程直到选择P/2对父本;
(b)对每对父本进行交叉操作产生后代,并对后代执行变异操作;
(c)采用自适应RTS小生境方法为每一个后代个体选择一个相似度最高的种群个体,并与其进行生存竞争;
(d)计算每一个后代个体的适宜度值,如果后代个体优于被选择的竞争个体,则取代该个体进入种群。
4.提供最终种群的最优解。
在步骤3(c)中,对于每对父本产生的后代中的每一个个体,在种群中随机选取w个个体,确定其中与后代个体相似度最高的个体,并使其与后代个体进行基于适宜度的生存竞争;在选取个体的过程中,本发明通过设计种群多样性指标来自适应调整w的值。
步骤3(c)中采用自适应RTS方法调节w值的具体操作如下:
(1)根据个体中簇数目的不同,将种群P分成b个子种群。对于每个子种群Sj(j=1,2,…,b),设c为子种群中的个体数量,k为子种群中个体包含的簇数目,d为数据的维数。
(2)首先,根据每个个体的适宜度,通过加权其与子种群在解空间平均位置的距离,计算该子种群多样性。
(2.1)计算子种群的平均基因位置:
A m = 1 c Σ i = 1 c P i , m - - - ( 1 )
其中,Pi,m为个体Pi的第m个基因,Pi=(Pi,1,Pi,2,…,Pi,k×d)。
(2.2)计算每个个体对子种群多样性的贡献,即计算每个个体到平均基因位置的适宜度加权距离:
P D i S j = w i × 1 k Σ m = 1 k × d ( P i , m - A m ) 2 - - - ( 2 )
其中wi=fi/fave,fi和fave分别是个体的适宜度和子种群的平均适宜度。
(2.3)通过求和所有个体对多样性的贡献,计算该子种群的多样性:
P D S j = Σ i = 1 c P D i S j - - - ( 3 )
然后根据种群中存在的子种群数目,计算其多样性贡献:
P D b = b × PD i max - - - ( 4 )
其中,
Figure BDA0000416702300000075
为当前一代种群中个体对多样性的最大贡献值。
最后,种群的多样性可以表示为:
PD = P D b + Σ j = 1 b P D S j - - - ( 5 )
(3)通过步骤(2)动态计算得到的种群多样性值并用于自动调节RTS中参数w的值。具体策略:在演化的初始阶段,使用一个较大的值wmax以促进在搜索空间中具较好适宜度小生境的形成。在此阶段,由于越来越多具较好适宜度的小生境的形成,种群多样性指标也将相应增长。当种群多样性指标停止增长,则此阶段结束并记录种群多样性最大值。然后,基于动态计算得到的种群多样性值,根据以下公式自动调节参数w的值:
w = w max - PD P D max × ( w max - w min ) - - - ( 6 )
上式中,wmax和wmin分别为w的上下界值,PDmax是到目前为止演化过程
中计算得到的PD的最大值。
实例
实验模拟数据采用R软件生成,如图2所示。从图2中可以看出,模拟数据1中的簇具有不同大小和尺寸,且其中几个簇之间存在相互重叠的状况;模拟数据2则具有大量的簇,并且被加入许多噪声数据以增大聚类的难度。
在实验步骤1中,种群大小被设为Q=100,步骤3(b)中变异率被设为r=0.01;然后在模拟数据上运行步骤1-3操作,在运行过程步骤3(c)中的RTS的w的值根据设计的自适应策略(即步骤3(c)中的具体操作(1)-(3))自动调节;该操作循环运行直到终止条件(即最优解在20代循环中没有变化)成立。根据运行结果,在2个模拟数据上,设计的算法都能正确的找到簇的数目,就聚类的准确性,在模拟数据1上为97.4%,在模拟数据2上为89.4%。本发明方法在模拟数据1上10次运行过程中得到的最优解的平均适宜度值如附图3所示,在模拟数2据上的运行结果如附图4所示。
由实验结果可以看出,本发明方法不仅可以准确确定较大数据或大数据的遗传聚类中簇的数量问题,而且求出的最优解具有较高的聚类精确度。

Claims (2)

1.一种基于自适应小生境的遗传聚类方法,包括如下步骤:
第一步:产生一个具有P个解的初始种群;
第二步:计算初始种群中每一个解的适宜度值;
DB = 1 K Σ i = 1 K max j , j ≠ i { S i + S j d ij }
其中,K为簇数目,dij为簇Ci与Cj之间的距离,Si为簇Ci的散布度,
S I = 1 / | C i | Σ x ∈ C i | | x - z i | |
这里Zi为簇Ci的中心值,|Ci|为簇Ci中数据对象的个数。
第三步:重复以下(a)-(d)操作步骤,直到满足终止条件:
(a)应用RTS小生境方法选择一对父本,重复该过程直到选择P/2对父本;
(b)对每对父本进行交叉操作产生后代,并对后代执行变异操作;
(c)采用自适应RTS小生境方法为每一个后代个体选择一个相似度最高的种群个体,并与其进行生存竞争;
(d)计算每一个后代个体的适宜度值,如果后代个体优于被选择的竞争个体,则取代其竞争个体进入种群。
第四步:提供最终种群的最优解。
2.如权利要求1所述的一种基于自适应小生境的遗传聚类方法,其特征在于:在第三步(c)中设计种群多样性指标来自适应的调整RTS小生境方法的关键参数w的值,具体步骤如下:
(1)根据个体中簇数目的不同,将种群P分成b个子种群。对于每个子种群Sj(j=1,2,…,b),设c为子种群中的个体数量,k为子种群中个体包含的簇数目,d为数据的维数;
(2)根据每个个体的适宜度,通其与子种群在解空间平均位置的距离,计算该子种群多样性。详细操作如下:
(2.1)计算子种群的平均基因位置:
A m = 1 c Σ i = 1 c P i , m
上式中,Pi,m为个体Pi的第m个基因,Pi=(Pi,1,Pi,2,…,Pi,k×d);
(2.2)计算每个个体对子种群多样性的贡献,即计算每个个体到平均基因位置的适宜度加权距离:
P D i S j = w i × 1 k Σ m = 1 k × d ( P i , m - A m ) 2
其中,wi=fi/fave,fi和fave分别是个体的适宜度和子种群的平均适宜度;
(2.3)通过求和所有个体对多样性的贡献,计算该子种群的多样性:
P D S j = Σ i = 1 c P D i S j
然后根据种群中存在的子种群数目,计算其多样性贡献:
P D b = b × PD i max
上式中,
Figure FDA0000416702290000025
为当前一代种群中个体对多样性的最大贡献值;
最后,种群的多样性可以表示为:
PD = P D b + Σ j = 1 b P D S j
(3)通过步骤(2)动态计算得到的种群多样性值并用于自动调节RTS中参数w的值;具体策略:在演化的初始阶段,使用一个较大的值wmax以促进在搜索空间中具较好适宜度小生境的形成。然后,基于动态计算得到的种群多样性值,根据以下公式自动调节参数w的值:
w = w max - PD P D max × ( w max - w min )
上式中,wmax和wmin分别为w的上下界值,PDmax是到目前为止演化过程中得到的PD的最大值。
CN201310580924.9A 2013-11-18 2013-11-18 基于自适应小生境的遗传聚类方法 Pending CN103617206A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310580924.9A CN103617206A (zh) 2013-11-18 2013-11-18 基于自适应小生境的遗传聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310580924.9A CN103617206A (zh) 2013-11-18 2013-11-18 基于自适应小生境的遗传聚类方法

Publications (1)

Publication Number Publication Date
CN103617206A true CN103617206A (zh) 2014-03-05

Family

ID=50167909

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310580924.9A Pending CN103617206A (zh) 2013-11-18 2013-11-18 基于自适应小生境的遗传聚类方法

Country Status (1)

Country Link
CN (1) CN103617206A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239434A (zh) * 2014-08-28 2014-12-24 浙江工业大学 一种基于带有多样化半径技术的小生境遗传算法的聚类方法
CN104867164A (zh) * 2015-04-29 2015-08-26 中国科学院上海微系统与信息技术研究所 一种基于遗传算法的矢量量化码书设计方法
CN106022293A (zh) * 2016-05-31 2016-10-12 华南农业大学 一种基于自适应共享小生境进化算法的行人再识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103310275A (zh) * 2013-06-25 2013-09-18 北京航空航天大学 基于蚁群聚类和遗传算法的新型码本设计方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103310275A (zh) * 2013-06-25 2013-09-18 北京航空航天大学 基于蚁群聚类和遗传算法的新型码本设计方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WEIGUO SHENG: "A niching genetic k-means algorithm and its applications to gene expression data", 《SOFT COMPUTING》 *
WEIGUO SHENG: "A Weighted Sum Validity Function for Clustering With a Hybrid Niching Genetic Algorithm", 《IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS—PART B: CYBERNETICS》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239434A (zh) * 2014-08-28 2014-12-24 浙江工业大学 一种基于带有多样化半径技术的小生境遗传算法的聚类方法
CN104867164A (zh) * 2015-04-29 2015-08-26 中国科学院上海微系统与信息技术研究所 一种基于遗传算法的矢量量化码书设计方法
CN106022293A (zh) * 2016-05-31 2016-10-12 华南农业大学 一种基于自适应共享小生境进化算法的行人再识别方法
CN106022293B (zh) * 2016-05-31 2019-05-07 华南农业大学 一种基于自适应共享小生境进化算法的行人再识别方法

Similar Documents

Publication Publication Date Title
Caye et al. TESS3: fast inference of spatial population structure and genome scans for selection
Liquet et al. Bayesian variable selection regression of multivariate responses for group data
Zhao et al. A modified particle swarm optimization via particle visual modeling analysis
CN103106279A (zh) 一种同时基于节点属性以及结构关系相似度的聚类方法
CN111008685A (zh) 基于生产者依概率反向再生机制的改进人工生态系统优化算法
Ali et al. A modified cultural algorithm with a balanced performance for the differential evolution frameworks
McCormack et al. Deep learning of individual aesthetics
CN110738362A (zh) 一种基于改进的多元宇宙算法构建预测模型的方法
CN109872330A (zh) 一种改进狮群优化的二维Otsu快速图像分割方法
CN102663681B (zh) 基于排序k-均值算法的灰度图像分割方法
CN105224987A (zh) 一种基于动态Lipschitz下界估计的变策略群体全局优化方法
CN103617206A (zh) 基于自适应小生境的遗传聚类方法
Peña-Malavera et al. Comparison of algorithms to infer genetic population structure from unlinked molecular markers
CN109074348A (zh) 用于对输入数据集进行迭代聚类的设备和迭代方法
CN111782904B (zh) 一种基于改进smote算法的非平衡数据集处理方法及系统
CN111832645A (zh) 基于离散型乌鸦差分协同搜索算法的分类数据特征选择方法
CN107766887A (zh) 一种局部加权的不完整数据混杂聚类方法
Chang et al. Gene clustering by using query-based self-organizing maps
CN107065520A (zh) 一种冷风机参数配置优化方法
CN109934344A (zh) 一种改进的基于规则模型的多目标分布估计算法
CN114334168A (zh) 结合协同学习策略的粒子群混合优化的特征选择算法
JP2009271874A (ja) トピック可視化装置、トピック可視化方法、トピック可視化プログラムおよびそのプログラムを記録した記録媒体
CN104376124A (zh) 一种基于扰动吸收原理的聚类算法
CN110263906B (zh) 非对称负相关搜索方法
CN105975564B (zh) 基于相对熵相似度的知识推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140305