CN103617206A - 基于自适应小生境的遗传聚类方法 - Google Patents
基于自适应小生境的遗传聚类方法 Download PDFInfo
- Publication number
- CN103617206A CN103617206A CN201310580924.9A CN201310580924A CN103617206A CN 103617206 A CN103617206 A CN 103617206A CN 201310580924 A CN201310580924 A CN 201310580924A CN 103617206 A CN103617206 A CN 103617206A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- population
- individual
- math
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002068 genetic effect Effects 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 59
- 230000004083 survival effect Effects 0.000 claims abstract description 6
- 108090000623 proteins and genes Proteins 0.000 claims description 10
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 230000015572 biosynthetic process Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000035772 mutation Effects 0.000 claims description 4
- 239000006185 dispersion Substances 0.000 claims description 3
- 125000004432 carbon atom Chemical group C* 0.000 claims description 2
- 238000004088 simulation Methods 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 10
- 230000011218 segmentation Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000002028 premature Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于自适应小生境的遗传聚类方法。该方法针对较大数据或大数据的遗传聚类问题,提出一种基于自适应小生境的遗传聚类算法。首先,生成一个初始种群,选择父本交叉产生后代;然后,采用自适应RTS小生境方法为每一个后代个体选择一个相似度最高的种群个体,并与其进行生存竞争,若后代优于被选择的竞争个体,则代替其进入种群;该过程不断重复直至终止条件成立并最后给出种群的最优解。
Description
技术领域
本发明涉及智能算法和数据聚类领域,具体涉及一种基于自适应小生境的遗传聚类方法,通过嵌入限制锦标赛选择(RTS)小生境方法自动设置其参数值。
背景技术
数据聚类是机器学习中最难、最具挑战性的问题之一。它的目标是将一个数据对象划分为多个簇,使得同一个簇内的对象彼此相似,来自不同簇的对象彼此不相似。数据聚类是无监督学习的一种基本工具,已被广泛应用于许多科学与工程领域,例如大数据分析和计算机视觉等。一般来讲,当需要把大量信息分类成便于管理的有意义的簇的时候,聚类方法极其重要。
数据聚类算法主要包括分层聚类和分割聚类。分层聚类方法生成簇的层次结构,每个簇嵌套在一个更高层次的簇内。这种方法不存在局部最优以及对初始化敏感等问题。然而,分层聚类在聚类过程中仅利用局部信息,忽略簇的大小和全局形状。此外,该方法是一种静态聚类方法,数据对象在聚类的早期阶段被分配到一个给定的簇后,在下一个阶段不能再被分配到其它的簇中。相对于分层聚类,分割聚类则是一种动态的方法,并且考虑簇的大小和全局形状。本发明专利设计的方法针对数据进行分割聚类。
对于一个较大的数据集,确定其最优分割结果被认为是非常困难的问题。为了解决这一难题,现有的方法往往采用随机优化技术,其中最突出的技术是遗传算法。遗传算法(GA)作为一种搜索和优化技术,目前已被广泛应用于生物信息学、计算机科学、工程学等领域。在数据聚类中,对于一些搜索空间较小的聚类问题,传统的GA通常有能力确定最优聚类方案。然而,对于复杂的聚类问题,往往涉及大量的局部最优解,传统GA则无法找出最优聚类结果。这主要是由于传统的GA在进化过程中不能保持解决方案多样性,从而导致整个种群过早收敛到局部最优解。
小生境方法的出现和发展能够缓解这一问题。在搜索过程中,应用小生境方法可以保持种群的多样性,从而防止陷入较差的局部最优解。然而,这些小生境方法的运行效果通常取决于其特定参数的设置。通常这些参数在被设定为某个值后,在整个遗传算法的运行过程中保持不变。由于遗传算法的运行是动态的过程,在整个运行过程中保持小生境方法参数值不变将在很大程度上限制其运行效果。
本发明提出了一种基于自适应RTS小生境的遗传聚类方法,该方法自动调节RTS小生境方法的参数,在种群中形成并维持高适应度的散布小生境,从而有效地探索聚类问题的复杂决策空间。
发明内容
本发明要解决现有遗传聚类算法的缺点和不足,提出一种基于自适应小生境的遗传聚类方法。该方法设计和采用自适应RTS小生境方法在种群中形成和维持高适宜度的散布小生境,从而有效地探索聚类问题的复杂决策空间。
本发明解决其技术问题所采用的方案是:
一种基于自适应小生境的遗传聚类方法,包括如下步骤:
1.产生一个具有P个解的初始种群;
2.计算初始种群中每一个解的适宜度值;
其中,K为簇数目,dij为簇Ci与Cj之间的距离,Si为簇Ci的散布度,
这里Zi为簇Ci的中心值,|Ci|为簇Ci中数据对象的个数。
3.重复以下(a)-(d)操作步骤,直到满足终止条件:
(a)应用RTS小生境方法选择一对父本,重复该过程直到选择P/2对父本;
(b)对每对父本进行交叉操作产生后代,并对后代执行变异操作;
(c)采用自适应RTS小生境方法为每一个后代个体选择一个相似度最高的种群个体,并与其进行生存竞争;
(d)计算每一个后代个体的适宜度值,如果后代个体优于被选择的竞争个体,则取代其竞争个体进入种群。
4.提供最终种群的最优解。
本发明提出的基于自适应小生境的遗传聚类算法,其关键技术在于采用可自动调节小生境参数的RTS方法,在种群中形成并维持高适应度的散布小生境。
对于每对父本产生的后代中的每一个个体,在种群中随机选取w个个体,确定其中与后代个体相似度最高的个体,并使其与后代个体进行基于适宜度的生存竞争;在选取个体的过程中,参数w值的设定对于方法的实施至关重要。本发明通过设计种群多样性指标,从而自适应的调整w值。
自适应RTS方法的具体步骤如下:
(1)根据个体中簇数目的不同,将种群P分成b个子种群。对于每个子种群Sj(j=1,2,…,b),设c为子种群中的个体数量,k为子种群中个体包含的簇数目,d为数据的维数。
(2)首先,根据每个个体在适宜度,通过其与子种群在解空间平均位置的距离,计算该子种群多样性。详细操作如下:
(2.1)计算子种群的平均基因位置:
上式中,Pi,m为个体Pi的第m个基因,Pi=(Pi,1,Pi,2,…,Pi,k×d)。
(2.2)计算每个个体对子种群多样性的贡献,即计算每个个体到平均基因位置的适宜度加权距离:
其中,wi=fi/fave,fi和fave分别是个体的适宜度和子种群的平均适宜度。
(2.3)通过求和所有个体对多样性的贡献,计算该子种群的多样性:
然后根据种群中存在的子种群数目,计算其多样性贡献:
最后,种群的多样性可以表示为:
(3)通过步骤(2)动态计算得到的种群多样性值并用于自动调节RTS中参数w的值。具体策略:在演化的初始阶段,使用一个较大的值wmax以促进在搜索空间中具较好适宜度小生境的形成。在此阶段,由于越来越多具较好适宜度小生境的形成,种群多样性指标也将相应增长。当种群多样性指标停止增长,则该阶段结束并记录种群多样性的最大值。然后,基于动态计算得到的种群多样性值,根据以下公式自动调节参数w的值:
上式中,wmax和wmin分别为w的上下界值,PDmax是到目前为止演化过程中得到的PD的最大值。
本发明的技术构思为:针对现有小生境方法中存在的缺点和不足,提出一种基于自适应小生境的遗传聚类算法,设计了自适应RTS小生境方法。具体的,根据演化聚类过程中动态计算得到的种群多样性指标来自动调整RTS中的参数w。本发明方法可在种群中形成并维持高适应度的散布小生境,从而有效地探索聚类问题的复杂决策空间。
本发明的创新之处在于:首先,设计种群多样性指标,根据该多样性指标自动调节RTS的参数值,从而有效克服如何为RTS设定其至关重要的参数值这一难题;其次,采用发明的自适应RTS方法有效解决较大数据或大数据的遗传聚类问题。对于这一特定问题,设计的种群多样性指标可同时用于促进群体的基因和适宜度的多样性。通过该指标控制RTS的参数,可在种群中形成和维持高适应度的散布小生境,从而有效搜索聚类问题中的复杂决策空间。
附图说明
图1是本发明中基于自适应小生境的遗传聚类方法流程图。
图2a是本发明中采用的模拟数据集1。
图2b是本发明中采用的模拟数据集2。
图3a是本发明中基于自适应小生境的遗传聚类方法在模拟数据1上的运行中得到的最优解平均适宜度值(十次平均)。
图3b是本发明中基于自适应小生境的遗传聚类方法在模拟数据2上的运行中得到的最优解平均适宜度值(十次平均)。
图4a是本发明中基于自适应小生境的遗传聚类方法在模拟数据1上的聚类结果。
图4b是本发明中基于自适应小生境的遗传聚类方法在模拟数据2上的聚类结果。
具体实施方式
下面结合附图1和实例对本发明的技术方案做进一步的详细说明。
1.产生一个具有P个解的初始种群;
2.计算初始种群中每一个解的适宜度值,
其中,K为簇数目,dij为簇Ci与Cj之间的距离,Si为簇Ci的散布度,
这里Zi为簇Ci的中心值,|Ci|为簇Ci中数据对象的个数。
3.重复以下(a)-(d)操作步骤,直到满足终止条件:
(a)应用RTS小生境方法选择一对父本,重复该过程直到选择P/2对父本;
(b)对每对父本进行交叉操作产生后代,并对后代执行变异操作;
(c)采用自适应RTS小生境方法为每一个后代个体选择一个相似度最高的种群个体,并与其进行生存竞争;
(d)计算每一个后代个体的适宜度值,如果后代个体优于被选择的竞争个体,则取代该个体进入种群。
4.提供最终种群的最优解。
在步骤3(c)中,对于每对父本产生的后代中的每一个个体,在种群中随机选取w个个体,确定其中与后代个体相似度最高的个体,并使其与后代个体进行基于适宜度的生存竞争;在选取个体的过程中,本发明通过设计种群多样性指标来自适应调整w的值。
步骤3(c)中采用自适应RTS方法调节w值的具体操作如下:
(1)根据个体中簇数目的不同,将种群P分成b个子种群。对于每个子种群Sj(j=1,2,…,b),设c为子种群中的个体数量,k为子种群中个体包含的簇数目,d为数据的维数。
(2)首先,根据每个个体的适宜度,通过加权其与子种群在解空间平均位置的距离,计算该子种群多样性。
(2.1)计算子种群的平均基因位置:
其中,Pi,m为个体Pi的第m个基因,Pi=(Pi,1,Pi,2,…,Pi,k×d)。
(2.2)计算每个个体对子种群多样性的贡献,即计算每个个体到平均基因位置的适宜度加权距离:
其中wi=fi/fave,fi和fave分别是个体的适宜度和子种群的平均适宜度。
(2.3)通过求和所有个体对多样性的贡献,计算该子种群的多样性:
然后根据种群中存在的子种群数目,计算其多样性贡献:
最后,种群的多样性可以表示为:
(3)通过步骤(2)动态计算得到的种群多样性值并用于自动调节RTS中参数w的值。具体策略:在演化的初始阶段,使用一个较大的值wmax以促进在搜索空间中具较好适宜度小生境的形成。在此阶段,由于越来越多具较好适宜度的小生境的形成,种群多样性指标也将相应增长。当种群多样性指标停止增长,则此阶段结束并记录种群多样性最大值。然后,基于动态计算得到的种群多样性值,根据以下公式自动调节参数w的值:
上式中,wmax和wmin分别为w的上下界值,PDmax是到目前为止演化过程
中计算得到的PD的最大值。
实例
实验模拟数据采用R软件生成,如图2所示。从图2中可以看出,模拟数据1中的簇具有不同大小和尺寸,且其中几个簇之间存在相互重叠的状况;模拟数据2则具有大量的簇,并且被加入许多噪声数据以增大聚类的难度。
在实验步骤1中,种群大小被设为Q=100,步骤3(b)中变异率被设为r=0.01;然后在模拟数据上运行步骤1-3操作,在运行过程步骤3(c)中的RTS的w的值根据设计的自适应策略(即步骤3(c)中的具体操作(1)-(3))自动调节;该操作循环运行直到终止条件(即最优解在20代循环中没有变化)成立。根据运行结果,在2个模拟数据上,设计的算法都能正确的找到簇的数目,就聚类的准确性,在模拟数据1上为97.4%,在模拟数据2上为89.4%。本发明方法在模拟数据1上10次运行过程中得到的最优解的平均适宜度值如附图3所示,在模拟数2据上的运行结果如附图4所示。
由实验结果可以看出,本发明方法不仅可以准确确定较大数据或大数据的遗传聚类中簇的数量问题,而且求出的最优解具有较高的聚类精确度。
Claims (2)
1.一种基于自适应小生境的遗传聚类方法,包括如下步骤:
第一步:产生一个具有P个解的初始种群;
第二步:计算初始种群中每一个解的适宜度值;
其中,K为簇数目,dij为簇Ci与Cj之间的距离,Si为簇Ci的散布度,
这里Zi为簇Ci的中心值,|Ci|为簇Ci中数据对象的个数。
第三步:重复以下(a)-(d)操作步骤,直到满足终止条件:
(a)应用RTS小生境方法选择一对父本,重复该过程直到选择P/2对父本;
(b)对每对父本进行交叉操作产生后代,并对后代执行变异操作;
(c)采用自适应RTS小生境方法为每一个后代个体选择一个相似度最高的种群个体,并与其进行生存竞争;
(d)计算每一个后代个体的适宜度值,如果后代个体优于被选择的竞争个体,则取代其竞争个体进入种群。
第四步:提供最终种群的最优解。
2.如权利要求1所述的一种基于自适应小生境的遗传聚类方法,其特征在于:在第三步(c)中设计种群多样性指标来自适应的调整RTS小生境方法的关键参数w的值,具体步骤如下:
(1)根据个体中簇数目的不同,将种群P分成b个子种群。对于每个子种群Sj(j=1,2,…,b),设c为子种群中的个体数量,k为子种群中个体包含的簇数目,d为数据的维数;
(2)根据每个个体的适宜度,通其与子种群在解空间平均位置的距离,计算该子种群多样性。详细操作如下:
(2.1)计算子种群的平均基因位置:
上式中,Pi,m为个体Pi的第m个基因,Pi=(Pi,1,Pi,2,…,Pi,k×d);
(2.2)计算每个个体对子种群多样性的贡献,即计算每个个体到平均基因位置的适宜度加权距离:
其中,wi=fi/fave,fi和fave分别是个体的适宜度和子种群的平均适宜度;
(2.3)通过求和所有个体对多样性的贡献,计算该子种群的多样性:
然后根据种群中存在的子种群数目,计算其多样性贡献:
最后,种群的多样性可以表示为:
(3)通过步骤(2)动态计算得到的种群多样性值并用于自动调节RTS中参数w的值;具体策略:在演化的初始阶段,使用一个较大的值wmax以促进在搜索空间中具较好适宜度小生境的形成。然后,基于动态计算得到的种群多样性值,根据以下公式自动调节参数w的值:
上式中,wmax和wmin分别为w的上下界值,PDmax是到目前为止演化过程中得到的PD的最大值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310580924.9A CN103617206A (zh) | 2013-11-18 | 2013-11-18 | 基于自适应小生境的遗传聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310580924.9A CN103617206A (zh) | 2013-11-18 | 2013-11-18 | 基于自适应小生境的遗传聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103617206A true CN103617206A (zh) | 2014-03-05 |
Family
ID=50167909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310580924.9A Pending CN103617206A (zh) | 2013-11-18 | 2013-11-18 | 基于自适应小生境的遗传聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103617206A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239434A (zh) * | 2014-08-28 | 2014-12-24 | 浙江工业大学 | 一种基于带有多样化半径技术的小生境遗传算法的聚类方法 |
CN104867164A (zh) * | 2015-04-29 | 2015-08-26 | 中国科学院上海微系统与信息技术研究所 | 一种基于遗传算法的矢量量化码书设计方法 |
CN106022293A (zh) * | 2016-05-31 | 2016-10-12 | 华南农业大学 | 一种基于自适应共享小生境进化算法的行人再识别方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103310275A (zh) * | 2013-06-25 | 2013-09-18 | 北京航空航天大学 | 基于蚁群聚类和遗传算法的新型码本设计方法 |
-
2013
- 2013-11-18 CN CN201310580924.9A patent/CN103617206A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103310275A (zh) * | 2013-06-25 | 2013-09-18 | 北京航空航天大学 | 基于蚁群聚类和遗传算法的新型码本设计方法 |
Non-Patent Citations (2)
Title |
---|
WEIGUO SHENG: "A niching genetic k-means algorithm and its applications to gene expression data", 《SOFT COMPUTING》 * |
WEIGUO SHENG: "A Weighted Sum Validity Function for Clustering With a Hybrid Niching Genetic Algorithm", 《IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS—PART B: CYBERNETICS》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239434A (zh) * | 2014-08-28 | 2014-12-24 | 浙江工业大学 | 一种基于带有多样化半径技术的小生境遗传算法的聚类方法 |
CN104867164A (zh) * | 2015-04-29 | 2015-08-26 | 中国科学院上海微系统与信息技术研究所 | 一种基于遗传算法的矢量量化码书设计方法 |
CN106022293A (zh) * | 2016-05-31 | 2016-10-12 | 华南农业大学 | 一种基于自适应共享小生境进化算法的行人再识别方法 |
CN106022293B (zh) * | 2016-05-31 | 2019-05-07 | 华南农业大学 | 一种基于自适应共享小生境进化算法的行人再识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Caye et al. | TESS3: fast inference of spatial population structure and genome scans for selection | |
Liquet et al. | Bayesian variable selection regression of multivariate responses for group data | |
Zhao et al. | A modified particle swarm optimization via particle visual modeling analysis | |
CN103106279A (zh) | 一种同时基于节点属性以及结构关系相似度的聚类方法 | |
CN111008685A (zh) | 基于生产者依概率反向再生机制的改进人工生态系统优化算法 | |
Ali et al. | A modified cultural algorithm with a balanced performance for the differential evolution frameworks | |
McCormack et al. | Deep learning of individual aesthetics | |
CN110738362A (zh) | 一种基于改进的多元宇宙算法构建预测模型的方法 | |
CN109872330A (zh) | 一种改进狮群优化的二维Otsu快速图像分割方法 | |
CN102663681B (zh) | 基于排序k-均值算法的灰度图像分割方法 | |
CN105224987A (zh) | 一种基于动态Lipschitz下界估计的变策略群体全局优化方法 | |
CN103617206A (zh) | 基于自适应小生境的遗传聚类方法 | |
Peña-Malavera et al. | Comparison of algorithms to infer genetic population structure from unlinked molecular markers | |
CN109074348A (zh) | 用于对输入数据集进行迭代聚类的设备和迭代方法 | |
CN111782904B (zh) | 一种基于改进smote算法的非平衡数据集处理方法及系统 | |
CN111832645A (zh) | 基于离散型乌鸦差分协同搜索算法的分类数据特征选择方法 | |
CN107766887A (zh) | 一种局部加权的不完整数据混杂聚类方法 | |
Chang et al. | Gene clustering by using query-based self-organizing maps | |
CN107065520A (zh) | 一种冷风机参数配置优化方法 | |
CN109934344A (zh) | 一种改进的基于规则模型的多目标分布估计算法 | |
CN114334168A (zh) | 结合协同学习策略的粒子群混合优化的特征选择算法 | |
JP2009271874A (ja) | トピック可視化装置、トピック可視化方法、トピック可視化プログラムおよびそのプログラムを記録した記録媒体 | |
CN104376124A (zh) | 一种基于扰动吸收原理的聚类算法 | |
CN110263906B (zh) | 非对称负相关搜索方法 | |
CN105975564B (zh) | 基于相对熵相似度的知识推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140305 |