CN104239434A - 一种基于带有多样化半径技术的小生境遗传算法的聚类方法 - Google Patents

一种基于带有多样化半径技术的小生境遗传算法的聚类方法 Download PDF

Info

Publication number
CN104239434A
CN104239434A CN201410431949.7A CN201410431949A CN104239434A CN 104239434 A CN104239434 A CN 104239434A CN 201410431949 A CN201410431949 A CN 201410431949A CN 104239434 A CN104239434 A CN 104239434A
Authority
CN
China
Prior art keywords
microhabitat
individual
individuality
radius
represent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410431949.7A
Other languages
English (en)
Inventor
盛伟国
范东成
汪晓妍
李军伟
何俊丽
陈胜勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201410431949.7A priority Critical patent/CN104239434A/zh
Publication of CN104239434A publication Critical patent/CN104239434A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Genetics & Genomics (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于带有多样化半径技术的小生境遗传算法的聚类方法,所述聚类方法包括以下步骤:1)染色体编码和种群初始化;2)计算个体适应度;3)采用动态识别方法识别群体中的小生境位置、内容和数目;4)执行多样化半径机制调整各个小生境的半径信息;5)应用适应度共享函数重新计算个体的新适应度;6)执行选择、交叉和变异操作;7)执行精英策略替换群体中最差的个体;8)若满足终止条件,则终止运行;否则,跳转至步骤5)。本发明提供一种具有很好的聚类效果、稳定性良好的基于带有多样化半径技术的小生境遗传算法的聚类方法。

Description

一种基于带有多样化半径技术的小生境遗传算法的聚类方法
技术领域
本发明涉及数据挖掘技术,尤其是一种聚类方法。 
背景技术
数据挖掘是从海量的、模糊的、有噪声的、随机的、不完全的数据中,发掘隐含的、尚未发现的、却又是可能有用的信息和知识的过程。聚类分析是数据挖掘的一个重要内容和基本形式之一,数据聚类是指根据数据的内在特征,通过某种度量方式将数据分成若干聚合类,使每一个聚合类内的数据具有相似的特性,不同聚合类之间的数据的特性具有尽可能大的差异性。 
对于实际要解决的数据集,在进行聚类分析时,具体应该选择哪种或哪类聚类算法,主要考虑数据的类型特征、算法的特点以及聚类的目标几个因素。有时,也需要同时采用多种聚类方法,以从不同的角度分析数据的特征,从而找出真正想要的结果。总体上,主要的聚类算法可以分为如下几类: 
1)基于划分方法 
对于含有n个数据的数据集,基于划分的方法需要用户预先给定最终划分的数目k,然后根据目标函数的最小化组合,将数据划分为k组。此时,划分为k组的数据应满足一下两个要求:1)每个组至少包含一个数据;2)每个数据至少属于且唯一属于一个组。基于划分的方法,算法首先要建立一个初始划分,即随机选取k个数据点作为初始划分中心点,然后采用迭代重定位技术,并通过不断移动数据在组间的划分找到最优划分。划分过程中采用的唯一准则就是:基于某种相似性度量方式,使同一个组内的数据尽可能的相似,不同组内数据的差异性尽可能的大[38]。基于划分方法的聚类方法主要有:k-means、k-中心点、PAM、CLARA、CLARANS等。 
2)基于层次方法 
基于层次的方法按照对象的分层建立簇,同时形成一颗以簇为节点的树。根据层次分解形成的过程不同,基于层次的方法可以分成分裂的或凝聚的方法。凝聚法,也叫自底向上的方法,它首先将每个数据作为一个单独的组,然后不断的把相近的组或数据组合成一个组,直到所有的数据都被放在一个组里或者满足某 个终止条件为止。分裂法,也叫自顶向下的方法,它首先把所有的数据都看成同一个簇,然后进行不断的迭代分裂,每次迭代的目的都是为了把上一个簇分成更小的簇,直到每个对象各自成为一个簇或者满足某个终止条件。这种方法的缺陷在于,合并或分裂簇的操作都是不可逆,这给聚类的结果带来了不准确性。目前有一些技术试图克服这一缺陷。有人试图通过移动树的分支以改善全局目标函数。也有人使用划分聚类的技术来创建许多小簇,然后从这些小簇出发进行层次聚类。基于层次方法的聚类算法主要有:BIRCH,CURE,ROCK,COBWEB算法等。 
3)基于密度的方法 
目前很多算法都是根据数据之间的距离来确定对象间的相似性的,前面提到的基于划分和基于层次的方法就是基于这种相似性来进行聚类。然而这类方法的缺陷在于,它们只能找到球形簇,而对于其他形状的簇则可能无法很好的辨别,甚至无法正确的进行聚类。因此产生了基于密度的方法。这种聚类方法的主要思想就是:根据数据点的密集程度来确定是否需要继续聚类[40]。该种方法可以发现任意形状的簇,而且能够有效的去除噪声数据。典型的基于密度的聚类方法包括DBSCAN和OPTICS。 
4)基于网格的方法 
基于网格方法的基本思想就是把对象空间量化为一定数目的单元,这些单元组成一个网格结构,然后在这个结构上进行聚类操作。该方法主要的优点是:有着非常快的处理速度,它的处理时间与数据对象的数量是无关的,只与量化空间的每一维的单元数有关系[41]。比较典型的基于网格的算法有:CLIQUE算法、OptiGird算法、STING算法等。 
5)基于模型的方法 
基于模型的聚类方法将不同的簇假定不同的模型,然后不断的寻找一定的数据集,使这个数据集能够与给定到的模型形成最佳的拟合。该方法的主要目的是试图将给定的数据和假定模型之间找出一个最优的组合。这种方法主要分成两类:一种是统计学方法,主要代表算法有COBWEB算法、CLASSIT算法、和AutoClass算法;另一种是神经网络方法,主要算法有竞争学习法和自组织特征映射法。 
采用遗传算法解决数据聚类的问题,是一种新的聚类分析方法,对于数值属性和符号属性的数据进行聚类,具有较好的效果。近年来也有很多学者对基于遗 传算法的聚类分析做了深入研究。现有的聚类方法存在的缺陷是:聚类效果相对较差、稳定性较差。 
发明内容
为了克服已有基于遗传算法的聚类方法的聚类效果较差、稳定性较差的不足,本发明提供一种具有很好的聚类效果、稳定性良好的基于带有多样化半径技术的小生境遗传算法的聚类方法。 
本发明解决其技术问题所采用的技术方案是: 
一种基于带有多样化半径技术的小生境遗传算法的聚类方法,所述聚类方法包括以下步骤: 
1)染色体编码和种群初始化 
一个染色体被编码成一个聚类中心,每个染色体由v个实数组成,染色体表示为c=[c1,c2,…,cv],这里v代表特征空间的维数; 
随机选取N个数据点,N为群体规模,每个数据点是由v维实数组成,每个数据点表示一个染色体且没有重复的数据点; 
2)计算个体适应度 
令X={x1,x2,…,xn}是N维向量空间的一个子集,K是聚类数目,S(xj,ci)表示数据点Xj和第i个聚类中心ci的相似性度量函数,聚类目标是找出ci使总相似度J(c)最大,J(c)表示为: 
J ( c ) = Σ i = 1 K Σ j = 1 n ( exp ( - | | x j - c i | | 2 β ) ) γ - - - ( 1 )
c=(c1,c2,…,ck),β定义为: 
β = Σ j = 1 n | | x j - x ‾ | | 2 n - - - ( 2 )
其中, x ‾ = Σ j = 1 n x j n , ;
令Js(xk)表示数据点xk到其他所有点的总相似度,且Js(xk)的计算方式如下: 
J s ( x k ) = Σ j = 1 n ( exp ( - | | x j - k k | | 2 β ) γ , k = 1,2 , . . . , n . - - - ( 3 )
该函数近似的看成是数据点xk的领域密度函数; 
γ的值用CCA算法来估计,在得到γ的估计值之后,函数Js(xk)则成为了一个多模函数,函数峰的数量等于聚类中心的数量,峰值点的位置也与聚类中心的位置相同; 
3)采用动态识别方法识别群体中的小生境位置、内容和数目,过程如下: 
3.1)将群体中的个体按照适应度的大小进行从大到小排序; 
3.2)设定算法进化过程中的控制参数:令t代的候选小生境数v(t)=0;t代的实际小生境数u(t)=0;当前动态物种集CDSS=0; 
3.3)从第一个个体顺序执行下列步骤到最后一个个体: 
(3.3.1)若个体未被标记,则标记该个体为新的小生境中心,且该个体为该小生境的优胜者; 
(3.3.2)将群体中与该个体的距离小于该小生境半径,同时尚未被标记的个体分配给这个小生境; 
(3.3.3)计算小生境中个体的数目,若个体数目大于1,则令候选小生境数加1; 
4)执行多样化半径机制调整各个小生境的半径信息; 
基于相邻小生境的位置关系来判断两个小生境是否需要合并,若合并,新产生的小生境的半径则要重新计算;再者,提出了一个小生境个体剔除的操作,这个操作的目的是把不属于该小生境的个体剔除。 
5)应用适应度共享函数重新计算个体的新适应度; 
设dij表示个体i和个体j之间的密切程度的度量,sh为共享函数,mi表示个体i在群体中的共享度,则有计算出所有个体的共享度后,个体适应度f(i)依据下式调整为fsh(i):fs(i)=f(i)/mi; 
6)执行选择、交叉和变异操作; 
7)执行精英策略替换群体中最差的个体; 
8)若满足终止条件,则终止运行;否则,跳转至步骤5)。 
进一步,所述步骤3)中,小生境的代表着是第一个被识别的领导个体。当 小生境的领导个体被选定后,这个小生境则被定义为如果群体中至少有一个个体与领导个体的距离小于相应的小生境半径,并且未被标记过,则领导个体作为新产生小生境的代表者,同时标记从属的个体;否则,该领导个体被视为独立个体。这是一个循环迭代的过程,当这个过程执行到群体的最后一个个体后,群体Pt被分为v(t)个小生境和若干独立个体的集合; 
群体用下面的公式表示: 
P t = ( ∪ i ∈ { 1 , . . . , v ( t ) } S t i ) ∪ S t * - - - ( 4 )
这里代表候选小生境个体的集合,代表独立个体的集合。 
再进一步,所述步骤4)中,定义1为合并规则:令Ni和Nj分别表示两个不同的小生境,他们的领导个体的适应度分别为fi和fj,若fi>fj,则将Nj合并到Ni中去,否则,将Ni合并到Nj中去; 
定义2为距离度量方式:令个体Mi和Mj分别表示小生境Ni和Nj的领导个体,则这两个小生境之间的距离可以表示为 
d(Ni,Nj)=d(Mi,Mj)=||Mi-Mj||2.        (5) 
基于上定义1和定义2,小生境合并操作的步骤如下:对于任意使用DNI产生的候选小生境,用欧几里得距离公式找到与其最近的小生境,用一个v(t)×v(t)的矩阵W来表示任意两个小生境之间的关系, 
w ij = 1 ifd ( N i , N j ) = min k ≠ j , k = 1,2 , . . . , v ( t ) d ( N k , N j ) , 0 otherwise , - - - ( 6 )
这里d(Ni,Nj)表示小生境i和j之间的距离,Wij=1表示这两个小生境之间是最近的,合并因子用Cij表示,若Cij=1,则二者需要合并,合并因子Cij是由理论1来决定的, 
理论1:令Ni和Nj分别表示两个不同的小生境,个体Mi和Mj分别表示小生境Ni和Nj的领导个体,且这两个领导个体的适应度分别为fi和fj,则连接两个领导个体的连线表示为: 
x=Mi+k(Mj-Mi),k∈(0,1).          (7) 
然后沿着这条连线分别产生r个随机点,同时计算它们的适应度,若存在 m∈(0,1)满足 
f(xm)<min(fi,fj),        (8) 
也就是说,有凹点存在于Ni和Nj之间,因此Ni和Nj不需要合并,此时Cij=0;在理论1中,给定欧式空间中的两个端点,沿着由这两个端点组成的连线上随机的产生若干点并且计算它们的适应度,判断在这两个端点中间是否存在凹点;如果有凹点存在,则两个相邻的小生境是独立的,它们不需要合并;若没有凹点存在,则说明两个相邻的小生境不是独立的,也就是说他们属于同一个小生境,需要合并成一个小生境; 
如果确定了两个小生境需要合并,则合并操作的具体描述见理论2, 
理论2:令Ni和Nj为最相邻的两个小生境,定义 分别为小生境Ni和Nj的个体集合,个体Mi和Mj分别表示小生境Ni和Nj的领导个体,且这两个领导个体的适应度分别为fi和fj。若Cij=1,且fi>fj,则把Nj合并到Ni中 
s t ′ i = s t i + s t j , - - - ( 9 )
如果小生境Nj中的个体k是离领导者Mi最远的个体,则小生境Ni的半径调整为 
&delta; v ( t ) &prime; i = d ( M i , N j k ) if &delta; v ( t ) i < d ( M i , N j k ) &delta; v ( t ) i otherwise , - - - ( 10 )
这里Nj中的个体k,同时,设置 
u(t)=u(t)-1.               (12) 
在执行了小生境的合并操作之后,随后开始操作个体剔除的操作,参照理论3: 
理论3:令个体Mi表示小生境Ni的领导个体,表示小生境中适应度最低的个体,表示小生境中离领导个体最远的个体,则下一代使用的小生境半径则按下式进行调整: 
&delta; v ( t ) &prime; i = d ( M i , N j w ) if N j w &NotEqual; N j f &delta; v ( t ) i otherwise . - - - ( 13 ) ;
多样化半径机制的具体过程如下: 
4.1)计算所有候选小生境之间的距离; 
4.2)从第一个小生境顺序执行下列步骤到最后一个小生境: 
(4.2.1)若小生境i与j是最相近的两个子群体,则根据理论1计算Sij; 
(4.2.2)若Sij=1,则根据定义1合并i和j,同时根据理论2调整小生境i和j的信息; 
4.3)根据理论3更新所有小生境的半径; 
4.4)调整初始半径 
在执行多样化小生境半径的操作后,对群体则有了一个新的划分,划分结果如下: 
P t = ( &cup; i &Element; { 1 , . . . , v ( t ) } S t &prime; i ) &cup; S t &prime; * . - - - ( 14 )
然后群体中所有个体的适应度进行调整,独立个体的适应度不变,小生境数目的计算方式修改如下: 
m i = &Sigma; p j &Element; s t i sh ( d ij ) - - - ( 15 ) .
更进一步,定义一个忍受因子δ,此时公式8则修改为: 
f(xm)<δmin(fi,fj).              (16)。 
所述步骤6)中,若c1和c2为父代个体,则后代c在父代经过中间重组交叉操作后的结果是:c=c1+r(c1-c2),这里r是[0,1]之间的符合平均分布的随机数; 
每个染色体的变异概率为pm。假设数据集中第q维的最大和最小值分别为cmin q和cmax q,变异基因点的值为cq,则一致领域变异的结果为: 
c 0 q = c q + r m R ( c max q - c min q ) - - - ( 17 )
这里R是符合平均分布的随机数,取值区间为[-1,1],rm∈(0,1)。 
本发明的有益效果主要表现在:具有很好的聚类效果、稳定性良好。 
附图说明
图1为数据集的示意图,其中,(a)normal_5、(b)normal_16、(c)normal_4和(d)normal_3。 
图2为四个数据集获得的聚类中心,其中(a)normal_5、(b)normal_16、(c) normal_4和(d)normal_3。 
具体实施方式
下面结合附图对本发明作进一步描述。 
参照图1和图2,一种基于带有多样化半径技术的小生境遗传算法的聚类方法,所述聚类方法包括以下步骤: 
1)染色体编码和种群初始化 
一个染色体被编码成一个聚类中心,每个染色体由v个实数组成,染色体表示为c=[c1,c2,…,cv],这里v代表特征空间的维数; 
随机选取N个数据点,N为群体规模,每个数据点是由v维实数组成,每个数据点表示一个染色体且没有重复的数据点; 
2)计算个体适应度 
令X={x1,x2,…,xn}是N维向量空间的一个子集,K是聚类数目,S(xj,ci)表示数据点Xj和第i个聚类中心ci的相似性度量函数,聚类目标是找出ci使总相似度J(c)最大,J(c)表示为: 
J ( c ) = &Sigma; i = 1 K &Sigma; j = 1 n ( exp ( - | | x j - c i | | 2 &beta; ) ) &gamma; - - - ( 1 )
c=(c1,c2,…,ck),β定义为: 
&beta; = &Sigma; j = 1 n | | x j - x &OverBar; | | 2 n - - - ( 2 )
其中, x &OverBar; = &Sigma; j = 1 n x j n , ;
令Js(xk)表示数据点xk到其他所有点的总相似度,且Js(xk)的计算方式如下: 
J s ( x k ) = &Sigma; j = 1 n ( exp ( - | | x j - k k | | 2 &beta; ) &gamma; , k = 1,2 , . . . , n . - - - ( 3 )
该函数近似的看成是数据点xk的领域密度函数; 
γ的值用CCA算法来估计,在得到γ的估计值之后,函数Js(xk)则成为了一个多模函数,函数峰的数量等于聚类中心的数量,峰值点的位置也与聚类中心的 位置相同; 
3)采用动态识别方法识别群体中的小生境位置、内容和数目,过程如下: 
3.1)将群体中的个体按照适应度的大小进行从大到小排序; 
3.2)设定算法进化过程中的控制参数:令t代的候选小生境数v(t)=0;t代的实际小生境数u(t)=0;当前动态物种集CDSS=0; 
3.3)从第一个个体顺序执行下列步骤到最后一个个体: 
(3.3.1)若个体未被标记,则标记该个体为新的小生境中心,且该个体为该小生境的优胜者; 
(3.3.2)将群体中与该个体的距离小于该小生境半径,同时尚未被标记的个体分配给这个小生境; 
(3.3.3)计算小生境中个体的数目,若个体数目大于1,则令候选小生境数加1; 
4)执行多样化半径机制调整各个小生境的半径信息; 
基于相邻小生境的位置关系来判断两个小生境是否需要合并,若合并,新产生的小生境的半径则要重新计算;再者,提出了一个小生境个体剔除的操作,这个操作的目的是把不属于该小生境的个体剔除。 
5)应用适应度共享函数重新计算个体的新适应度; 
设dij表示个体i和个体j之间的密切程度的度量,sh为共享函数,mi表示个体i在群体中的共享度,则有计算出所有个体的共享度后,个体适应度f(i)依据下式调整为fsh(i):fs(i)=f(i)/mi; 
6)执行选择、交叉和变异操作; 
7)执行精英策略替换群体中最差的个体; 
8)若满足终止条件,则终止运行;否则,跳转至步骤5)。 
进一步,所述步骤3)中,小生境的代表着是第一个被识别的领导个体。当小生境的领导个体被选定后,这个小生境则被定义为如果群体中至少有一个个体与领导个体的距离小于相应的小生境半径,并且未被标记过,则领导个体作为新产生小生境的代表者,同时标记从属的个体;否则,该领导个体被视为独立个体。这是一个循环迭代的过程,当这个过程执行到群体的最后一个个体后,群体Pt被分为v(t)个小生境和若干独立个体的集合; 
群体用下面的公式表示: 
P t = ( &cup; i &Element; { 1 , . . . , v ( t ) } S t i ) &cup; S t * - - - ( 4 )
这里代表候选小生境个体的集合,代表独立个体的集合。 
再进一步,所述步骤4)中,定义1为合并规则:令Ni和Nj分别表示两个不同的小生境,他们的领导个体的适应度分别为fi和fj,若fi>fj,则将Nj合并到Ni中去,否则,将Ni合并到Nj中去; 
定义2为距离度量方式:令个体Mi和Mj分别表示小生境Ni和Nj的领导个体,则这两个小生境之间的距离可以表示为 
d(Ni,Nj)=d(Mi,Mj)=||Mi-Mj||2.         (5) 
基于上定义1和定义2,小生境合并操作的步骤如下:对于任意使用DNI产生的候选小生境,用欧几里得距离公式找到与其最近的小生境,用一个v(t)×v(t)的矩阵W来表示任意两个小生境之间的关系, 
w ij = 1 ifd ( N i , N j ) = min k &NotEqual; j , k = 1,2 , . . . , v ( t ) d ( N k , N j ) , 0 otherwise , - - - ( 6 )
这里d(Ni,Nj)表示小生境i和j之间的距离,Wij=1表示这两个小生境之间是最近的,合并因子用Cij表示,若Cij=1,则二者需要合并,合并因子Cij是由理论1来决定的, 
理论1:令Ni和Nj分别表示两个不同的小生境,个体Mi和Mj分别表示小生境Ni和Nj的领导个体,且这两个领导个体的适应度分别为fi和fj,则连接两个领导个体的连线表示为: 
x=Mi+k(Mj-Mi),k∈(0,1).           (7) 
然后沿着这条连线分别产生r个随机点,同时计算它们的适应度,若存在m∈(0,1)满足 
f(xm)<min(fi,fj),          (8) 
也就是说,有凹点存在于Ni和Nj之间,因此Ni和Nj不需要合并,此时Cij=0;在理论1中,给定欧式空间中的两个端点,沿着由这两个端点组成的连线上随机的产生若干点并且计算它们的适应度,判断在这两个端点中间是否存在凹点;如 果有凹点存在,则两个相邻的小生境是独立的,它们不需要合并;若没有凹点存在,则说明两个相邻的小生境不是独立的,也就是说他们属于同一个小生境,需要合并成一个小生境; 
如果确定了两个小生境需要合并,则合并操作的具体描述见理论2, 
理论2:令Ni和Nj为最相邻的两个小生境,定义 分别为小生境Ni和Nj的个体集合,个体Mi和Mj分别表示小生境Ni和Nj的领导个体,且这两个领导个体的适应度分别为fi和fj。若Cij=1,且fi>fj,则把Nj合并到Ni中 
s t &prime; i = s t i + s t j , - - - ( 9 )
如果小生境Nj中的个体k是离领导者Mi最远的个体,则小生境Ni的半径调整为 
&delta; v ( t ) &prime; i = d ( M i , N j k ) if &delta; v ( t ) i < d ( M i , N j k ) &delta; v ( t ) i otherwise , - - - ( 10 )
这里Nj中的个体k,同时,设置 
u(t)=u(t)-1.         (12) 
在执行了小生境的合并操作之后,随后开始操作个体剔除的操作,参照理论3: 
理论3:令个体Mi表示小生境Ni的领导个体,表示小生境中适应度最低的个体,表示小生境中离领导个体最远的个体,则下一代使用的小生境半径则按下式进行调整: 
&delta; v ( t ) &prime; i = d ( M i , N j w ) if N j w &NotEqual; N j f &delta; v ( t ) i otherwise . - - - ( 13 ) ;
多样化半径机制的具体过程如下: 
4.1)计算所有候选小生境之间的距离; 
4.2)从第一个小生境顺序执行下列步骤到最后一个小生境: 
(4.2.1)若小生境i与j是最相近的两个子群体,则根据理论1计算Sij; 
(4.2.2)若Sij=1,则根据定义1合并i和j,同时根据理论2调整小生境i和j的信息; 
4.3)根据理论3更新所有小生境的半径。 

Claims (5)

1.一种基于带有多样化半径技术的小生境遗传算法的聚类方法,其特征在于:所述聚类方法包括以下步骤:
1)染色体编码和种群初始化
一个染色体被编码成一个聚类中心,每个染色体由v个实数组成,染色体表示为c=[c1,c2,…,cv],这里v代表特征空间的维数;
随机选取N个数据点,N为群体规模,每个数据点是由v维实数组成,每个数据点表示一个染色体且没有重复的数据点;
2)计算个体适应度
令X={x1,x2,…,xn}是N维向量空间的一个子集,K是聚类数目,S(xj,ci)表示数据点Xj和第i个聚类中心ci的相似性度量函数,聚类目标是找出ci使总相似度J(c)最大,J(c)表示为:
J ( c ) = &Sigma; i = 1 K &Sigma; j = 1 n ( exp ( - | | x j - c i | | 2 &beta; ) ) &gamma; - - - ( 1 )
c=(c1,c2,…,ck),β定义为:
&beta; = &Sigma; j = 1 n | | x j - x &OverBar; | | 2 n - - - ( 2 )
其中, x &OverBar; = &Sigma; j = 1 n x j n , ;
令Js(xk)表示数据点xk到其他所有点的总相似度,且Js(xk)的计算方式如下:
J s ( x k ) = &Sigma; j = 1 n ( exp ( - | | x j - k k | | 2 &beta; ) &gamma; , k = 1,2 , . . . , n . - - - ( 3 )
该函数近似的看成是数据点xk的领域密度函数;
γ的值用CCA算法来估计,在得到γ的估计值之后,函数Js(xk)则成为了一个多模函数,函数峰的数量等于聚类中心的数量,峰值点的位置也与聚类中心的位置相同;
3)采用动态识别方法识别群体中的小生境位置、内容和数目,过程如下:
3.1)将群体中的个体按照适应度的大小进行从大到小排序;
3.2)设定算法进化过程中的控制参数:令t代的候选小生境数v(t)=0;t代的实际小生境数u(t)=0;当前动态物种集CDSS=0;
3.3)从第一个个体顺序执行下列步骤到最后一个个体:
(3.3.1)若个体未被标记,则标记该个体为新的小生境中心,且该个体为该小生境的优胜者;
(3.3.2)将群体中与该个体的距离小于该小生境半径,同时尚未被标记的个体分配给这个小生境;
(3.3.3)计算小生境中个体的数目,若个体数目大于1,则令候选小生境数加1;
4)执行多样化半径机制调整各个小生境的半径信息;
基于相邻小生境的位置关系来判断两个小生境是否需要合并,若合并,新产生的小生境的半径则要重新计算;再者,提出了一个小生境个体剔除的操作,这个操作的目的是把不属于该小生境的个体剔除。
5)应用适应度共享函数重新计算个体的新适应度;
设dij表示个体i和个体j之间的密切程度的度量,sh为共享函数,mi表示个体i在群体中的共享度,则有计算出所有个体的共享度后,个体适应度f(i)依据下式调整为fsh(i):fs(i)=f(i)/mi
6)执行选择、交叉和变异操作;
7)执行精英策略替换群体中最差的个体;
8)若满足终止条件,则终止运行;否则,跳转至步骤5)。
2.如权利要求1所述的基于带有多样化半径技术的小生境遗传算法的聚类方法,其特征在于:所述步骤3)中,小生境的代表着是第一个被识别的领导个体。当小生境的领导个体被选定后,这个小生境则被定义为如果群体中至少有一个个体与领导个体的距离小于相应的小生境半径,并且未被标记过,则领导个体作为新产生小生境的代表者,同时标记从属的个体;否则,该领导个体被视为独立个体。这是一个循环迭代的过程,当这个过程执行到群体的最后一个个体后,群体Pt被分为v(t)个小生境和若干独立个体的集合;
群体用下面的公式表示:
P t = ( &cup; i &Element; { 1 , . . . , v ( t ) } S t i ) &cup; S t * - - - ( 4 )
这里代表候选小生境个体的集合,代表独立个体的集合。
3.如权利要求1或2所述的基于带有多样化半径技术的小生境遗传算法的聚类方法,其特征在于:所述步骤4)中,定义1为合并规则:令Ni和Nj分别表示两个不同的小生境,他们的领导个体的适应度分别为fi和fj,若fi>fj,则将Nj合并到Ni中去,否则,将Ni合并到Nj中去;
定义2为距离度量方式:令个体Mi和Mj分别表示小生境Ni和Nj的领导个体,则这两个小生境之间的距离可以表示为
d(Ni,Nj)=d(Mi,Mj)=||Mi-Mj||2.          (5)
基于上定义1和定义2,小生境合并操作的步骤如下:对于任意使用DNI产生的候选小生境,用欧几里得距离公式找到与其最近的小生境,用一个v(t)×v(t)的矩阵W来表示任意两个小生境之间的关系,
w ij = 1 ifd ( N i , N j ) = min k &NotEqual; j , k = 1,2 , . . . , v ( t ) d ( N k , N j ) , 0 otherwise , - - - ( 6 )
这里d(Ni,Nj)表示小生境i和j之间的距离,Wij=1表示这两个小生境之间是最近的,合并因子用Cij表示,若Cij=1,则二者需要合并,合并因子Cij是由理论1来决定的,
理论1:令Ni和Nj分别表示两个不同的小生境,个体Mi和Mj分别表示小生境Ni和Nj的领导个体,且这两个领导个体的适应度分别为fi和fj,则连接两个领导个体的连线表示为:
x=Mi+k(Mj-Mi),k∈(0,1).         (7)
然后沿着这条连线分别产生r个随机点,同时计算它们的适应度,若存在m∈(0,1)满足
f(xm)<min(fi,fj),          (8)
也就是说,有凹点存在于Ni和Nj之间,因此Ni和Nj不需要合并,此时Cij=0;在理论1中,给定欧式空间中的两个端点,沿着由这两个端点组成的连线上随机的产生若干点并且计算它们的适应度,判断在这两个端点中间是否存在凹点;如果有凹点存在,则两个相邻的小生境是独立的,它们不需要合并;若没有凹点存在,则说明两个相邻的小生境不是独立的,也就是说他们属于同一个小生境,需要合并成一个小生境;
如果确定了两个小生境需要合并,则合并操作的具体描述见理论2,
理论2:令Ni和Nj为最相邻的两个小生境,定义 分别为小生境Ni和Nj的个体集合,个体Mi和Mj分别表示小生境Ni和Nj的领导个体,且这两个领导个体的适应度分别为fi和fj。若Cij=1,且fi>fj,则把Nj合并到Ni
s t &prime; i = s t i + s t j , - - - ( 9 )
如果小生境Nj中的个体k是离领导者Mi最远的个体,则小生境Ni的半径调整为
&delta; v ( t ) &prime; i = d ( M i , N j k ) if &delta; v ( t ) i < d ( M i , N j k ) &delta; v ( t ) i otherwise , - - - ( 10 )
这里Nj中的个体k,同时,设置
u(t)=u(t)-1.              (12)
在执行了小生境的合并操作之后,随后开始操作个体剔除的操作,参照理论3:
理论3:令个体Mi表示小生境Ni的领导个体,表示小生境中适应度最低的个体,表示小生境中离领导个体最远的个体,则下一代使用的小生境半径则按下式进行调整:
&delta; v ( t ) &prime; i = d ( M i , N j w ) if N j w &NotEqual; N j f &delta; v ( t ) i otherwise . - - - ( 13 ) ;
多样化半径机制的具体过程如下:
4.1)计算所有候选小生境之间的距离;
4.2)从第一个小生境顺序执行下列步骤到最后一个小生境:
(4.2.1)若小生境i与j是最相近的两个子群体,则根据理论1计算Sij
(4.2.2)若Sij=1,则根据定义1合并i和j,同时根据理论2调整小生境i和j的信息;
4.3)根据理论3更新所有小生境的半径;
4.4)调整初始半径
在执行多样化小生境半径的操作后,对群体则有了一个新的划分,划分结果如下:
P t = ( &cup; i &Element; { 1 , . . . , v ( t ) } S t &prime; i ) &cup; S t &prime; * . - - - ( 14 )
然后群体中所有个体的适应度进行调整,独立个体的适应度不变,小生境数目的计算方式修改如下:
m i = &Sigma; p j &Element; s t i sh ( d ij ) - - - ( 15 ) .
4.如权利要求3所述的基于带有多样化半径技术的小生境遗传算法的聚类方法,其特征在于:定义一个忍受因子δ,此时公式8则修改为:
f(xm)<δmin(fi,fj).             (16)。
5.如权利要求4所述的基于带有多样化半径技术的小生境遗传算法的聚类方法,其特征在于:所述步骤6)中,若c1和c2为父代个体,则后代c在父代经过中间重组交叉操作后的结果是:c=c1+r(c1-c2),这里r是[0,1]之间的符合平均分布的随机数;
每个染色体的变异概率为pm。假设数据集中第q维的最大和最小值分别为cmin q和cmax q,变异基因点的值为cq,则一致领域变异的结果为:
c 0 q = c q + r m R ( c max q - c min q ) - - - ( 17 )
这里R是符合平均分布的随机数,取值区间为[-1,1],rm∈(0,1)。
CN201410431949.7A 2014-08-28 2014-08-28 一种基于带有多样化半径技术的小生境遗传算法的聚类方法 Pending CN104239434A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410431949.7A CN104239434A (zh) 2014-08-28 2014-08-28 一种基于带有多样化半径技术的小生境遗传算法的聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410431949.7A CN104239434A (zh) 2014-08-28 2014-08-28 一种基于带有多样化半径技术的小生境遗传算法的聚类方法

Publications (1)

Publication Number Publication Date
CN104239434A true CN104239434A (zh) 2014-12-24

Family

ID=52227494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410431949.7A Pending CN104239434A (zh) 2014-08-28 2014-08-28 一种基于带有多样化半径技术的小生境遗传算法的聚类方法

Country Status (1)

Country Link
CN (1) CN104239434A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550753A (zh) * 2016-01-21 2016-05-04 北京理工大学 基于两层遗传整数规划的复杂系统设计结构矩阵重构方法
CN105764088A (zh) * 2016-02-05 2016-07-13 南京邮电大学 一种基于遗传算法的tdoa蜂窝定位方法
CN106022293A (zh) * 2016-05-31 2016-10-12 华南农业大学 一种基于自适应共享小生境进化算法的行人再识别方法
US20180196349A1 (en) * 2017-01-08 2018-07-12 Mentor Graphics Corporation Lithography Model Calibration Via Genetic Algorithms with Adaptive Deterministic Crowding and Dynamic Niching
CN108465244A (zh) * 2018-03-30 2018-08-31 腾讯科技(深圳)有限公司 用于竞速类ai模型的ai参数配置方法、装置、设备及存储介质
CN109359740A (zh) * 2018-11-02 2019-02-19 北京华如科技股份有限公司 基于多生境遗传算法的机动路径优选方法及存储介质
CN110516713A (zh) * 2019-08-02 2019-11-29 阿里巴巴集团控股有限公司 一种目标群体识别方法、装置及设备
CN116304847A (zh) * 2023-05-24 2023-06-23 南方电网调峰调频发电有限公司储能科研院 一种基于共享机制小生境理念的ups集群分类方法
CN117436533A (zh) * 2023-12-20 2024-01-23 贵州大学 基于生境数据分析的物种分布监测方法及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103235879A (zh) * 2013-04-17 2013-08-07 中国海洋石油总公司 基于小生境主从式并行遗传算法的双相介质参数反演方法
CN103617206A (zh) * 2013-11-18 2014-03-05 浙江工业大学 基于自适应小生境的遗传聚类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103235879A (zh) * 2013-04-17 2013-08-07 中国海洋石油总公司 基于小生境主从式并行遗传算法的双相介质参数反演方法
CN103617206A (zh) * 2013-11-18 2014-03-05 浙江工业大学 基于自适应小生境的遗传聚类方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
DONGCHENG FAN.ETL: "A Diverse Niche radii Niching Technique for Multimodal Function Optimization", 《CHINESE AUTOMATION CONGRESS》 *
MIIN-SHEN YANG.ETL: "A Similarity-Based Robust Clustering Method", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
孙红艳等: "一种改进的小生境遗传聚类算法", 《计算机系统应用》 *
潘伟等: "基于遗传算法的降阶H ∞控制器", 《东北大学学报(自然科学版)》 *
王康等: "一种改进的遗传K-均值聚类算法", 《计算机与数字工程》 *
罗耀明等: "基于小生境遗传算法的网格节点资源研究", 《武汉理工大学学报》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550753B (zh) * 2016-01-21 2017-06-30 北京理工大学 基于两层遗传整数规划的复杂系统设计结构矩阵重构方法
CN105550753A (zh) * 2016-01-21 2016-05-04 北京理工大学 基于两层遗传整数规划的复杂系统设计结构矩阵重构方法
CN105764088B (zh) * 2016-02-05 2019-05-03 南京邮电大学 一种基于遗传算法的tdoa蜂窝定位方法
CN105764088A (zh) * 2016-02-05 2016-07-13 南京邮电大学 一种基于遗传算法的tdoa蜂窝定位方法
CN106022293A (zh) * 2016-05-31 2016-10-12 华南农业大学 一种基于自适应共享小生境进化算法的行人再识别方法
CN106022293B (zh) * 2016-05-31 2019-05-07 华南农业大学 一种基于自适应共享小生境进化算法的行人再识别方法
US20180196349A1 (en) * 2017-01-08 2018-07-12 Mentor Graphics Corporation Lithography Model Calibration Via Genetic Algorithms with Adaptive Deterministic Crowding and Dynamic Niching
CN108465244A (zh) * 2018-03-30 2018-08-31 腾讯科技(深圳)有限公司 用于竞速类ai模型的ai参数配置方法、装置、设备及存储介质
CN108465244B (zh) * 2018-03-30 2019-05-07 腾讯科技(深圳)有限公司 用于竞速类ai模型的ai参数配置方法、装置、设备及存储介质
WO2019184777A1 (zh) * 2018-03-30 2019-10-03 腾讯科技(深圳)有限公司 用于竞速类ai模型的ai参数配置方法、装置、设备及存储介质
US11911702B2 (en) 2018-03-30 2024-02-27 Tencent Technology (Shenzhen) Company Limited AI parameter configuration method and apparatus for racing AI model, AI parameter configuration device, and storage medium
CN109359740A (zh) * 2018-11-02 2019-02-19 北京华如科技股份有限公司 基于多生境遗传算法的机动路径优选方法及存储介质
CN109359740B (zh) * 2018-11-02 2020-11-03 北京华如科技股份有限公司 基于多生境遗传算法的机动路径优选方法及存储介质
CN110516713A (zh) * 2019-08-02 2019-11-29 阿里巴巴集团控股有限公司 一种目标群体识别方法、装置及设备
CN116304847A (zh) * 2023-05-24 2023-06-23 南方电网调峰调频发电有限公司储能科研院 一种基于共享机制小生境理念的ups集群分类方法
CN116304847B (zh) * 2023-05-24 2023-10-20 南方电网调峰调频发电有限公司储能科研院 一种基于共享机制小生境理念的ups集群分类方法
CN117436533A (zh) * 2023-12-20 2024-01-23 贵州大学 基于生境数据分析的物种分布监测方法及设备
CN117436533B (zh) * 2023-12-20 2024-02-13 贵州大学 基于生境数据分析的物种分布监测方法及设备

Similar Documents

Publication Publication Date Title
CN104239434A (zh) 一种基于带有多样化半径技术的小生境遗传算法的聚类方法
CN109918532B (zh) 图像检索方法、装置、设备及计算机可读存储介质
CN102238686B (zh) 一种模型化量子遗传算法的无线传感器网络路由方法
CN107423769A (zh) 基于形态特征的电力负荷曲线自适应聚类方法
CN104615638B (zh) 一种面向大数据的分布式密度聚类方法
CN105930862A (zh) 一种基于密度自适应距离的密度峰聚类算法
CN103870647A (zh) 一种基于遗传算法的作业车间调度建模的方法
CN103631928A (zh) 一种基于局部敏感哈希的聚类索引方法及系统
CN104281617A (zh) 一种基于领域知识的多层关联规则挖掘方法及系统
Ueno et al. Computerized adaptive testing based on decision tree
CN106845536B (zh) 一种基于图像缩放的并行聚类方法
CN104778513A (zh) 一种用于约束多目标优化的多种群进化方法
CN108595499A (zh) 一种克隆优化的粒子群聚类高维数据分析方法
Wang et al. A new approach of obtaining reservoir operation rules: Artificial immune recognition system
CN102880754A (zh) 基于遗传算法的土地利用分形维数作用尺度的识别方法
CN103914527A (zh) 一种基于新编码方式的遗传规划算法的图形图像识别与匹配方法
Jie et al. Naive Bayesian classifier based on genetic simulated annealing algorithm
CN105631465A (zh) 一种基于密度峰值的高效层次聚类方法
CN109961129A (zh) 一种基于改进粒子群的海上静止目标搜寻方案生成方法
CN109840551B (zh) 一种用于机器学习模型训练的优化随机森林参数的方法
CN113514072B (zh) 一种面向导航数据与大比例尺制图数据的道路匹配方法
CN109753701A (zh) 一种随机渗流场作用下的土质边坡可靠度分析下限法
Jiang et al. Evolutionary multi-objective optimization for multi-view clustering
CN107220320A (zh) 一种基于专利引文的新兴技术识别方法
CN103793504B (zh) 一种基于用户偏好与项目属性的聚类初始点选择方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20141224