CN104376124A - 一种基于扰动吸收原理的聚类算法 - Google Patents

一种基于扰动吸收原理的聚类算法 Download PDF

Info

Publication number
CN104376124A
CN104376124A CN201410745070.XA CN201410745070A CN104376124A CN 104376124 A CN104376124 A CN 104376124A CN 201410745070 A CN201410745070 A CN 201410745070A CN 104376124 A CN104376124 A CN 104376124A
Authority
CN
China
Prior art keywords
cluster
group
cluster centre
class
optimizing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410745070.XA
Other languages
English (en)
Inventor
裴峥
高志升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xihua University
Original Assignee
Xihua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xihua University filed Critical Xihua University
Priority to CN201410745070.XA priority Critical patent/CN104376124A/zh
Publication of CN104376124A publication Critical patent/CN104376124A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于扰动吸收原理的聚类算法,其特征在于依次包括初始聚类中心选择计算步骤、移动寻优步骤、交叉寻优步骤和类内扰动优化步骤,本发明提出初始聚类中心选择方法,确保了每组初始聚类中心的对象基本为不同类中的对象并均匀分布在对象集中,提出移动寻优完成全局寻优过程,通过对各聚类中心的局部调整,交叉寻优和类内扰动优化共同完成局部寻优过程,对全局最优结果进行再次改进,避免了整体最优与部分最优不同步的问题。

Description

一种基于扰动吸收原理的聚类算法
技术领域
本发明涉及数据挖据领域,特别是涉及一种基于扰动吸收原理的聚类算法。
背景技术
目前,聚类的目标是使同一类对象的相似度尽可能大,不同类对象之间的相似度尽可能小。聚类在数据挖掘、机器学习领域广泛的应用价值,在工程学、计算机科学、地球科学以及社会科学和经济学等领域起到越来越重要的作用,因此得到了大量研究。当前聚类算法主要可以分为5大类:基于划分的聚类算法,代表性方法有K-means、CLARA、PCM等;基于层次的聚类算法,代表性方法有CURE方法、ROCK方法、BUBBLE方法等;基于密度聚类的方法,代表性方法有DBSCAN、OPTICC,PDC等;基于网格的聚类算法,STING,WaveCluster,GLIQUE等和基于模型的聚类方法,代表性方法有SOM,AutoClass等。现有的方法各有优缺点,部分算法速度较快,但精度较低,部分算法在一部分数据上效果好,但在另外的数据上效果差,不具有普适性,部分算法容易陷入局部最优值等。
基于划分的聚类算法,预先指定聚类数目或聚类中心,通过反复迭代运算,逐步降低目标函数的误差值,当目标函数值收敛时,得到最终的聚类结果。基于该思想,聚类分析的目的是将                                               个对象根据某种相似性分成各类,同一类中的对象相似,不同类中的元素相异。聚类分析形式地描述如下:令维实数空间上的对象集为,其中,为某一正整数。个聚类中心,其中,。若对象满足
则对象属于聚类中心确定的类,记为,其中,中间的某一距离测度(或相似性测度),例如欧几里得距离,即
上述分类结果满足如下条件:
1、每一中的对象均被分在某一类中,即
2、每一中的对象只属于一个类,即??,其中,。实际中,若存在多个满足,可按下标从小到大的顺序选择只属于下标最小的类。
据此,聚类分析问题转化为如何确定个聚类中心的问题,进一步,该问题转化为如下数学优化问题,即
其中,,目标函数是对分类结果的一种评价,评价标准有很多,如“类内距离和”,“类间距离和”及“分类距离的信息熵”等,以“类内距离和”为例,其目标函数定义为
上式中,对于某一固定的表示类中对象到中心的距离和或相似度和,即类的评价结果,因此,其目标函数以“类内距离和最小”或“类内相似度和最小”为标准评价分类结果。
人们已提出很多聚类分析算法求解上述优化模型,如K-均值(K-means),模糊C-均值(FCM)等聚类分析算法。已有的聚类分析算法通常包括:
1、选择初始聚类中心;
2、聚类中心迭代寻优;
3、终止条件。
其中,1和2是聚类分析算法的核心。根据问题的不同,初始聚类中心的选择也不同,如随机产生等。一方面,现有聚类分析表明初始聚类中心的选择直接影响聚类结果。另一方面,初始聚类中心选择还没有一个一般性的方法。根据新选聚类中心是否改善目标函数值,人们提出了很多迭代寻优,如基于误差反传的迭代寻优、基于梯度下降的迭代寻优、基于自然规律(蚁群、鸟群、粒子群等生物特性)的迭代寻优。终止条件一般为固定循环次数或满足误差阈值。
其中K均值聚类算法的步骤是:(1)随机指定K个聚类中心;(2)对每一个样本,找到离它最近的聚类中心,并将其分配到所表明类。(3)将每一个移动到其标明的类的中心;(4)计算优化目标函数;(5)如果收敛则返回中止算法,都在返回步骤(2)。K均值算法的聚类结果依赖于初始值的选取,基于梯度下降进行搜索常常使算法陷入局部最优,同时算法只适用于聚类结果为凸形的数据集。
PSO聚类算法是智能寻优算法中最具代表性的方法,也是和本发明专利同类的方法,PSO算法中每个粒子包含一个表示簇中心的数据向量,代表一种候选的划分,整个粒子群则代表了对数据集的多种划分。算法首先将一组随机的簇中心赋值给各个粒子,对于每个粒子,按照最小距离原则对图像像素进行划分操作,随后根据给定的粒子适应度函数,按照PSO算法的步骤找到一个最优粒子,根据最优粒子的位置从而得到一个对数据集的近似最优划分。具体步骤为:(1)给定聚类中心的数目,初始化聚类中心矩阵V,并赋值为各个粒子,随机产生粒子的速度;(2)对每个粒子计算隶属度,修正所有的聚类中心,计算各个粒子的适应值,更新个体极值;(3)根据各个粒子的个体极值,找出全局极值和全局极值位置;(4)按粒子群优化算法的速度公式更新粒子的速度;(5)按粒子群优化算法的位置公式更新粒子的位置;(6)判断收敛条件,收敛则返回,否则转步骤(2)继续迭代。PSO聚类算法的缺点是迭代收敛过程缓慢,容易陷入局部最优值。
基于黑洞原理的启发式优化算法用于数据聚类是近年来出现的一种方法,该方法认为黑洞星体吸收它周围的星体,同时所有星体向黑洞移动,黑洞如下公式吸收星体,即星体的位置变换公式:
其中分别表示第颗星体在时刻的位置,表示黑洞的位置。基于黑洞理论的聚类算法步骤为:(1)对于每一个星体,计算目标函数;(2)选择适应度值最好的星体作为黑洞;(3)通过位置变换公式重新确定星体的位置,如果一个星体移动到一个位置其适应度函数值小于黑洞的适应度值,则交换它们的位置,如果一个星体脱离了黑洞的视界范围,则在搜索空间中随机选择一个星体替换它;(4)如果中止条件满足,则停止,否则继续循环迭代。Adam在“How novel is the “novel” black hole optimization approach?”一文中指出该方法本质上是PSO方法,同样存在收敛速度慢,易于收敛于局部最优的问题。
通过对已有聚类算法的比较分析,本专利针对初始聚类中心选择和迭代寻优,提出一种基于扰动吸收的聚类算法,其技术方案由以下三部分组成:
1、通过对聚类对象两两之间的距离测度(或相似性测度)的分析,依据常识知识(相对于对象,若对象的距离很远(或相似性很低),则应该不在同一类中)与模糊数学知识,提出基于定性距离(定性相似性度)的初始聚类中心选择方法。
2、聚类中心迭代寻优由以下三步完成:
a)根据目标函数值进行移动寻优,在聚类中心中选出一个最优聚类中心,其它聚类中心向最优聚类中心随机移动,重新计算目标函数值并选出一个新的最优聚类中心;
b)根据各分类的评价结果进行交叉寻优,由于目标函数值是各分类的综合评价结果,如“类内距离和最小”或“类内相似度和最小”, 因此,最优聚类中心对应的综合评价结果与各类的最优评价结果之和并不相等。为此进行各类的最优评价结果与最优聚类中心中相应类的评价结果进行交叉替换,获得一个更优结果。
c)对非最优聚类中心进行类内扰动优化,其目的是优化非最优聚类中心中各类的评价结果,如“类内距离和”,使其在优化过程中更容易跳出局部最优,并逐步靠近各类的最优评价结果,如最小“类内距离和”。
3、根据终止条件,不断重复2的a),b)和c),直到满足终止条件为止。
本发明专利所述初始聚类中心选择方法加速算法收敛速度并有效避免随机选择聚类中心陷入局部最优的问题。所述移动寻优方法和交叉寻优加快了算法优化速度。扰动优化有效避免了算法收敛于局部最优的问题。总体来看,本专利提出的基于扰动吸收聚类算法的四个优化步骤紧密相连、相互补充,初始聚类中心选择是基础,确保了每组初始聚类中心的对象基本为不同类中的对象并均匀分布在对象集中。初始聚类中心选择和移动寻优共同完成全局寻优过程。通过对各聚类中心的局部调整,交叉寻优和类内扰动优化共同完成局部寻优过程,对全局最优结果进行再次改进,避免了整体最优与部分最优不同步的问题。实验结果表明,基于扰动吸收的聚类算法具有快速收敛的特点,与现有具有代表性的聚类分析算法比较,基于扰动吸收聚类算法的聚类分析结果是最优的。
发明内容
本发明的目的在于克服现有技术存在的上述问题,提出一种基于扰动吸收原理的聚类算法。本发明提出初始聚类中心选择步骤,确保了每组初始聚类中心的对象基本为不同类中的对象并均匀分布在对象集中,提出移动寻优完成全局寻优过程,通过对各聚类中心的局部调整,交叉寻优和类内扰动优化共同完成局部寻优过程,对全局最优结果进行再次改进,避免了整体最优与部分最优不同步的问题。
本发明采用以下技术方案来实现:
一种基于扰动吸收原理的聚类算法,其特征在于依次包括如下步骤:初始聚类中心选择步骤、移动寻优步骤、交叉寻优步骤和类内扰动优化步骤。
初始聚类中心选择步骤是基于同类对象距离近,不同类距离远的方式来选择一组初始聚类中心。
在对象集中进行测度(以欧几里得距离为例):
在上述公式中,是两两对象之间的最大测度,如最大欧几里得距离。是距对象最小非零测度,如最小非零欧几里得距离。是所有对象最小非零测度中的最大测度,如最小非零欧几里得距离中的最大欧几里得距离。是两两对象之间的最小非零测度,如最小非零欧几里得距离。其意义如下:
(1)
(2)
(3)
在聚类分析中,聚类半径直接影响聚类结果,半径越大,类中对象越多,当半径足够大时,如以为半径,则所有对象分为一类且每一对象均可作为聚类中心。反之,半径越小,类中对象越少,当半径足够小时,如以为半径,则所有对象各自为一类。此外,若以为半径,以对象为聚类中心,则几乎可确定其类中对象与对象一定是同一类的。
在聚类分析中,有很多常识知识,例如“某一对象一定属于某一类”,“如果对象距离很远,则可断言属于不同的类”,其中,距离与聚类个数(以3类为例)之间的常识知识可描述如下:
(1)相对于对象距离近的对象与是同一类;
(2)相对于对象距离中的对象为一类;
(3)相对于对象距离远的对象为一类;
根据模糊数学知识将距离的近、中和远分别可用上的模糊集刻画。根据模糊数学知识是指在给定范围内元素对它的隶属关系不一定只有“是”或“否”两种情况,而是用介于0和1之间的实数来表示隶属程度,还存在中间过渡状态。
在聚类分析中,初始聚类中心的选择应满足所选聚类中心应该是不同类的,所选聚类中心具有一定代表性并尽可能均匀分布在数据集中。上述常识知识提供了我们一种选择聚类中心的方法,其中的关键问题是首先确定代表对象,然后根据距离的远近选择其它类的初始中心。对象是否可以作为初始聚类中心,可通过在一定半径内是否聚集了足够多同类对象来确定。据此,本发明初始聚类中心选择方法如图3所示,描述如下:
步骤1、初始聚类中心个数为,聚类中心组数为S;
步骤2、在上定义个模糊集,分别记为,刻画种远近距离;
步骤3、确定聚类半径),根据上述分析,在此聚类半径下,被中心吸收的对象与该中心基本是同一类的;
步骤4、令
步骤5、选择对象满足为某一类的一个初始聚类中心,其中,表示集合中元素个数,即集合的基数;
步骤6、分别选择对象满足
步骤7、选定一组初始聚类中心为
步骤8、重复上述过程次,可选出组初始聚类中心。为避免重复选取,可设定每次在未选择的对象中进行。记组初始聚类中心分别为
其中,
通过上述过程选择的初始聚类中心具有如下特点:(1)每一初始聚类中心均为原始数据中的对象且具有一定代表性;(2)每组初始聚类中心的对象基本为不同类中的对象;(3)组初始聚类中心尽可能地均匀分布在数据集中。
移动寻优步骤是指在全局解空间中寻找最优解,首先在s组聚类中心组中通过计算适应度函数得到最优聚类中心组,其余所有聚类中心组向最优聚类中心移动,描述如下:
步骤1、令组聚类中心经次移动寻优后,聚类中心分别调整为
其中,对应上述组初始聚类中心。
步骤2、,记,则对于第组聚类中心,其第次的目标函数如下:
其中,(以为中心的类),
步骤3、确定最优聚类中心组,即
步骤4、其它聚类中心组分别向最优中心组随机移动,即,第组聚类中心向最优中心组随机移动。若,令,则中的随机移动,形式地描述为:
其中,为一随机数,。若,则。因此,,随机移动不改变最优中心组的目标函数值,即
经过随机移动,得到新聚类中心组,即
步骤5、第组聚类中心经过随机移动后的目标函数(第次的目标函数)如下:
次最优聚类中心组满足
综上所述,移动寻优是聚类中心组内进行的一种动态寻优,其目的与效果体现在:(1)通过随机移动,丰富寻优种群的多样性,避免单一种群在寻优过程中重复使用;(2)通过随机移动,扩大了最优中心的搜索范围,有利于得到全局最优值;(3)相对于某一类来说,其它聚类中心分别向最优中心动态移动并再次寻优,可快速发现更优对象,改善目标函数最优值,避免陷入局部最优。
交叉寻优步骤实在通过在s组聚类中心中进行交叉寻优,除去最优聚类中心组以外的其余聚类中心组中如果存在某个一个聚类中心更优,则将二者交换,完成交叉寻优,得到搜素结果。
形式地,在 中,最小不意味着在中每一项都最小,即,存在满足
据此,交叉寻优方法流程描述如下:
步骤1、,令
步骤2、若,则交叉,即替换为替换为相互替换。
交叉寻优是在整体最优结果中进行的一种局部再优化,形式上,交叉寻优具有如下效果:(1)通过局部最优替换,即替换为,已有的最优结果被更优的结果替换;(2)避免了在聚类分析中,整体最优与部分最优不同步的问题。
类内扰动优化步骤是指通过在类内对聚类中心做有指导的扰动,向类中心靠近,得到更优的搜索结果。
形式上,,其目标函数 中的刻画了类(以为聚类中心的类)的类内测度(或距离)和,就其类内对象的分布情况来看,常识知识是:距离即远且稀疏的对象,越不可能是该类中的对象。因此,若聚类中心向聚集对象较多的方向靠近,则能改善该聚类中心的优化效果,得到优化后的搜素结果。
类内扰动优化方法流程描述如下:
步骤1、,令
步骤2、,令
          
步骤3、若,则
      
其中,表示集合中元素个数,为一设定参数。
步骤4、若,则
      
其中,表示集合中元素个数,为一设定参数。
类内扰动优化用于进一步改善各非最优聚类中心的优化效果,形式上,类内扰动优化具有如下效果:(1)通过类内扰动,丰富类内寻优种群的多样性,改善各非最优聚类中心的优化效果;(2)通过排除距离聚类中心即远且稀疏的对象,改善每类聚类中心的聚集效果。
本发明与现有技术相比,其优点在于:
1、本发明提出初始聚类中心选择步骤,确保了每组初始聚类中心的对象基本为不同类中的对象并均匀分布在对象集中,提出移动寻优完成全局寻优过程,通过对各聚类中心的局部调整,交叉寻优和类内扰动优化共同完成局部寻优过程,对全局最优结果进行再次改进,避免了整体最优与部分最优不同步的问题。
2、本发明采用初始聚类中心选择步骤具有如下特点:(1)每一初始聚类中心均为原始数据中的对象,并且具有一定代表性;(2)每组初始聚类中心的对象基本为不同类中的对象;(3)组初始聚类中心尽可能地均匀分布在数据集中。
3、本发明采用移动寻优步骤具有如下特点:(1)通过随机移动,丰富寻优种群的多样性,避免单一种群在寻优过程中重复使用;(2)通过随机移动,扩大了最优中心的搜索范围,有利于得到全局最优值;(3)相对于某一类来说,其它聚类中心分别向最优中心动态移动并再次寻优,可快速发现更优对象,改善目标函数最优值,避免陷入局部最优。
4、本发明采用交叉寻优步骤具有如下特点:(1)通过局部最优替换,即替换为,已有的最优结果被更优的结果替换;(2)避免了在聚类分析中,整体最优与部分最优不同步的问题。
5、本发明采用类内扰动优化步骤具有如下特点:(1)通过类内扰动,丰富类内寻优种群的多样性,改善各非最优聚类中心的优化效果;(2)通过排除距离聚类中心即远且稀疏的对象,改善每类聚类中心的聚集效果。
6、本发明方法与当前同类最好方法性比,不仅具有最好的聚类效果,跟显著的优点是具备很好的鲁棒性和稳定性,多次运行具有很最小的方差,说明本发明方法具有更好的全局收敛性。
附图说明
图1为本发明流程图;
图2为本发明距离模糊集示意图;
图3为本发明初始聚类中心选择流程图;
图4为本发明移动寻优方法流程图。
具体实施方式
下面对本发明进行进一步的说明:
实施案例1:
一种基于扰动吸收原理的聚类算法,依次包括初始聚类中心选择步骤、移动寻优步骤、交叉寻优步骤和类内扰动优化步骤,
所述初始聚类中心选择步骤是指按同类对象距离近,不同类距离远来选择一组初始聚类中心的方式,在对象集中进行测度;
所述移动寻优步骤是指在全局解空间中寻找最优解,首先在s组聚类中心组中通过计算适应度函数得到最优聚类中心组,其余所有聚类中心组向最优聚类中心移动;
所述交叉寻优步骤是指通过在s组聚类中心中进行交叉寻优,除去最优聚类中心组以外的其余聚类中心组中如果存在某个一个聚类中心更优,则将二者交换,完成交叉寻优,得到搜素结果;
所述类内扰动优化步骤是指通过在类内对聚类中心做有指导的扰动,向类中心靠近,得到优化后的搜索结果。
本发明中,所述初始聚类中心选择步骤包括如下步骤:
步骤1、初始聚类中心个数为,聚类中心组数为S;
步骤2、在上定义个模糊集,分别记为,刻画种远近距离;
步骤3、确定聚类半径),根据上述分析,在此聚类半径下,被中心吸收的对象与该中心基本是同一类的;
步骤4、令
步骤5、选择对象满足为某一类的一个初始聚类中心,其中,表示集合中元素个数,即集合的基数;
步骤6、分别选择对象满足
步骤7、选定一组初始聚类中心为
步骤8、重复上述过程次,可选出组初始聚类中心,记组初始聚类中心分别为
其中,
本发明中,所述移动寻优步骤包括以下步骤:
步骤1、令组聚类中心经次移动寻优后,聚类中心分别调整为
其中,对应上述组初始聚类中心。
步骤2、,记,则对于第组聚类中心,其第次的目标函数如下:
其中,(以为中心的类),
步骤3、确定最优聚类中心组,即
步骤4、其它聚类中心组分别向最优中心组随机移动,即,第组聚类中心向最优中心组随机移动。若,令,则中的随机移动,形式地描述为:
其中,为一随机数,。若,则。因此,,随机移动不改变最优中心组的目标函数值,即
经过随机移动,得到新聚类中心组,即
步骤5、第组聚类中心经过随机移动后的目标函数(第次的目标函数)如下:
次最优聚类中心组满足
本发明中,所述交叉寻优步骤包括如下步骤:
步骤1、,令
步骤2、若,则交叉,即替换为替换为相互替换;
本发明中,所述类内扰动优化步骤包括如下步骤:
步骤1、,令
步骤2、,令
          
步骤3、若,则
      
其中,表示集合中元素个数,为一设定参数。
步骤4、若,则
      
其中,表示集合中元素个数,为一设定参数。
本发明应用在iris数据集中,iris数据集以鸢尾花的特征作为数据来源,数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性,是在数据挖掘、数据分类中非常常用的测试集、训练集三类分别为:setosa, versicolor, virginica,数据包含4个独立的属性,这些属性变量测量植物的花朵,如萼片和花瓣的长度和宽度。下表给出本发明所得聚类结果与常见方法的对比。
本发明所述方法在Iris数据库上聚类结果,最坏情况下类内距离是96.65548244,小于PSO方法和Back hole方法更远小于K均值方法。从最小值看本发明所述方法获得96.6554821908的最小内类距离,96.65548229的平均值也是所有方法中最低的,同时在Iris数据库上本发明所述方法具有极好的稳定性,方差几乎为0。本发明得到的Iris数据聚类中心如表2所示。
表1 iris数据集聚类结果
Iris 最大值 最小值 平均值 方差 聚类误差%
K均值 128.40420 97.32592 105.72902 12.38759 13.42
PSO 99.76952 96.87935 98.14236 0.84207 10.06
Back hole 96.66306 96.65589 96.65681 0.00173 10.02
本发明方法 96.65548244 96.6554821908 96.65548229 0.00000 10.00
表2 Iris数据聚类中心 
5.012142 6.733348 5.93432
3.403101 3.06783 2.797804
1.471638 5.630075 4.417884
0.235409 2.106786 1.417255
实施案例2:
与实施例1的不同之处在于:
本发明应用在wine数据集中,wine数据集是来自意大利同一地区3个不同品种的化学分析结果,共分析了酒精、苹果酸、镁等13种化学属性。三种葡萄的样本数量分别为59、71和48.
本发明所述方法在Wine数据库上聚类结果,最坏情况下类内距离是16292.78524,小于PSO方法和Back hole方法更远小于K均值方法。从最小值看本发明所述方法获得16292.21199的最小内类距离,16292.55689的平均值也是所有方法中最低的,比三种方法都有明显的提高,同时在Wine数据库上本发明所述方法具有良好的稳定性,方差为0.26478。本发明得到的具体聚类中心如表4所示。
表3 wine数据集聚类结果
wine 最大值 最小值 平均值 方差 聚类误差%
K均值 23755.04949 16555.67942 16963.04499 1180.69420 31.14
PSO 16342.78109 16304.48576 16316.27450 12.60275 28.79
Back hole 16300.22613 16293.41995 16294.31763 1.65127 28.47
本发明方法 16292.78524 16292.21199 16292.55689 0.26478 28.0899
表4 Wine聚类中心
12.52527401 13.74235812 12.81672317
2.323083922 1.861926719 2.545927333
2.327613178 2.456457856 2.353104366
21.32552419 16.92410255 19.50836015
92.53165505 105.2808386 98.94112674
2.035775342 2.856688911 2.080805059
1.779046498 3.061731953 1.478997856
0.4057223 0.290265667 0.628219323
1.439514493 2.015988504 1.428465416
4.355038874 5.704301957 5.779653657
0.965134742 1.055215697 0.888398399
2.460821474 3.051961935 2.215603362
463.5992687 1137.271199 686.9702127
实施案例3:
与实施例1、实施例2的不同之处在于:
本发明应用在Glass数据集中,Glass数据集属于玻璃辨识聚类,共包含6种用途的玻璃,其样本数量分别为70.76.17.13.9.29.包含钠、镁、硅、铝、钾、钙等9中属性。
本发明所述方法在Glass数据库上聚类结果,最坏情况下类内距离是210.3764,小于PSO方法和Back hole方法更远小于K均值方法。从最小值看本发明所述方法获得210.20611的最小内类距离,210.27306的平均值也是所有方法中最低的,同时在Glass数据库上本发明所述方法具有极好的稳定性,方差为0.08226,远小于另外三种方法。本发明得到的具体聚类中心如表6所示。
表5 Glass数据集聚类结果
Glass 最大值 最小值 平均值 方差 聚类误差%
K均值 260.83849 215.67753 227.97785 14.13889 38.44
PSO 246.08915 223.90546 230.49328 4.79320 41.20
Back hole 213.95689 210.51549 211.49860 1.18230 36.51
本发明方法 210.3764 210.20611 210.27306 0.08226 36.4486
表6 Glass聚类中心结果
  聚类中心1 聚类中心2 聚类中心3 聚类中心4 聚类中心5 聚类中心6
属性1 1.517597 1.520927 1.51321 1.516288 1.521185 1.516703
属性2 12.84388 13.80131 13 14.6354 13.10093 13.31523
属性3 3.459611 3.553499 0 0.073658 0.248864 3.587441
属性4 1.306449 0.936708 3.02 2.211223 1.427955 1.422825
属性5 73.01492 71.85638 70.7 73.26801 72.684 72.67152
属性6 0.587726 0.168531 6.21 0.039478 0.302631 0.576222
属性7 8.568558 9.52455 6.93 8.692271 11.97382 8.20185
属性8 -0.00187 0.027203 0 1.006131 0.063254 -0.01831
属性9 0.070293 0.046119 0 0.065161 0.066048 0.000227
实施案例4:
与实施例1、实施例2、实例3的不同之处在于:
本范明应用在Vowel数据集中,Vowel用于语音中元音的辨识聚类,共包含三种不同元音,每个样本包含共振频率3个特征,一共871个样本。
本发明所述方法在Vowel数据集上的聚类结果,最坏情况下类内距离是149062.07672,远小于Back hole方法、PSO方法和K均值方法。从最好情况看,本发明所述方法获得148967.43841的类内距离,小于Back hole方法,远小于另外两类方法,平均类内距离均小于三类方法,本发明方法在40次运行方差的统计是45.08522,远小于另外三类方法,说明发明方法具有很好的鲁棒性和稳定性,和前面的实施例所得结论一致。本发明在Vowel数据上得到的具体聚类中心如表8所示。
 
表7 Vowel数据集聚类结果
Vowel 最大值 最小值 平均值 方差 聚类误差%
K均值 168474.26593 149394.80398 153660.80712 4123.04203 43.57
PSO 158987.08231 152461.56473 153218.23418 2945.23167 42.39
Back hole 153058.98663 148985.61373 149848.18144 1306.95375 41.65
本发明方法 149062.07672 148967.43841 149013.84831 45.08522 41.45
表8 Vowel聚类中心结果
Vowel 聚类中心1 聚类中心2 聚类中心3 聚类中心4 聚类中心5 聚类中心6
属性1 407.8919 439.387 623.9358 506.8869 375.2046 357.1441
属性2 1017.913 987.8508 1309.487 1839.354 2149.129 2291.569
属性3 2317.609 2665.602 2333.309 2556.454 2678.285 2977.279
实施案例5:
与实施例1、实施例2、实例3、实例4的不同之处在于:
本范明应用在CMC(Contraceptive Method Choice)数据集中,CMC用于已婚女子避孕的方法的选择,样本共包含没有使用避孕的629个样本、短期使用的334个样本,长期使用的334个样本,每个样本包括人口分布到社会经济方面共9个属性特征。
本发明所述方法在CMC数据集上的聚类结果,最坏情况下类内距离是5532.78229,远小于Back hole方法、PSO方法和K均值方法。从最好情况看,本发明所述方法获得5532.30963的类内距离,小于Back hole方法,远小于另外两类方法,平均类内距离均小于三类方法,本发明方法在40次运行方差的统计是0.25555,远小于另外三类方法,说明发明方法具有很好的鲁棒性和稳定性,和前面的实施例所得结论一致。本发明在CMC数据上得到的具体聚类中心如表10所示。
 
表9 CMC数据集聚类结果
CMC 最大值 最小值 平均值 方差 聚类误差%
K均值 5543.33338 5542.18214 5543.42344 1.52384 54.48
PSO 5561.65492 5539.17425 5547.89320 7.35617 54.50
Back hole 5534.77738 5532.88323 5533.63122 0.59940 54.39
本发明方法 5532.78229 5532.30963 5532.52988 0.25555 54.38
表10 CMC聚类中心结果
CMC 聚类中心1 聚类中心2 聚类中心3
属性1 24.41665 43.63635 33.49572
属性2 3.041278 3.005269 3.133879
属性3 3.513056 3.455112 3.554334
属性4 1.792551 4.584635 3.649118
属性5 0.937552 0.794669 0.790872
属性6 0.789877 0.76402 0.697097
属性7 2.303578 1.822051 2.098588
属性8 2.971789 3.433562 3.285775
属性9 0 0.000636 0.062675

Claims (6)

1.一种基于扰动吸收原理的聚类算法,其特征在于依次包括初始聚类中心选择步骤、移动寻优步骤、交叉寻优步骤和类内扰动优化步骤,
所述初始聚类中心选择步骤是指按同类对象距离近,不同类距离远来选择一组初始聚类中心的方式,在对象集                                               中进行测度;
所述移动寻优步骤是指在全局解空间中寻找最优解,首先在s组聚类中心组中通过计算适应度函数得到最优聚类中心组,其余所有聚类中心组向最优聚类中心移动;
所述交叉寻优步骤是指通过在s组聚类中心中进行交叉寻优,除去最优聚类中心组以外的其余聚类中心组中如果存在某个一个聚类中心更优,则将二者交换,完成交叉寻优,得到搜素结果;
所述类内扰动优化步骤是指通过在类内对聚类中心做有指导的扰动,向类中心靠近,得到优化后的搜索结果。
2.根据权利要求1所述的一种基于扰动吸收原理的聚类算法,其特征在于:所述初始聚类中心选择步骤包括如下步骤:
步骤1、初始聚类中心个数为,聚类中心组数为S;
步骤2、在上定义个模糊集,分别记为,刻画种远近距离;
步骤3、确定聚类半径),根据上述分析,在此聚类半径下,被中心吸收的对象与该中心基本是同一类的;
步骤4、令
步骤5、选择对象满足为某一类的一个初始聚类中心,其中,表示集合中元素个数,即集合的基数;
步骤6、分别选择对象满足
步骤7、选定一组初始聚类中心为
步骤8、重复上述过程次,可选出组初始聚类中心,记组初始聚类中心分别为
.
.
.
其中,
3.根据权利要求1所述的一种基于扰动吸收原理的聚类算法,其特征在于:所述移动寻优步骤包括以下步骤:
步骤1、令组聚类中心经次移动寻优后,聚类中心分别调整为
.
.
.
其中,对应上述组初始聚类中心;
步骤2、,记,则对于第组聚类中心,其第次的目标函数如下:
其中,(以为中心的类),;
步骤3、确定最优聚类中心组,即
;
步骤4、其它聚类中心组分别向最优中心组随机移动,即,第组聚类中心向最优中心组随机移动;
,令,则中的随机移动,形式地描述为:
.
.
.
其中,为一随机数,;
,则;
因此,,随机移动不改变最优中心组的目标函数值,即
;
经过随机移动,得到新聚类中心组,即
;
步骤5、第组聚类中心经过随机移动后的目标函数(第次的目标函数)如下:
次最优聚类中心组满足
4.根据权利要求1所述的一种基于扰动吸收原理的聚类算法,其特征在于:所述交叉寻优步骤包括如下步骤:
步骤1、,令
步骤2、若,则交叉,即替换为替换为相互替换。
5.根据权利要求1所述的一种基于扰动吸收原理的聚类算法,其特征在于:所述类内扰动优化步骤包括如下步骤:
步骤1、,令
步骤2、,令
          
步骤3、若,则
      
其中,表示集合中元素个数,为一设定参数;
步骤4、若,则
      
其中,表示集合中元素个数,为一设定参数。
6.根据权利要求2所述的一种基于扰动吸收原理的聚类算法,其特征在于:所述初始聚类中心选择步骤的步骤8中,为避免选出的组初始聚类中心中出现重复选取的情况,在重复上述过程次时,设定每次在未选择的对象中进行。
CN201410745070.XA 2014-12-09 2014-12-09 一种基于扰动吸收原理的聚类算法 Pending CN104376124A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410745070.XA CN104376124A (zh) 2014-12-09 2014-12-09 一种基于扰动吸收原理的聚类算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410745070.XA CN104376124A (zh) 2014-12-09 2014-12-09 一种基于扰动吸收原理的聚类算法

Publications (1)

Publication Number Publication Date
CN104376124A true CN104376124A (zh) 2015-02-25

Family

ID=52555031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410745070.XA Pending CN104376124A (zh) 2014-12-09 2014-12-09 一种基于扰动吸收原理的聚类算法

Country Status (1)

Country Link
CN (1) CN104376124A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107305637A (zh) * 2016-04-21 2017-10-31 华为技术有限公司 基于K-Means算法的数据聚类方法和装置
CN107315570A (zh) * 2016-04-27 2017-11-03 北京中科寒武纪科技有限公司 一种用于执行Adam梯度下降训练算法的装置及方法
CN108520009A (zh) * 2018-03-19 2018-09-11 北京工业大学 一种英文文本聚类方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107305637A (zh) * 2016-04-21 2017-10-31 华为技术有限公司 基于K-Means算法的数据聚类方法和装置
CN107315570A (zh) * 2016-04-27 2017-11-03 北京中科寒武纪科技有限公司 一种用于执行Adam梯度下降训练算法的装置及方法
CN107315570B (zh) * 2016-04-27 2021-06-18 中科寒武纪科技股份有限公司 一种用于执行Adam梯度下降训练算法的装置及方法
CN108520009A (zh) * 2018-03-19 2018-09-11 北京工业大学 一种英文文本聚类方法及系统

Similar Documents

Publication Publication Date Title
Tao et al. An object detection system based on YOLO in traffic scene
CN102663100B (zh) 一种两阶段混合粒子群优化聚类方法
CN108875816A (zh) 融合置信度准则和多样性准则的主动学习样本选择策略
CN102831474B (zh) 基于量子粒子群优化改进的模糊c-均值聚类方法
CN101968853B (zh) 基于改进的免疫算法优化支持向量机参数的表情识别方法
CN105809672B (zh) 一种基于超像素和结构化约束的图像多目标协同分割方法
CN103886619B (zh) 一种融合多尺度超像素的目标跟踪方法
CN105243139A (zh) 一种基于深度学习的三维模型检索方法及其检索装置
CN109063724A (zh) 一种增强型生成式对抗网络以及目标样本识别方法
CN107610223A (zh) 基于LiDAR点云的电力塔三维重建方法
CN104331716A (zh) 面向大规模训练数据的svm主动学习分类算法
CN105354593B (zh) 一种基于nmf的三维模型分类方法
CN107992895A (zh) 一种Boosting支持向量机学习方法
CN101650838A (zh) 基于重采样方法和仿射聚类算法的点云简化处理方法
CN103065158A (zh) 基于相对梯度的isa模型的行为识别方法
CN104331893A (zh) 一种复杂图像多阈值分割方法
CN113435108B (zh) 一种基于改进的鲸鱼优化算法的战场目标分群方法
CN105046714A (zh) 一种非监督的基于超像素和目标发现机制的图像分割方法
CN103593674A (zh) 一种颈部淋巴结超声图像特征选择方法
CN104376124A (zh) 一种基于扰动吸收原理的聚类算法
CN104318271A (zh) 一种基于适应性编码和几何平滑汇合的图像分类方法
CN106022359A (zh) 基于有序信息熵的模糊熵空间聚类分析方法
CN110348478B (zh) 一种基于形状分类与组合的室外点云场景中树木提取方法
CN109961129A (zh) 一种基于改进粒子群的海上静止目标搜寻方案生成方法
CN105160598A (zh) 一种基于改进em算法的电网业务分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150225

RJ01 Rejection of invention patent application after publication