CN104376124A - 一种基于扰动吸收原理的聚类算法 - Google Patents
一种基于扰动吸收原理的聚类算法 Download PDFInfo
- Publication number
- CN104376124A CN104376124A CN201410745070.XA CN201410745070A CN104376124A CN 104376124 A CN104376124 A CN 104376124A CN 201410745070 A CN201410745070 A CN 201410745070A CN 104376124 A CN104376124 A CN 104376124A
- Authority
- CN
- China
- Prior art keywords
- cluster
- group
- cluster centre
- class
- optimizing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于扰动吸收原理的聚类算法,其特征在于依次包括初始聚类中心选择计算步骤、移动寻优步骤、交叉寻优步骤和类内扰动优化步骤,本发明提出初始聚类中心选择方法,确保了每组初始聚类中心的对象基本为不同类中的对象并均匀分布在对象集中,提出移动寻优完成全局寻优过程,通过对各聚类中心的局部调整,交叉寻优和类内扰动优化共同完成局部寻优过程,对全局最优结果进行再次改进,避免了整体最优与部分最优不同步的问题。
Description
技术领域
本发明涉及数据挖据领域,特别是涉及一种基于扰动吸收原理的聚类算法。
背景技术
目前,聚类的目标是使同一类对象的相似度尽可能大,不同类对象之间的相似度尽可能小。聚类在数据挖掘、机器学习领域广泛的应用价值,在工程学、计算机科学、地球科学以及社会科学和经济学等领域起到越来越重要的作用,因此得到了大量研究。当前聚类算法主要可以分为5大类:基于划分的聚类算法,代表性方法有K-means、CLARA、PCM等;基于层次的聚类算法,代表性方法有CURE方法、ROCK方法、BUBBLE方法等;基于密度聚类的方法,代表性方法有DBSCAN、OPTICC,PDC等;基于网格的聚类算法,STING,WaveCluster,GLIQUE等和基于模型的聚类方法,代表性方法有SOM,AutoClass等。现有的方法各有优缺点,部分算法速度较快,但精度较低,部分算法在一部分数据上效果好,但在另外的数据上效果差,不具有普适性,部分算法容易陷入局部最优值等。
基于划分的聚类算法,预先指定聚类数目或聚类中心,通过反复迭代运算,逐步降低目标函数的误差值,当目标函数值收敛时,得到最终的聚类结果。基于该思想,聚类分析的目的是将 个对象根据某种相似性分成各类,同一类中的对象相似,不同类中的元素相异。聚类分析形式地描述如下:令维实数空间上的对象集为,其中,,,为某一正整数。为个聚类中心,其中,,。若对象满足
,
则对象属于聚类中心确定的类,记为,其中,为与中间的某一距离测度(或相似性测度),例如欧几里得距离,即
。
上述分类结果满足如下条件:
1、每一中的对象均被分在某一类中,即;
2、每一中的对象只属于一个类,即??,其中,且。实际中,若存在多个满足,可按下标从小到大的顺序选择只属于下标最小的类。
据此,聚类分析问题转化为如何确定个聚类中心的问题,进一步,该问题转化为如下数学优化问题,即
其中,若,若,目标函数是对分类结果的一种评价,评价标准有很多,如“类内距离和”,“类间距离和”及“分类距离的信息熵”等,以“类内距离和”为例,其目标函数定义为
,
上式中,对于某一固定的,表示类中对象到中心的距离和或相似度和,即类的评价结果,因此,其目标函数以“类内距离和最小”或“类内相似度和最小”为标准评价分类结果。
人们已提出很多聚类分析算法求解上述优化模型,如K-均值(K-means),模糊C-均值(FCM)等聚类分析算法。已有的聚类分析算法通常包括:
1、选择初始聚类中心;
2、聚类中心迭代寻优;
3、终止条件。
其中,1和2是聚类分析算法的核心。根据问题的不同,初始聚类中心的选择也不同,如随机产生等。一方面,现有聚类分析表明初始聚类中心的选择直接影响聚类结果。另一方面,初始聚类中心选择还没有一个一般性的方法。根据新选聚类中心是否改善目标函数值,人们提出了很多迭代寻优,如基于误差反传的迭代寻优、基于梯度下降的迭代寻优、基于自然规律(蚁群、鸟群、粒子群等生物特性)的迭代寻优。终止条件一般为固定循环次数或满足误差阈值。
其中K均值聚类算法的步骤是:(1)随机指定K个聚类中心;(2)对每一个样本,找到离它最近的聚类中心,并将其分配到所表明类。(3)将每一个移动到其标明的类的中心;(4)计算优化目标函数;(5)如果收敛则返回中止算法,都在返回步骤(2)。K均值算法的聚类结果依赖于初始值的选取,基于梯度下降进行搜索常常使算法陷入局部最优,同时算法只适用于聚类结果为凸形的数据集。
PSO聚类算法是智能寻优算法中最具代表性的方法,也是和本发明专利同类的方法,PSO算法中每个粒子包含一个表示簇中心的数据向量,代表一种候选的划分,整个粒子群则代表了对数据集的多种划分。算法首先将一组随机的簇中心赋值给各个粒子,对于每个粒子,按照最小距离原则对图像像素进行划分操作,随后根据给定的粒子适应度函数,按照PSO算法的步骤找到一个最优粒子,根据最优粒子的位置从而得到一个对数据集的近似最优划分。具体步骤为:(1)给定聚类中心的数目,初始化聚类中心矩阵V,并赋值为各个粒子,随机产生粒子的速度;(2)对每个粒子计算隶属度,修正所有的聚类中心,计算各个粒子的适应值,更新个体极值;(3)根据各个粒子的个体极值,找出全局极值和全局极值位置;(4)按粒子群优化算法的速度公式更新粒子的速度;(5)按粒子群优化算法的位置公式更新粒子的位置;(6)判断收敛条件,收敛则返回,否则转步骤(2)继续迭代。PSO聚类算法的缺点是迭代收敛过程缓慢,容易陷入局部最优值。
基于黑洞原理的启发式优化算法用于数据聚类是近年来出现的一种方法,该方法认为黑洞星体吸收它周围的星体,同时所有星体向黑洞移动,黑洞如下公式吸收星体,即星体的位置变换公式:
其中和分别表示第颗星体在和时刻的位置,表示黑洞的位置。基于黑洞理论的聚类算法步骤为:(1)对于每一个星体,计算目标函数;(2)选择适应度值最好的星体作为黑洞;(3)通过位置变换公式重新确定星体的位置,如果一个星体移动到一个位置其适应度函数值小于黑洞的适应度值,则交换它们的位置,如果一个星体脱离了黑洞的视界范围,则在搜索空间中随机选择一个星体替换它;(4)如果中止条件满足,则停止,否则继续循环迭代。Adam在“How novel is the “novel” black hole optimization approach?”一文中指出该方法本质上是PSO方法,同样存在收敛速度慢,易于收敛于局部最优的问题。
通过对已有聚类算法的比较分析,本专利针对初始聚类中心选择和迭代寻优,提出一种基于扰动吸收的聚类算法,其技术方案由以下三部分组成:
1、通过对聚类对象两两之间的距离测度(或相似性测度)的分析,依据常识知识(相对于对象,若对象与的距离很远(或相似性很低),则与应该不在同一类中)与模糊数学知识,提出基于定性距离(定性相似性度)的初始聚类中心选择方法。
2、聚类中心迭代寻优由以下三步完成:
a)根据目标函数值进行移动寻优,在聚类中心中选出一个最优聚类中心,其它聚类中心向最优聚类中心随机移动,重新计算目标函数值并选出一个新的最优聚类中心;
b)根据各分类的评价结果进行交叉寻优,由于目标函数值是各分类的综合评价结果,如“类内距离和最小”或“类内相似度和最小”, 因此,最优聚类中心对应的综合评价结果与各类的最优评价结果之和并不相等。为此进行各类的最优评价结果与最优聚类中心中相应类的评价结果进行交叉替换,获得一个更优结果。
c)对非最优聚类中心进行类内扰动优化,其目的是优化非最优聚类中心中各类的评价结果,如“类内距离和”,使其在优化过程中更容易跳出局部最优,并逐步靠近各类的最优评价结果,如最小“类内距离和”。
3、根据终止条件,不断重复2的a),b)和c),直到满足终止条件为止。
本发明专利所述初始聚类中心选择方法加速算法收敛速度并有效避免随机选择聚类中心陷入局部最优的问题。所述移动寻优方法和交叉寻优加快了算法优化速度。扰动优化有效避免了算法收敛于局部最优的问题。总体来看,本专利提出的基于扰动吸收聚类算法的四个优化步骤紧密相连、相互补充,初始聚类中心选择是基础,确保了每组初始聚类中心的对象基本为不同类中的对象并均匀分布在对象集中。初始聚类中心选择和移动寻优共同完成全局寻优过程。通过对各聚类中心的局部调整,交叉寻优和类内扰动优化共同完成局部寻优过程,对全局最优结果进行再次改进,避免了整体最优与部分最优不同步的问题。实验结果表明,基于扰动吸收的聚类算法具有快速收敛的特点,与现有具有代表性的聚类分析算法比较,基于扰动吸收聚类算法的聚类分析结果是最优的。
发明内容
本发明的目的在于克服现有技术存在的上述问题,提出一种基于扰动吸收原理的聚类算法。本发明提出初始聚类中心选择步骤,确保了每组初始聚类中心的对象基本为不同类中的对象并均匀分布在对象集中,提出移动寻优完成全局寻优过程,通过对各聚类中心的局部调整,交叉寻优和类内扰动优化共同完成局部寻优过程,对全局最优结果进行再次改进,避免了整体最优与部分最优不同步的问题。
本发明采用以下技术方案来实现:
一种基于扰动吸收原理的聚类算法,其特征在于依次包括如下步骤:初始聚类中心选择步骤、移动寻优步骤、交叉寻优步骤和类内扰动优化步骤。
初始聚类中心选择步骤是基于同类对象距离近,不同类距离远的方式来选择一组初始聚类中心。
在对象集中进行测度(以欧几里得距离为例):
,
,
,
,
,
在上述公式中,是两两对象之间的最大测度,如最大欧几里得距离。是距对象最小非零测度,如最小非零欧几里得距离。是所有对象最小非零测度中的最大测度,如最小非零欧几里得距离中的最大欧几里得距离。是两两对象之间的最小非零测度,如最小非零欧几里得距离。其意义如下:,
(1),
(2),
(3)。
在聚类分析中,聚类半径直接影响聚类结果,半径越大,类中对象越多,当半径足够大时,如以为半径,则所有对象分为一类且每一对象均可作为聚类中心。反之,半径越小,类中对象越少,当半径足够小时,如以为半径,则所有对象各自为一类。此外,若以为半径,以对象为聚类中心,则几乎可确定其类中对象与对象一定是同一类的。
在聚类分析中,有很多常识知识,例如“某一对象一定属于某一类”,“如果对象距离很远,则可断言和属于不同的类”,其中,距离与聚类个数(以3类为例)之间的常识知识可描述如下:
(1)相对于对象距离近的对象与是同一类;
(2)相对于对象距离中的对象为一类;
(3)相对于对象距离远的对象为一类;
根据模糊数学知识将距离的近、中和远分别可用上的模糊集刻画。根据模糊数学知识是指在给定范围内元素对它的隶属关系不一定只有“是”或“否”两种情况,而是用介于0和1之间的实数来表示隶属程度,还存在中间过渡状态。
在聚类分析中,初始聚类中心的选择应满足所选聚类中心应该是不同类的,所选聚类中心具有一定代表性并尽可能均匀分布在数据集中。上述常识知识提供了我们一种选择聚类中心的方法,其中的关键问题是首先确定代表对象,然后根据距离的远近选择其它类的初始中心。对象是否可以作为初始聚类中心,可通过在一定半径内是否聚集了足够多同类对象来确定。据此,本发明初始聚类中心选择方法如图3所示,描述如下:
步骤1、初始聚类中心个数为,聚类中心组数为S;
步骤2、在上定义个模糊集,分别记为,刻画种远近距离;
步骤3、确定聚类半径(),根据上述分析,在此聚类半径下,被中心吸收的对象与该中心基本是同一类的;
步骤4、令;
步骤5、选择对象满足为某一类的一个初始聚类中心,其中,表示集合中元素个数,即集合的基数;
步骤6、分别选择对象满足;
步骤7、选定一组初始聚类中心为;
步骤8、重复上述过程次,可选出组初始聚类中心。为避免重复选取,可设定每次在未选择的对象中进行。记组初始聚类中心分别为
,
,
。
其中,及,。
通过上述过程选择的初始聚类中心具有如下特点:(1)每一初始聚类中心均为原始数据中的对象且具有一定代表性;(2)每组初始聚类中心的对象基本为不同类中的对象;(3)组初始聚类中心尽可能地均匀分布在数据集中。
移动寻优步骤是指在全局解空间中寻找最优解,首先在s组聚类中心组中通过计算适应度函数得到最优聚类中心组,其余所有聚类中心组向最优聚类中心移动,描述如下:
步骤1、令组聚类中心经次移动寻优后,聚类中心分别调整为
,
,
,
其中,对应上述组初始聚类中心。
步骤2、及,记,则对于第组聚类中心,其第次的目标函数如下:
,
其中,若(以为中心的类),若。
步骤3、确定最优聚类中心组,即
。
步骤4、其它聚类中心组分别向最优中心组随机移动,即,第组聚类中心向最优中心组随机移动。若,令,则中的向随机移动,形式地描述为:
,
,
,
其中,为一随机数,。若,则,。因此,,,随机移动不改变最优中心组的目标函数值,即
。
经过随机移动,得到新聚类中心组,即,
。
步骤5、第组聚类中心经过随机移动后的目标函数(第次的目标函数)如下:
,
第次最优聚类中心组满足
。
综上所述,移动寻优是聚类中心组内进行的一种动态寻优,其目的与效果体现在:(1)通过随机移动,丰富寻优种群的多样性,避免单一种群在寻优过程中重复使用;(2)通过随机移动,扩大了最优中心的搜索范围,有利于得到全局最优值;(3)相对于某一类来说,其它聚类中心分别向最优中心动态移动并再次寻优,可快速发现更优对象,改善目标函数最优值,避免陷入局部最优。
交叉寻优步骤实在通过在s组聚类中心中进行交叉寻优,除去最优聚类中心组以外的其余聚类中心组中如果存在某个一个聚类中心比中更优,则将二者交换,完成交叉寻优,得到搜素结果。
形式地,在 中,最小不意味着在中每一项都最小,即,存在满足
据此,交叉寻优方法流程描述如下:
步骤1、,令
步骤2、若,则与交叉,即替换为,替换为,与相互替换。
交叉寻优是在整体最优结果中进行的一种局部再优化,形式上,交叉寻优具有如下效果:(1)通过局部最优替换,即替换为,已有的最优结果被更优的结果替换;(2)避免了在聚类分析中,整体最优与部分最优不同步的问题。
类内扰动优化步骤是指通过在类内对聚类中心做有指导的扰动,向类中心靠近,得到更优的搜索结果。
形式上,,其目标函数 中的刻画了类(以为聚类中心的类)的类内测度(或距离)和,就其类内对象的分布情况来看,常识知识是:距离即远且稀疏的对象,越不可能是该类中的对象。因此,若聚类中心向聚集对象较多的方向靠近,则能改善该聚类中心的优化效果,得到优化后的搜素结果。
类内扰动优化方法流程描述如下:
步骤1、及,令,及;
步骤2、,令
,
。
步骤3、若,则
。
其中,表示集合中元素个数,为一设定参数。
步骤4、若,则
。
其中,表示集合中元素个数,为一设定参数。
类内扰动优化用于进一步改善各非最优聚类中心的优化效果,形式上,类内扰动优化具有如下效果:(1)通过类内扰动,丰富类内寻优种群的多样性,改善各非最优聚类中心的优化效果;(2)通过排除距离聚类中心即远且稀疏的对象,改善每类聚类中心的聚集效果。
本发明与现有技术相比,其优点在于:
1、本发明提出初始聚类中心选择步骤,确保了每组初始聚类中心的对象基本为不同类中的对象并均匀分布在对象集中,提出移动寻优完成全局寻优过程,通过对各聚类中心的局部调整,交叉寻优和类内扰动优化共同完成局部寻优过程,对全局最优结果进行再次改进,避免了整体最优与部分最优不同步的问题。
2、本发明采用初始聚类中心选择步骤具有如下特点:(1)每一初始聚类中心均为原始数据中的对象,并且具有一定代表性;(2)每组初始聚类中心的对象基本为不同类中的对象;(3)组初始聚类中心尽可能地均匀分布在数据集中。
3、本发明采用移动寻优步骤具有如下特点:(1)通过随机移动,丰富寻优种群的多样性,避免单一种群在寻优过程中重复使用;(2)通过随机移动,扩大了最优中心的搜索范围,有利于得到全局最优值;(3)相对于某一类来说,其它聚类中心分别向最优中心动态移动并再次寻优,可快速发现更优对象,改善目标函数最优值,避免陷入局部最优。
4、本发明采用交叉寻优步骤具有如下特点:(1)通过局部最优替换,即替换为,已有的最优结果被更优的结果替换;(2)避免了在聚类分析中,整体最优与部分最优不同步的问题。
5、本发明采用类内扰动优化步骤具有如下特点:(1)通过类内扰动,丰富类内寻优种群的多样性,改善各非最优聚类中心的优化效果;(2)通过排除距离聚类中心即远且稀疏的对象,改善每类聚类中心的聚集效果。
6、本发明方法与当前同类最好方法性比,不仅具有最好的聚类效果,跟显著的优点是具备很好的鲁棒性和稳定性,多次运行具有很最小的方差,说明本发明方法具有更好的全局收敛性。
附图说明
图1为本发明流程图;
图2为本发明距离模糊集示意图;
图3为本发明初始聚类中心选择流程图;
图4为本发明移动寻优方法流程图。
具体实施方式
下面对本发明进行进一步的说明:
实施案例1:
一种基于扰动吸收原理的聚类算法,依次包括初始聚类中心选择步骤、移动寻优步骤、交叉寻优步骤和类内扰动优化步骤,
所述初始聚类中心选择步骤是指按同类对象距离近,不同类距离远来选择一组初始聚类中心的方式,在对象集中进行测度;
所述移动寻优步骤是指在全局解空间中寻找最优解,首先在s组聚类中心组中通过计算适应度函数得到最优聚类中心组,其余所有聚类中心组向最优聚类中心移动;
所述交叉寻优步骤是指通过在s组聚类中心中进行交叉寻优,除去最优聚类中心组以外的其余聚类中心组中如果存在某个一个聚类中心比中更优,则将二者交换,完成交叉寻优,得到搜素结果;
所述类内扰动优化步骤是指通过在类内对聚类中心做有指导的扰动,向类中心靠近,得到优化后的搜索结果。
本发明中,所述初始聚类中心选择步骤包括如下步骤:
步骤1、初始聚类中心个数为,聚类中心组数为S;
步骤2、在上定义个模糊集,分别记为,刻画种远近距离;
步骤3、确定聚类半径(),根据上述分析,在此聚类半径下,被中心吸收的对象与该中心基本是同一类的;
步骤4、令;
步骤5、选择对象满足为某一类的一个初始聚类中心,其中,表示集合中元素个数,即集合的基数;
步骤6、分别选择对象满足;
步骤7、选定一组初始聚类中心为;
步骤8、重复上述过程次,可选出组初始聚类中心,记组初始聚类中心分别为
,
,
;
其中,及,;
本发明中,所述移动寻优步骤包括以下步骤:
步骤1、令组聚类中心经次移动寻优后,聚类中心分别调整为
,
,
,
其中,对应上述组初始聚类中心。
步骤2、及,记,则对于第组聚类中心,其第次的目标函数如下:
,
其中,若(以为中心的类),若。
步骤3、确定最优聚类中心组,即
。
步骤4、其它聚类中心组分别向最优中心组随机移动,即,第组聚类中心向最优中心组随机移动。若,令,则中的向随机移动,形式地描述为:
,
,
,
其中,为一随机数,。若,则,。因此,,,随机移动不改变最优中心组的目标函数值,即
。
经过随机移动,得到新聚类中心组,即,
。
步骤5、第组聚类中心经过随机移动后的目标函数(第次的目标函数)如下:
,
第次最优聚类中心组满足
;
本发明中,所述交叉寻优步骤包括如下步骤:
步骤1、,令
步骤2、若,则与交叉,即替换为,替换为,与相互替换;
本发明中,所述类内扰动优化步骤包括如下步骤:
步骤1、及,令,及;
步骤2、,令
,
。
步骤3、若,则
。
其中,表示集合中元素个数,为一设定参数。
步骤4、若,则
。
其中,表示集合中元素个数,为一设定参数。
本发明应用在iris数据集中,iris数据集以鸢尾花的特征作为数据来源,数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性,是在数据挖掘、数据分类中非常常用的测试集、训练集三类分别为:setosa, versicolor, virginica,数据包含4个独立的属性,这些属性变量测量植物的花朵,如萼片和花瓣的长度和宽度。下表给出本发明所得聚类结果与常见方法的对比。
本发明所述方法在Iris数据库上聚类结果,最坏情况下类内距离是96.65548244,小于PSO方法和Back hole方法更远小于K均值方法。从最小值看本发明所述方法获得96.6554821908的最小内类距离,96.65548229的平均值也是所有方法中最低的,同时在Iris数据库上本发明所述方法具有极好的稳定性,方差几乎为0。本发明得到的Iris数据聚类中心如表2所示。
表1 iris数据集聚类结果
Iris | 最大值 | 最小值 | 平均值 | 方差 | 聚类误差% |
K均值 | 128.40420 | 97.32592 | 105.72902 | 12.38759 | 13.42 |
PSO | 99.76952 | 96.87935 | 98.14236 | 0.84207 | 10.06 |
Back hole | 96.66306 | 96.65589 | 96.65681 | 0.00173 | 10.02 |
本发明方法 | 96.65548244 | 96.6554821908 | 96.65548229 | 0.00000 | 10.00 |
表2 Iris数据聚类中心
5.012142 | 6.733348 | 5.93432 |
3.403101 | 3.06783 | 2.797804 |
1.471638 | 5.630075 | 4.417884 |
0.235409 | 2.106786 | 1.417255 |
实施案例2:
与实施例1的不同之处在于:
本发明应用在wine数据集中,wine数据集是来自意大利同一地区3个不同品种的化学分析结果,共分析了酒精、苹果酸、镁等13种化学属性。三种葡萄的样本数量分别为59、71和48.
本发明所述方法在Wine数据库上聚类结果,最坏情况下类内距离是16292.78524,小于PSO方法和Back hole方法更远小于K均值方法。从最小值看本发明所述方法获得16292.21199的最小内类距离,16292.55689的平均值也是所有方法中最低的,比三种方法都有明显的提高,同时在Wine数据库上本发明所述方法具有良好的稳定性,方差为0.26478。本发明得到的具体聚类中心如表4所示。
表3 wine数据集聚类结果
wine | 最大值 | 最小值 | 平均值 | 方差 | 聚类误差% |
K均值 | 23755.04949 | 16555.67942 | 16963.04499 | 1180.69420 | 31.14 |
PSO | 16342.78109 | 16304.48576 | 16316.27450 | 12.60275 | 28.79 |
Back hole | 16300.22613 | 16293.41995 | 16294.31763 | 1.65127 | 28.47 |
本发明方法 | 16292.78524 | 16292.21199 | 16292.55689 | 0.26478 | 28.0899 |
表4 Wine聚类中心
12.52527401 | 13.74235812 | 12.81672317 |
2.323083922 | 1.861926719 | 2.545927333 |
2.327613178 | 2.456457856 | 2.353104366 |
21.32552419 | 16.92410255 | 19.50836015 |
92.53165505 | 105.2808386 | 98.94112674 |
2.035775342 | 2.856688911 | 2.080805059 |
1.779046498 | 3.061731953 | 1.478997856 |
0.4057223 | 0.290265667 | 0.628219323 |
1.439514493 | 2.015988504 | 1.428465416 |
4.355038874 | 5.704301957 | 5.779653657 |
0.965134742 | 1.055215697 | 0.888398399 |
2.460821474 | 3.051961935 | 2.215603362 |
463.5992687 | 1137.271199 | 686.9702127 |
实施案例3:
与实施例1、实施例2的不同之处在于:
本发明应用在Glass数据集中,Glass数据集属于玻璃辨识聚类,共包含6种用途的玻璃,其样本数量分别为70.76.17.13.9.29.包含钠、镁、硅、铝、钾、钙等9中属性。
本发明所述方法在Glass数据库上聚类结果,最坏情况下类内距离是210.3764,小于PSO方法和Back hole方法更远小于K均值方法。从最小值看本发明所述方法获得210.20611的最小内类距离,210.27306的平均值也是所有方法中最低的,同时在Glass数据库上本发明所述方法具有极好的稳定性,方差为0.08226,远小于另外三种方法。本发明得到的具体聚类中心如表6所示。
表5 Glass数据集聚类结果
Glass | 最大值 | 最小值 | 平均值 | 方差 | 聚类误差% |
K均值 | 260.83849 | 215.67753 | 227.97785 | 14.13889 | 38.44 |
PSO | 246.08915 | 223.90546 | 230.49328 | 4.79320 | 41.20 |
Back hole | 213.95689 | 210.51549 | 211.49860 | 1.18230 | 36.51 |
本发明方法 | 210.3764 | 210.20611 | 210.27306 | 0.08226 | 36.4486 |
表6 Glass聚类中心结果
聚类中心1 | 聚类中心2 | 聚类中心3 | 聚类中心4 | 聚类中心5 | 聚类中心6 | |
属性1 | 1.517597 | 1.520927 | 1.51321 | 1.516288 | 1.521185 | 1.516703 |
属性2 | 12.84388 | 13.80131 | 13 | 14.6354 | 13.10093 | 13.31523 |
属性3 | 3.459611 | 3.553499 | 0 | 0.073658 | 0.248864 | 3.587441 |
属性4 | 1.306449 | 0.936708 | 3.02 | 2.211223 | 1.427955 | 1.422825 |
属性5 | 73.01492 | 71.85638 | 70.7 | 73.26801 | 72.684 | 72.67152 |
属性6 | 0.587726 | 0.168531 | 6.21 | 0.039478 | 0.302631 | 0.576222 |
属性7 | 8.568558 | 9.52455 | 6.93 | 8.692271 | 11.97382 | 8.20185 |
属性8 | -0.00187 | 0.027203 | 0 | 1.006131 | 0.063254 | -0.01831 |
属性9 | 0.070293 | 0.046119 | 0 | 0.065161 | 0.066048 | 0.000227 |
实施案例4:
与实施例1、实施例2、实例3的不同之处在于:
本范明应用在Vowel数据集中,Vowel用于语音中元音的辨识聚类,共包含三种不同元音,每个样本包含共振频率3个特征,一共871个样本。
本发明所述方法在Vowel数据集上的聚类结果,最坏情况下类内距离是149062.07672,远小于Back hole方法、PSO方法和K均值方法。从最好情况看,本发明所述方法获得148967.43841的类内距离,小于Back hole方法,远小于另外两类方法,平均类内距离均小于三类方法,本发明方法在40次运行方差的统计是45.08522,远小于另外三类方法,说明发明方法具有很好的鲁棒性和稳定性,和前面的实施例所得结论一致。本发明在Vowel数据上得到的具体聚类中心如表8所示。
表7 Vowel数据集聚类结果
Vowel | 最大值 | 最小值 | 平均值 | 方差 | 聚类误差% |
K均值 | 168474.26593 | 149394.80398 | 153660.80712 | 4123.04203 | 43.57 |
PSO | 158987.08231 | 152461.56473 | 153218.23418 | 2945.23167 | 42.39 |
Back hole | 153058.98663 | 148985.61373 | 149848.18144 | 1306.95375 | 41.65 |
本发明方法 | 149062.07672 | 148967.43841 | 149013.84831 | 45.08522 | 41.45 |
表8 Vowel聚类中心结果
Vowel | 聚类中心1 | 聚类中心2 | 聚类中心3 | 聚类中心4 | 聚类中心5 | 聚类中心6 |
属性1 | 407.8919 | 439.387 | 623.9358 | 506.8869 | 375.2046 | 357.1441 |
属性2 | 1017.913 | 987.8508 | 1309.487 | 1839.354 | 2149.129 | 2291.569 |
属性3 | 2317.609 | 2665.602 | 2333.309 | 2556.454 | 2678.285 | 2977.279 |
实施案例5:
与实施例1、实施例2、实例3、实例4的不同之处在于:
本范明应用在CMC(Contraceptive Method Choice)数据集中,CMC用于已婚女子避孕的方法的选择,样本共包含没有使用避孕的629个样本、短期使用的334个样本,长期使用的334个样本,每个样本包括人口分布到社会经济方面共9个属性特征。
本发明所述方法在CMC数据集上的聚类结果,最坏情况下类内距离是5532.78229,远小于Back hole方法、PSO方法和K均值方法。从最好情况看,本发明所述方法获得5532.30963的类内距离,小于Back hole方法,远小于另外两类方法,平均类内距离均小于三类方法,本发明方法在40次运行方差的统计是0.25555,远小于另外三类方法,说明发明方法具有很好的鲁棒性和稳定性,和前面的实施例所得结论一致。本发明在CMC数据上得到的具体聚类中心如表10所示。
表9 CMC数据集聚类结果
CMC | 最大值 | 最小值 | 平均值 | 方差 | 聚类误差% |
K均值 | 5543.33338 | 5542.18214 | 5543.42344 | 1.52384 | 54.48 |
PSO | 5561.65492 | 5539.17425 | 5547.89320 | 7.35617 | 54.50 |
Back hole | 5534.77738 | 5532.88323 | 5533.63122 | 0.59940 | 54.39 |
本发明方法 | 5532.78229 | 5532.30963 | 5532.52988 | 0.25555 | 54.38 |
表10 CMC聚类中心结果
CMC | 聚类中心1 | 聚类中心2 | 聚类中心3 |
属性1 | 24.41665 | 43.63635 | 33.49572 |
属性2 | 3.041278 | 3.005269 | 3.133879 |
属性3 | 3.513056 | 3.455112 | 3.554334 |
属性4 | 1.792551 | 4.584635 | 3.649118 |
属性5 | 0.937552 | 0.794669 | 0.790872 |
属性6 | 0.789877 | 0.76402 | 0.697097 |
属性7 | 2.303578 | 1.822051 | 2.098588 |
属性8 | 2.971789 | 3.433562 | 3.285775 |
属性9 | 0 | 0.000636 | 0.062675 |
Claims (6)
1.一种基于扰动吸收原理的聚类算法,其特征在于依次包括初始聚类中心选择步骤、移动寻优步骤、交叉寻优步骤和类内扰动优化步骤,
所述初始聚类中心选择步骤是指按同类对象距离近,不同类距离远来选择一组初始聚类中心的方式,在对象集 中进行测度;
所述移动寻优步骤是指在全局解空间中寻找最优解,首先在s组聚类中心组中通过计算适应度函数得到最优聚类中心组,其余所有聚类中心组向最优聚类中心移动;
所述交叉寻优步骤是指通过在s组聚类中心中进行交叉寻优,除去最优聚类中心组以外的其余聚类中心组中如果存在某个一个聚类中心比中更优,则将二者交换,完成交叉寻优,得到搜素结果;
所述类内扰动优化步骤是指通过在类内对聚类中心做有指导的扰动,向类中心靠近,得到优化后的搜索结果。
2.根据权利要求1所述的一种基于扰动吸收原理的聚类算法,其特征在于:所述初始聚类中心选择步骤包括如下步骤:
步骤1、初始聚类中心个数为,聚类中心组数为S;
步骤2、在上定义个模糊集,分别记为,刻画种远近距离;
步骤3、确定聚类半径(),根据上述分析,在此聚类半径下,被中心吸收的对象与该中心基本是同一类的;
步骤4、令;
步骤5、选择对象满足为某一类的一个初始聚类中心,其中,表示集合中元素个数,即集合的基数;
步骤6、分别选择对象满足;
步骤7、选定一组初始聚类中心为;
步骤8、重复上述过程次,可选出组初始聚类中心,记组初始聚类中心分别为
,
,
.
.
.
;
其中,及,。
3.根据权利要求1所述的一种基于扰动吸收原理的聚类算法,其特征在于:所述移动寻优步骤包括以下步骤:
步骤1、令组聚类中心经次移动寻优后,聚类中心分别调整为
,
,
.
.
.
,
其中,对应上述组初始聚类中心;
步骤2、及,记,则对于第组聚类中心,其第次的目标函数如下:
,
其中,若(以为中心的类),若;
步骤3、确定最优聚类中心组,即
;
步骤4、其它聚类中心组分别向最优中心组随机移动,即,第组聚类中心向最优中心组随机移动;
若,令,则中的向随机移动,形式地描述为:
,
,
.
.
.
,
其中,为一随机数,;
若,则,;
因此,,,随机移动不改变最优中心组的目标函数值,即
;
经过随机移动,得到新聚类中心组,即,
;
步骤5、第组聚类中心经过随机移动后的目标函数(第次的目标函数)如下:
,
第次最优聚类中心组满足
。
4.根据权利要求1所述的一种基于扰动吸收原理的聚类算法,其特征在于:所述交叉寻优步骤包括如下步骤:
步骤1、,令
步骤2、若,则与交叉,即替换为,替换为,与相互替换。
5.根据权利要求1所述的一种基于扰动吸收原理的聚类算法,其特征在于:所述类内扰动优化步骤包括如下步骤:
步骤1、及,令,及;
步骤2、,令
,
,
步骤3、若,则
;
其中,表示集合中元素个数,为一设定参数;
步骤4、若,则
,
其中,表示集合中元素个数,为一设定参数。
6.根据权利要求2所述的一种基于扰动吸收原理的聚类算法,其特征在于:所述初始聚类中心选择步骤的步骤8中,为避免选出的组初始聚类中心中出现重复选取的情况,在重复上述过程次时,设定每次在未选择的对象中进行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410745070.XA CN104376124A (zh) | 2014-12-09 | 2014-12-09 | 一种基于扰动吸收原理的聚类算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410745070.XA CN104376124A (zh) | 2014-12-09 | 2014-12-09 | 一种基于扰动吸收原理的聚类算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104376124A true CN104376124A (zh) | 2015-02-25 |
Family
ID=52555031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410745070.XA Pending CN104376124A (zh) | 2014-12-09 | 2014-12-09 | 一种基于扰动吸收原理的聚类算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104376124A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107305637A (zh) * | 2016-04-21 | 2017-10-31 | 华为技术有限公司 | 基于K-Means算法的数据聚类方法和装置 |
CN107315570A (zh) * | 2016-04-27 | 2017-11-03 | 北京中科寒武纪科技有限公司 | 一种用于执行Adam梯度下降训练算法的装置及方法 |
CN108520009A (zh) * | 2018-03-19 | 2018-09-11 | 北京工业大学 | 一种英文文本聚类方法及系统 |
-
2014
- 2014-12-09 CN CN201410745070.XA patent/CN104376124A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107305637A (zh) * | 2016-04-21 | 2017-10-31 | 华为技术有限公司 | 基于K-Means算法的数据聚类方法和装置 |
CN107315570A (zh) * | 2016-04-27 | 2017-11-03 | 北京中科寒武纪科技有限公司 | 一种用于执行Adam梯度下降训练算法的装置及方法 |
CN107315570B (zh) * | 2016-04-27 | 2021-06-18 | 中科寒武纪科技股份有限公司 | 一种用于执行Adam梯度下降训练算法的装置及方法 |
CN108520009A (zh) * | 2018-03-19 | 2018-09-11 | 北京工业大学 | 一种英文文本聚类方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tao et al. | An object detection system based on YOLO in traffic scene | |
CN102663100B (zh) | 一种两阶段混合粒子群优化聚类方法 | |
CN108875816A (zh) | 融合置信度准则和多样性准则的主动学习样本选择策略 | |
CN102831474B (zh) | 基于量子粒子群优化改进的模糊c-均值聚类方法 | |
CN101968853B (zh) | 基于改进的免疫算法优化支持向量机参数的表情识别方法 | |
CN105809672B (zh) | 一种基于超像素和结构化约束的图像多目标协同分割方法 | |
CN103886619B (zh) | 一种融合多尺度超像素的目标跟踪方法 | |
CN105243139A (zh) | 一种基于深度学习的三维模型检索方法及其检索装置 | |
CN109063724A (zh) | 一种增强型生成式对抗网络以及目标样本识别方法 | |
CN107610223A (zh) | 基于LiDAR点云的电力塔三维重建方法 | |
CN104331716A (zh) | 面向大规模训练数据的svm主动学习分类算法 | |
CN105354593B (zh) | 一种基于nmf的三维模型分类方法 | |
CN107992895A (zh) | 一种Boosting支持向量机学习方法 | |
CN101650838A (zh) | 基于重采样方法和仿射聚类算法的点云简化处理方法 | |
CN103065158A (zh) | 基于相对梯度的isa模型的行为识别方法 | |
CN104331893A (zh) | 一种复杂图像多阈值分割方法 | |
CN113435108B (zh) | 一种基于改进的鲸鱼优化算法的战场目标分群方法 | |
CN105046714A (zh) | 一种非监督的基于超像素和目标发现机制的图像分割方法 | |
CN103593674A (zh) | 一种颈部淋巴结超声图像特征选择方法 | |
CN104376124A (zh) | 一种基于扰动吸收原理的聚类算法 | |
CN104318271A (zh) | 一种基于适应性编码和几何平滑汇合的图像分类方法 | |
CN106022359A (zh) | 基于有序信息熵的模糊熵空间聚类分析方法 | |
CN110348478B (zh) | 一种基于形状分类与组合的室外点云场景中树木提取方法 | |
CN109961129A (zh) | 一种基于改进粒子群的海上静止目标搜寻方案生成方法 | |
CN105160598A (zh) | 一种基于改进em算法的电网业务分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150225 |
|
RJ01 | Rejection of invention patent application after publication |