CN102682048A - 一种自适应吸引传播聚类方法及装置 - Google Patents

一种自适应吸引传播聚类方法及装置 Download PDF

Info

Publication number
CN102682048A
CN102682048A CN2011103352969A CN201110335296A CN102682048A CN 102682048 A CN102682048 A CN 102682048A CN 2011103352969 A CN2011103352969 A CN 2011103352969A CN 201110335296 A CN201110335296 A CN 201110335296A CN 102682048 A CN102682048 A CN 102682048A
Authority
CN
China
Prior art keywords
unit
self
value
clustering method
adaption
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011103352969A
Other languages
English (en)
Other versions
CN102682048B (zh
Inventor
刘晓勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201110335296.9A priority Critical patent/CN102682048B/zh
Publication of CN102682048A publication Critical patent/CN102682048A/zh
Application granted granted Critical
Publication of CN102682048B publication Critical patent/CN102682048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种自适应吸引传播聚类方法及装置,通过数据采集单元采集数据,并转化为特征数据向量集合;初始化单元对吸引传播聚类方法的有关参数进行初始化操作;R和A的值计算单元计算R和A的值;自适应更新单元对R和A的值进行更新;条件判断单元判断是否结束循环;如果未达到循环停止条件,释放N信号继续执行步骤三至步骤四;如果达到循环停止条件,释放Y信号执行下一步,循环结束,通过输出单元输出聚类结果。本发明由于在自适应更新单元中采用了自适应更新的策略,使得吸引传播聚类算法收敛速度更快,精度更高,可以适用于大型高维数据集的自动聚类任务。

Description

一种自适应吸引传播聚类方法及装置
技术领域
本发明涉及数据挖掘领域中聚类分析方法,尤其涉及一种自适应吸引传播聚类方法及装置。
背景技术
Affinity propagation clustering(AP,吸引-传播聚类算法)是由B.J.Frey和D.Dueck于2007年提出的一种新的聚类算法,该算法无需事先定义类数,也不需要数据集具有某种特殊的结构,算法在运行中主要根据数据集中N个样本点之间的相似度进行聚类,这些相似度值可以组成一个N×N的相似度矩阵S(如:S(i,j)表示样本点i和样本点j之间的相似度)。相似度矩阵S的主对角线上的数值又称为Preference,该值是对应的样本点能否成为聚类中心的评判标准,一般来说,其值越大这个点成为聚类中心的可能性就越大。AP算法主要依靠一种“消息传递”机制实现数据集的聚类。这种消息传递机制中主要包含两类信息Responsibility(简称R)和Availability(简称A):Responsibility表示样本点对不同的候选类中心发出的信息,表明候选类中心相应于该样本点作为潜在类中心的适合程度,该值越大表明候选类中心越可能成为实际的类中心;Availability表示候选类中心对样本点发出的信息,表明该样本点相应于候选类中心的聚合程度,该值越大表明样本点越可能属于某一类。AP算法通过迭代过程不断更新每一个点的Responsibility和Availability值,直到自动产生若干个类中心,同时将其余的数据点分配到相应的类团中。在具体实现时,AP算法首先把所有的数据点均视作类中心,然后在迭代过程中不断搜索合适的聚类中心,自动地从数据点间识别最佳类中心的位置及个数,通过数据点间的“信息传递”来实现整个聚类过程。与传统的K均值算法对初始类中心选择的敏感性相比,AP算法是一种确定性的聚类算法,多次独立运行的聚类结果一般都十分稳定。该算法以其简单、高效的优势已广泛应用于多种领域,如:设施选址、图像识别,图像分割、文本挖掘,生物医学,视频关键帧提取和图像检索等方面。国内的王开军,谢信喜、肖宇、谷瑞军、董俊及李雅芹等人针对AP算法的不足提出了多种改进方法,但是现有的吸引传播聚类算法,收敛速度较慢。其中最主要的原因是AP算法的收敛性能对收敛系数初始值的选择比较敏感,本发明提出的新的吸引传播聚类方法是在传统AP聚类算法基础上引入关于R和A的自适应更新策略,使R和A的值能够随算法进程自适应动态调整,以加速AP算法的收敛过程。
发明内容
本发明的一个目的在于克服现有技术中上述缺陷:提供一种能加快聚类的收敛速度的一种自适应吸引传播聚类方法。
本发明的另一个目的在于克服现有技术中上述缺陷:提供一种能加快聚类的收敛速度的一种自适应吸引传播聚类装置。
为实现上述目的,本发明提供的技术方案如下:提供一种自适应吸引传播聚类方法,包括以下步骤:
一、通过数据采集单元采集数据,并将其转化为特征数据向量集合;
二、通过初始化单元,根据特征向量集合,对有关参数进行初始化操作;
三、通过计算单元分别计算R和A的值;
四、通过自适应更新单元对R和A的值进行更新;
五、通过条件判断单元判断是否结束循环,如果未达到循环停止条件,释放N信号继续执行步骤三至步骤四;如果达到循环停止条件,释放Y信号执行下一步,循环结束,通过输出单元输出聚类结果。
提供一种能加快聚类的收敛速度的一种自适应吸引传播聚类装置,包括:
数据采集单元,用于从终端采集数据,并转化为特征数据向量集合;
初始化单元,用于对吸引传播聚类方法的有关参数进行初始化操作;
R和A的值计算单元,用于计算R和A的值;
自适应更新单元,用于对R和A的值进行更新;
条件判断单元,用于判断是否结束循环;
结果输出单元,用于达到循环终止条件后,输出结果。
本发明所述一种自适应吸引传播聚类方法及装置的有益效果是:通过数据采集单元采集数据,并转化为特征数据向量集合;初始化单元对吸引传播聚类方法的有关参数进行初始化操作;R和A的值计算单元计算R和A的值;自适应更新单元对R和A的值进行更新;条件判断单元判断是否结束循环;结果输出单元在达到循环终止条件时,输出结果。本发明由于在自适应更新单元中采用了自适应更新的策略,使得吸引传播聚类算法收敛速度更快,精度更高,可以适用于大型高维数据集的自动聚类任务。
下面结合附图和实施例对本发明所述的一种自适应吸引传播聚类方法及装置作进一步说明:
附图说明
图1是一种自适应吸引传播聚类装置的系统结构方框图。
具体实施方式
以下是本发明所述一种自适应吸引传播聚类方法及装置的最佳实施例,并不因此限定本发明的保护范围。
参照图1,提供一种自适应吸引传播聚类方法(简称F-AP-W),包括以下步骤:
一、通过数据采集单元采集数据,并将其转化为特征数据向量集合;
二、通过初始化单元,根据特征向量集合,对有关参数进行初始化操作;
三、通过计算单元分别计算R和A的值;
四、通过自适应更新单元对R和A的值进行更新;
五、通过条件判断单元判断是否结束循环,如果未达到循环停止条件,释放N信号继续执行步骤三至步骤四;如果达到循环停止条件,释放Y信号执行下一步,循环结束,通过输出单元输出聚类结果。
通过自适应更新单元中的自适应更新策略对两个重用的参数矩阵:计算R值的矩阵R和计算A值的矩阵A分别按照如下两个公式进行更新:
R i + 1 ( i , k ) = λ i + 1 · R i + 1 old ( i , k ) + ( 1 - λ i + 1 ) · R i ( i , k )
A i + 1 ( i , k ) = λ i + 1 · A i + 1 old ( i , k ) + ( 1 - λ i + 1 ) · A i ( i , k )
所述λ将按照公式λi+1=0.9-t*(0.9-0.5)/T随算法迭代的进程而进行自适应的动态调整。
在步骤一中:算法初始化
计算初始相似度矩阵S(S(i,j)表示样本点i和样本点j之间的相似度);
对P赋初值(S主对角线上的数值又称为Preference,简称P)赋初值;
在步骤二中:计算样本点间的Responsibility(简称R)值。
R ( i , k ) ← s ( i , k ) - max j ≠ k ( s ( i , j ) + A ( i , j ) ) - - - ( 1 )
A(i,j)表示j对于i的Availability值。
在步骤三中:计算样本点间的Availability(简称A)值。
A ( i , k ) ← min { 0 , R ( k , k ) + Σ j ≠ i , k max ( 0 , R ( j , k ) ) } - - - ( 2 )
A ( k , k ) ← Σ j ≠ k max ( 0 , R ( j , k ) ) - - - ( 3 )
在步骤四中:Responsibility和Availability的更新。
R i + 1 ( i , k ) = λ · R i + 1 old ( i , k ) + ( 1 - λ ) · R i ( i , k ) , ( λ ∈ [ 0.5,1 ) ) - - - ( 4 )
A i + 1 ( i , k ) = λ · A i + 1 old ( i , k ) + ( 1 - λ ) · A i ( i , k ) - - - ( 5 )
(λ是收敛系数,主要用于调节算法的收敛速度及迭代过程的稳定性。)
Ai+1(k,k)=P(k)-max[Ai+1(k,j)+Si+1(k,j)]  (j∈{1,2,3,Λ,N},j≠k)    (6)
在步骤五中:如果迭代次数超过设定的最大值或者当聚类中心在若干次迭代中不发生改变时终止计算,确定类中心及各类的样本点;否则返回步骤二,继续计算。
为了对AP、F-AP-W、SOM及常用的K-means四种聚类算法进行比较,采用了经常用来进行聚类分析算法验证的来自UCI(http://archive.ics.uci.edu/ml/)的两个基准数据集iris和Wine。其中iris是鸢尾花数据集,包含150个4维数据点,共分为3大类,每类各包含50个数据点,其中第一类较为明显,而第二、三类较不明显;第二个Wine是来自于意大利的一种酒的化学成分分析的数据集,该数据集共包含178个13维的数据点,这些数据点也可以分为3大类,其中第一类有59个数据点,第二类有71个数据点,第三类有48个数据点。
在数值实验中,AP及其改进算法和SOM算法运行中所需用到的相关参数的设置如表1和表2所示:
表1算法参数设置表
Figure BDA0000103431750000061
表2 SOM参数设置
  SOM结构   迭代次数
  1×3   10
四种算法各自独立运行50次,算法运行的结果展示在表3中。
表3算法运行结果比较
Figure BDA0000103431750000062
在两个数据集上的测试研究表明,K-means在测试算法中所需时间最少,但是所取得的聚类正确率最差。其中在Iris数据集上的聚类平均正确率是81.2%,而在Wine数据集上仅达到67.5%。SOM(自组织神经网络)算法在两个数据集上的运行时间都大大超过了AP及其改进算法;从正确率上来看,本文的SOM算法在iris数据集上的平均结果优于SOM算法,但是仍然比本文的另外三种算法要差,在wine数据集上SOM的结果和本文的算法比较接近,但是SOM在两个数据集上分别做的50次实验中,每次实验所得到的分类正确率均不完全相同,在Iris数据集上聚类正确率的标准差是0.0168,在Wine数据集上聚类正确率的标准差是0.0103。而AP和F-AP-W两种算法在每次实验中所取得的聚类结果都是一致的,其中,Iris的聚类正确率是0.893,Wine的聚类正确率是0.708。这两种算法的主要区别在于运行时间上,F-AP-W在50次实验中的平均运行时间最少,表明了该算法的运行效率在两种算法中是最快的。从运行时间标准差来看,F-AP-W的标准差最小,这一结果表明该算法在多次的运行过程中是相当稳定的。
提供一种自适应吸引传播聚类装置,包括:
数据采集单元1,用于从终端采集数据,并转化为特征数据向量集合;
初始化单元2,用于对吸引传播聚类方法的有关参数进行初始化操作;
R和A的值计算单元3,用于计算R和A的值;
自适应更新单元4,用于对R和A的值进行更新;
条件判断单元5,用于判断是否结束循环;
结果输出单元6,用于达到循环终止条件后,输出结果。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (4)

1.一种自适应吸引传播聚类方法,其特征在于,包括以下步骤:
一、通过数据采集单元采集数据,并将其转化为特征数据向量集合;
二、通过初始化单元,根据特征向量集合,对有关参数进行初始化操作;
三、通过计算单元分别计算R和A的值;
四、通过自适应更新单元对R和A的值进行更新;
五、通过条件判断单元判断是否结束循环,如果未达到循环停止条件,释放N信号继续执行步骤三至步骤四;如果达到循环停止条件,释放Y信号执行下一步,循环结束,通过输出单元输出聚类结果。
2.根据权利1要求所述的一种自适应吸引传播聚类方法,其特征在于,通过自适应更新单元中的自适应更新策略对两个重用的参数矩阵:计算R值的矩阵R和计算A值的矩阵A分别按照如下两个公式进行更新:
R i + 1 ( i , k ) = λ i + 1 · R i + 1 old ( i , k ) + ( 1 - λ i + 1 ) · R i ( i , k )
A i + 1 ( i , k ) = λ i + 1 · A i + 1 old ( i , k ) + ( 1 - λ i + 1 ) · A i ( i , k )
3.根据权利2要求,其特征在于,所述λ将按照公式λi+1=0.9-t*(0.9-0.5)/T随算法迭代的进程而进行自适应的动态调整。
4.一种自适应吸引传播聚类装置,其特征在于,包括:
数据采集单元(1),用于从终端采集数据,并转化为特征数据向量集合;
初始化单元(2),用于对吸引传播聚类方法的有关参数进行初始化操作;
R和A的值计算单元(3),用于计算R和A的值;
自适应更新单元(4),用于对R和A的值进行更新;
条件判断单元(5),用于判断是否结束循环;
结果输出单元(6),用于达到循环终止条件后,输出结果。
CN201110335296.9A 2011-10-28 2011-10-28 一种用于大型高维数据集的自动聚类任务的自适应吸引传播聚类方法及装置 Active CN102682048B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110335296.9A CN102682048B (zh) 2011-10-28 2011-10-28 一种用于大型高维数据集的自动聚类任务的自适应吸引传播聚类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110335296.9A CN102682048B (zh) 2011-10-28 2011-10-28 一种用于大型高维数据集的自动聚类任务的自适应吸引传播聚类方法及装置

Publications (2)

Publication Number Publication Date
CN102682048A true CN102682048A (zh) 2012-09-19
CN102682048B CN102682048B (zh) 2015-09-02

Family

ID=46813993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110335296.9A Active CN102682048B (zh) 2011-10-28 2011-10-28 一种用于大型高维数据集的自动聚类任务的自适应吸引传播聚类方法及装置

Country Status (1)

Country Link
CN (1) CN102682048B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914557A (zh) * 2014-04-15 2014-07-09 大连理工大学 一种基于关键特征描述符选取的移动视觉检索系统
CN105721086A (zh) * 2016-03-11 2016-06-29 重庆科技学院 基于ukfnn的无线信道场景识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101650838A (zh) * 2009-09-04 2010-02-17 浙江工业大学 基于重采样方法和仿射聚类算法的点云简化处理方法
CN101853507A (zh) * 2010-06-03 2010-10-06 浙江工业大学 一种仿射传播聚类的细胞分类方法
CN102045357A (zh) * 2010-12-29 2011-05-04 深圳市永达电子股份有限公司 一种基于仿射聚类分析的入侵检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101650838A (zh) * 2009-09-04 2010-02-17 浙江工业大学 基于重采样方法和仿射聚类算法的点云简化处理方法
CN101853507A (zh) * 2010-06-03 2010-10-06 浙江工业大学 一种仿射传播聚类的细胞分类方法
CN102045357A (zh) * 2010-12-29 2011-05-04 深圳市永达电子股份有限公司 一种基于仿射聚类分析的入侵检测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914557A (zh) * 2014-04-15 2014-07-09 大连理工大学 一种基于关键特征描述符选取的移动视觉检索系统
CN103914557B (zh) * 2014-04-15 2017-01-25 大连理工大学 一种基于关键特征描述符选取的移动视觉检索方法
CN105721086A (zh) * 2016-03-11 2016-06-29 重庆科技学院 基于ukfnn的无线信道场景识别方法
CN105721086B (zh) * 2016-03-11 2018-05-01 重庆科技学院 基于ukfnn的无线信道场景识别方法

Also Published As

Publication number Publication date
CN102682048B (zh) 2015-09-02

Similar Documents

Publication Publication Date Title
CN109297689B (zh) 一种引入权重因子的大型水力机械智能诊断方法
CN102609714A (zh) 基于信息增益和在线支持向量机的新型分类器及分类方法
CN112685504B (zh) 一种面向生产过程的分布式迁移图学习方法
CN111174370A (zh) 故障检测方法及装置、存储介质、电子装置
CN102693299A (zh) 一种并行视频拷贝检测系统和方法
CN101980211A (zh) 一种机器学习模型及其建立方法
CN101777130A (zh) 一种指纹图像相似度评价方法
CN101980210A (zh) 一种标的词分类分级方法及系统
CN109271427A (zh) 一种基于近邻密度和流形距离的聚类方法
CN104391879A (zh) 层次聚类的方法及装置
CN117391292A (zh) 碳排放节能管理分析系统及方法
CN109543693A (zh) 基于正则化标签传播的弱标注数据降噪方法
WO2020259391A1 (zh) 一种数据库脚本性能测试的方法及装置
CN103617203A (zh) 基于查询驱动的蛋白质-配体绑定位点预测方法
CN101452704A (zh) 一种基于信息传递的说话人聚类方法
KR20220079476A (ko) 전력소모예측시스템 및 방법
CN102682048A (zh) 一种自适应吸引传播聚类方法及装置
CN114169778A (zh) 一种基于人工智能的企业工作任务分配系统
CN105488599A (zh) 预测文章热度的方法和装置
CN110348005B (zh) 配网设备状态数据处理方法、装置、计算机设备及介质
CN109753990B (zh) 一种用户电能替代潜力预测方法、系统及存储介质
CN116244610A (zh) 一种基于机器学习的分布式查询系统及其优化方法
AU2020103440A4 (en) A method for optimizing the convergence performance of data learning with minimal computational steps
CN102254194A (zh) 基于监督流形学习的场景分类方法及装置
CN111125395B (zh) 一种基于双分支深度学习的cad图纸检索方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant