CN102682048A

CN102682048A - 一种自适应吸引传播聚类方法及装置

Info

Publication number: CN102682048A
Application number: CN2011103352969A
Authority: CN
Inventors: 刘晓勇
Original assignee: Individual
Current assignee: Individual
Priority date: 2011-10-28
Filing date: 2011-10-28
Publication date: 2012-09-19
Anticipated expiration: 2031-10-28
Also published as: CN102682048B

Abstract

本发明公开了一种自适应吸引传播聚类方法及装置，通过数据采集单元采集数据，并转化为特征数据向量集合；初始化单元对吸引传播聚类方法的有关参数进行初始化操作；R和A的值计算单元计算R和A的值；自适应更新单元对R和A的值进行更新；条件判断单元判断是否结束循环；如果未达到循环停止条件，释放N信号继续执行步骤三至步骤四；如果达到循环停止条件，释放Y信号执行下一步，循环结束，通过输出单元输出聚类结果。本发明由于在自适应更新单元中采用了自适应更新的策略，使得吸引传播聚类算法收敛速度更快，精度更高，可以适用于大型高维数据集的自动聚类任务。

Description

一种自适应吸引传播聚类方法及装置

技术领域

本发明涉及数据挖掘领域中聚类分析方法，尤其涉及一种自适应吸引传播聚类方法及装置。

背景技术

Affinity propagation clustering(AP，吸引-传播聚类算法)是由B.J.Frey和D.Dueck于2007年提出的一种新的聚类算法，该算法无需事先定义类数，也不需要数据集具有某种特殊的结构，算法在运行中主要根据数据集中N个样本点之间的相似度进行聚类，这些相似度值可以组成一个N×N的相似度矩阵S(如：S(i，j)表示样本点i和样本点j之间的相似度)。相似度矩阵S的主对角线上的数值又称为Preference，该值是对应的样本点能否成为聚类中心的评判标准，一般来说，其值越大这个点成为聚类中心的可能性就越大。AP算法主要依靠一种“消息传递”机制实现数据集的聚类。这种消息传递机制中主要包含两类信息Responsibility(简称R)和Availability(简称A)：Responsibility表示样本点对不同的候选类中心发出的信息，表明候选类中心相应于该样本点作为潜在类中心的适合程度，该值越大表明候选类中心越可能成为实际的类中心；Availability表示候选类中心对样本点发出的信息，表明该样本点相应于候选类中心的聚合程度，该值越大表明样本点越可能属于某一类。AP算法通过迭代过程不断更新每一个点的Responsibility和Availability值，直到自动产生若干个类中心，同时将其余的数据点分配到相应的类团中。在具体实现时，AP算法首先把所有的数据点均视作类中心，然后在迭代过程中不断搜索合适的聚类中心，自动地从数据点间识别最佳类中心的位置及个数，通过数据点间的“信息传递”来实现整个聚类过程。与传统的K均值算法对初始类中心选择的敏感性相比，AP算法是一种确定性的聚类算法，多次独立运行的聚类结果一般都十分稳定。该算法以其简单、高效的优势已广泛应用于多种领域，如：设施选址、图像识别，图像分割、文本挖掘，生物医学，视频关键帧提取和图像检索等方面。国内的王开军，谢信喜、肖宇、谷瑞军、董俊及李雅芹等人针对AP算法的不足提出了多种改进方法，但是现有的吸引传播聚类算法，收敛速度较慢。其中最主要的原因是AP算法的收敛性能对收敛系数初始值的选择比较敏感，本发明提出的新的吸引传播聚类方法是在传统AP聚类算法基础上引入关于R和A的自适应更新策略，使R和A的值能够随算法进程自适应动态调整，以加速AP算法的收敛过程。

发明内容

本发明的一个目的在于克服现有技术中上述缺陷：提供一种能加快聚类的收敛速度的一种自适应吸引传播聚类方法。

本发明的另一个目的在于克服现有技术中上述缺陷：提供一种能加快聚类的收敛速度的一种自适应吸引传播聚类装置。

为实现上述目的，本发明提供的技术方案如下：提供一种自适应吸引传播聚类方法，包括以下步骤：

一、通过数据采集单元采集数据，并将其转化为特征数据向量集合；

二、通过初始化单元，根据特征向量集合，对有关参数进行初始化操作；

三、通过计算单元分别计算R和A的值；

四、通过自适应更新单元对R和A的值进行更新；

五、通过条件判断单元判断是否结束循环，如果未达到循环停止条件，释放N信号继续执行步骤三至步骤四；如果达到循环停止条件，释放Y信号执行下一步，循环结束，通过输出单元输出聚类结果。

提供一种能加快聚类的收敛速度的一种自适应吸引传播聚类装置，包括：

数据采集单元，用于从终端采集数据，并转化为特征数据向量集合；

初始化单元，用于对吸引传播聚类方法的有关参数进行初始化操作；

R和A的值计算单元，用于计算R和A的值；

自适应更新单元，用于对R和A的值进行更新；

条件判断单元，用于判断是否结束循环；

结果输出单元，用于达到循环终止条件后，输出结果。

本发明所述一种自适应吸引传播聚类方法及装置的有益效果是：通过数据采集单元采集数据，并转化为特征数据向量集合；初始化单元对吸引传播聚类方法的有关参数进行初始化操作；R和A的值计算单元计算R和A的值；自适应更新单元对R和A的值进行更新；条件判断单元判断是否结束循环；结果输出单元在达到循环终止条件时，输出结果。本发明由于在自适应更新单元中采用了自适应更新的策略，使得吸引传播聚类算法收敛速度更快，精度更高，可以适用于大型高维数据集的自动聚类任务。

下面结合附图和实施例对本发明所述的一种自适应吸引传播聚类方法及装置作进一步说明：

附图说明

图1是一种自适应吸引传播聚类装置的系统结构方框图。

具体实施方式

以下是本发明所述一种自适应吸引传播聚类方法及装置的最佳实施例，并不因此限定本发明的保护范围。

参照图1，提供一种自适应吸引传播聚类方法(简称F-AP-W)，包括以下步骤：

三、通过计算单元分别计算R和A的值；

四、通过自适应更新单元对R和A的值进行更新；

通过自适应更新单元中的自适应更新策略对两个重用的参数矩阵：计算R值的矩阵R和计算A值的矩阵A分别按照如下两个公式进行更新：

R_{i + 1} (i, k) = λ_{i + 1} \cdot R_{i + 1}^{old} (i, k) + (1 - λ_{i + 1}) \cdot R_{i} (i, k)

A_{i + 1} (i, k) = λ_{i + 1} \cdot A_{i + 1}^{old} (i, k) + (1 - λ_{i + 1}) \cdot A_{i} (i, k)

所述λ将按照公式λ_i+1＝0.9-t*(0.9-0.5)/T随算法迭代的进程而进行自适应的动态调整。

在步骤一中：算法初始化

计算初始相似度矩阵S(S(i，j)表示样本点i和样本点j之间的相似度)；

对P赋初值(S主对角线上的数值又称为Preference，简称P)赋初值；

在步骤二中：计算样本点间的Responsibility(简称R)值。

R (i, k) &LeftArrow; s (i, k) - \max_{j &NotEqual; k} (s (i, j) + A (i, j)) - - - (1)

A(i，j)表示j对于i的Availability值。

在步骤三中：计算样本点间的Availability(简称A)值。

A (i, k) &LeftArrow; \min {0, R (k, k) + \underset{j &NotEqual; i, k}{Σ} \max (0, R (j, k))} - - - (2)

A (k, k) &LeftArrow; \underset{j &NotEqual; k}{Σ} \max (0, R (j, k)) - - - (3)

在步骤四中：Responsibility和Availability的更新。

R_{i + 1} (i, k) = λ \cdot R_{i + 1}^{old} (i, k) + (1 - λ) \cdot R_{i} (i, k), (λ &Element; [0.5,1)) - - - (4)

A_{i + 1} (i, k) = λ \cdot A_{i + 1}^{old} (i, k) + (1 - λ) \cdot A_{i} (i, k) - - - (5)

(λ是收敛系数，主要用于调节算法的收敛速度及迭代过程的稳定性。)

A_i+1(k，k)＝P(k)-max[A_i+1(k，j)+S_i+1(k，j)] (j∈{1，2，3，Λ，N}，j≠k) (6)

在步骤五中：如果迭代次数超过设定的最大值或者当聚类中心在若干次迭代中不发生改变时终止计算，确定类中心及各类的样本点；否则返回步骤二，继续计算。

为了对AP、F-AP-W、SOM及常用的K-means四种聚类算法进行比较，采用了经常用来进行聚类分析算法验证的来自UCI(http://archive.ics.uci.edu/ml/)的两个基准数据集iris和Wine。其中iris是鸢尾花数据集，包含150个4维数据点，共分为3大类，每类各包含50个数据点，其中第一类较为明显，而第二、三类较不明显；第二个Wine是来自于意大利的一种酒的化学成分分析的数据集，该数据集共包含178个13维的数据点，这些数据点也可以分为3大类，其中第一类有59个数据点，第二类有71个数据点，第三类有48个数据点。

在数值实验中，AP及其改进算法和SOM算法运行中所需用到的相关参数的设置如表1和表2所示：

表1算法参数设置表

表2 SOM参数设置

SOM结构	迭代次数
		1×3	10

四种算法各自独立运行50次，算法运行的结果展示在表3中。

表3算法运行结果比较

在两个数据集上的测试研究表明，K-means在测试算法中所需时间最少，但是所取得的聚类正确率最差。其中在Iris数据集上的聚类平均正确率是81.2％，而在Wine数据集上仅达到67.5％。SOM(自组织神经网络)算法在两个数据集上的运行时间都大大超过了AP及其改进算法；从正确率上来看，本文的SOM算法在iris数据集上的平均结果优于SOM算法，但是仍然比本文的另外三种算法要差，在wine数据集上SOM的结果和本文的算法比较接近，但是SOM在两个数据集上分别做的50次实验中，每次实验所得到的分类正确率均不完全相同，在Iris数据集上聚类正确率的标准差是0.0168，在Wine数据集上聚类正确率的标准差是0.0103。而AP和F-AP-W两种算法在每次实验中所取得的聚类结果都是一致的，其中，Iris的聚类正确率是0.893，Wine的聚类正确率是0.708。这两种算法的主要区别在于运行时间上，F-AP-W在50次实验中的平均运行时间最少，表明了该算法的运行效率在两种算法中是最快的。从运行时间标准差来看，F-AP-W的标准差最小，这一结果表明该算法在多次的运行过程中是相当稳定的。

提供一种自适应吸引传播聚类装置，包括：

数据采集单元1，用于从终端采集数据，并转化为特征数据向量集合；

初始化单元2，用于对吸引传播聚类方法的有关参数进行初始化操作；

R和A的值计算单元3，用于计算R和A的值；

自适应更新单元4，用于对R和A的值进行更新；

条件判断单元5，用于判断是否结束循环；

结果输出单元6，用于达到循环终止条件后，输出结果。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种自适应吸引传播聚类方法，其特征在于，包括以下步骤：

三、通过计算单元分别计算R和A的值；

四、通过自适应更新单元对R和A的值进行更新；

2.根据权利1要求所述的一种自适应吸引传播聚类方法，其特征在于，通过自适应更新单元中的自适应更新策略对两个重用的参数矩阵：计算R值的矩阵R和计算A值的矩阵A分别按照如下两个公式进行更新：

R_{i + 1} (i, k) = λ_{i + 1} \cdot R_{i + 1}^{old} (i, k) + (1 - λ_{i + 1}) \cdot R_{i} (i, k)

A_{i + 1} (i, k) = λ_{i + 1} \cdot A_{i + 1}^{old} (i, k) + (1 - λ_{i + 1}) \cdot A_{i} (i, k)

3.根据权利2要求，其特征在于，所述λ将按照公式λ_i+1＝0.9-t*(0.9-0.5)/T随算法迭代的进程而进行自适应的动态调整。

4.一种自适应吸引传播聚类装置，其特征在于，包括：

数据采集单元(1)，用于从终端采集数据，并转化为特征数据向量集合；

初始化单元(2)，用于对吸引传播聚类方法的有关参数进行初始化操作；

R和A的值计算单元(3)，用于计算R和A的值；

自适应更新单元(4)，用于对R和A的值进行更新；

条件判断单元(5)，用于判断是否结束循环；

结果输出单元(6)，用于达到循环终止条件后，输出结果。