CN104035983A

CN104035983A - 基于属性权重相似度的分类变量聚类方法

Info

Publication number: CN104035983A
Application number: CN201410234518.1A
Authority: CN
Inventors: 周红芳; 段文聪; 周扬
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2014-05-29
Filing date: 2014-05-29
Publication date: 2014-09-10

Abstract

基于属性权重相似度的分类变量聚类方法，在属性权重相似度的基础上，将聚类的过程转化为寻找图连通分量的过程，以数据集中的数据点为节点，当数据集中两数据点的属性权重相似度大于等于θ时认为两数据点间有一条连线(参数θ预先给定)，当数据集中两数据点的相似度小于θ时，认为两点数点间无连线。确定无向图后，无向图的每个连通分量即为一个簇，簇中的记录为连通分量中的各顶点。本发明实质是寻找无向图各连通分量所包含的顶点，可以采用图遍历算法的思想指导聚类过程，因此，时间空间复杂度低、聚类结果精度高。

Description

基于属性权重相似度的分类变量聚类方法

技术领域

本发明属于计算机数据处理方法技术领域，涉及一种基于属性权重相似度的分类变量聚类方法。

背景技术

聚类是数据挖掘的一个重要研究课题，早期的聚类方法采用距离来度量两条记录间的相异度，如k-means、DBSCAN等方法。对于分类变量数据集，可以利用已有的标准化方法将其转化成区间标度变量，从而可以采用传统方法进行聚类。但分类变量属性值之间通常不存在数量关系，因此标准化工作带有很大的盲目性。因此，采用传统方法处理分类变量会影响聚类效果。

Guha S等提出的ROCK聚类方法引入了链接(link)的概念，链接概念地引入使得可以利用相关的全局信息来度量记录间相似度。实验表明，利用ROCK聚类方法对分类变量数据集进行聚类，得到的聚类结果明显优于传统聚类方法。但是它也存在一些缺陷，如要预先给定判定是否为近邻的参数θ和聚类数k。已经有一些学者提出了基于ROCK方法思想的改进方法，如VBACC、QROCK、DNNS和GE-ROCK。VBACC采用基于商品价格的相似度定义，对维度较高的商品数据集聚类效果较好，而对于一般分类变量数据集(如UCI标准数据集)的聚类效果不及ROCK。QROCK认为期望得到的聚类数k依赖于相似度阈值θ，通过适当选择θ可以消除参数k。与ROCK相比，QROCK速度较快，但精度和ROCK相同。DNNS利用动态近邻选择模型，将相似度作为权重作用于聚类的全过程。此外，DNNS引入内聚度度量函数指导聚类过程，可以自动寻找最佳聚类效果，并且得到较高的聚类精度。但是，由于DNNS在执行的过程中考虑了更多的近邻，导致该方法通常慢于ROCK。

发明内容

本发明的目的在于提供一种基于属性权重相似度的分类变量聚类方法，该方法具有较高的聚类精度和较快的聚类速度。

本发明的技术方案，基于属性权重相似度的分类变量聚类方法，将数据集和相似度阈值θ输入计算机中，数据集是指各种信息表，信息表中的每条记录表示一个数据点；具体步骤如下：

步骤1，求每一个数据点与其他所有数据点之间的属性权重相似度，将所有数据点标记为未聚类；

步骤2，将各数据点之间的属性权重相似度与θ作比较，当两数据点的属性权重相似度大于或等于θ，则认为这两个数据点属于同一类；构建无向图，无向图的构建方法为，两数据点的相似度大于或等于θ，则在它们之间建立一条连线，一个或多个连线组成通路；将某一数据点以及所有与该数据点之间有通路的数据点标记为已聚类，并认为它们形成了一个簇C，同理，再寻找其他的簇。

步骤3，在数据集中剔除孤立的数据点；若数据集中所有数据点已被标记为已聚类，则将聚类数和每个簇中的数据点输出，簇是相似度较大的数据点的集合，各个存放数据点的簇就是最终的聚类结果。

本发明的特点还在于，

步骤1中，通过下面公式计算属性权重相似度，

其中i＝1,2,…,d，x、y表示数据集中的数据点，f(x,A_i)表示数据点x的第i个属性，若f(x,A_i)与f(y,A_i)的相同，函数的值为|V_i|，|V_i|表示数据点的各个属性的权重。

θ为经验值，取值范围为(0.5714,0.7142]。

本发明具有如下有益效果：

1、本发明在属性权重相似度的基础上，将聚类的过程转化为寻找图连通分量的过程，以数据集中的数据点为节点，建立无向图，采用图遍历算法的思想指导聚类过程，时间空间复杂度低、聚类结果精度高。

2、本发明数据结构实现简单，检索时效率高。

附图说明

图1为本发明基于属性权重相似度的分类变量聚类方法的示意图。

图2为表1中的数据集在θ∈[0,0.2857]时对应的无向图。

图3为表1中的数据集在θ∈(0.2857,0.5714]时对应的无向图。

图4为表1中的数据集在θ∈(0.5714,0.7142]时对应的无向图。

图5为表1中的数据集在θ∈(0.7142,1]时对应的无向图。

图6为不同的聚类方法运行时间对比图。

图7为不同的聚类方法运行时占用最大内存的对比图。

具体实施方式

下面结合具体实施方式和附图对本发明作详细说明。

本发明基于属性权重相似度的分类变量聚类方法，首先根据任意两数据点的属性权重相似度建立无向图，之后将聚类的过程转化为求无向图连通分量的过程，参见图1。具体为，将数据集和相似度阈值θ输入计算机中，数据集是指各种信息表，参见表1，信息表中的每条记录表示一个数据点，θ为经验值。

表1数据集

表1中的数字代表数据点的编号，A₁-A₄表示数据点的不同属性，例如数据点1的第一个属性的值是a，第二个属性的值是b。数据点1与2的前三个属性一样，可以认为二者相似。

通过下面公式计算属性权重相似度，

其中i＝1,2,…,d，x、y表示数据集中的数据点，d表示数据点所拥有的属性的总数，f(x,A_i)表示数据点x的第i个属性的值，若f(x,A_i)与f(y,A_i)的相同，函数的值为|V_i|，|V_i|表示数据点的各个属性的权重，如表2所示。|V_i|的值等于A_i在数据集中不同属性值的个数。表2中A₁就是表1中的第一个属性，它的权重|V₁|为1，数据集中A₁只有一个值a。|V₄|等于3，数据集中A₄共有三个不同的值d、e、g。数据点1与2的前三个属性一致，它们对应的函数为：相似度为：Sim(1,2)＝4/7。

表2 求Sim需要维护的数据结构

对于表1中的数据集，Sim(2,3)＝4/7,Sim(3,4)＝5/7。与已有的相似度定义相比，本发明提出的相似度可以体现属性A₁、A₄的差异，并且在求Sim时仅需维护如表2所示的数据结构。此种数据结构实现简单(数组即可以实现)，并且在检索时效率高。此外Sim的值域为[0,1]，在此值域内易于选择参数控制聚类结果。

本发明基于属性权重相似度的分类变量聚类方法包括如下步骤：

步骤2，将各数据点之间的属性权重相似度与θ作比较，当两数据点的属性权重相似度大于或等于θ，则认为这两个数据点属于同一类；构建无向图，无向图的构建方法为，两数据点的相似度大于或等于θ，则在它们之间建立一条连线，一个或多个连线组成通路；将某一数据点以及所有与该数据点之间有通路的数据点标记为已聚类，并认为它们形成了一个簇C。同理，再寻找其他的簇。

图2至图5分别是表1中的数据集在θ子区间为[0,0.2857]、(0.2857,0.5714]、(0.5714,0.7142]和(0.7142,1]时对应的无向图。若θ选取较低的区间[0,0.2857]或者(0.2857,0.5714]，如图2、图3所示，表1中的数据点彼此之间都存在通路，无法对它们进行区分。若θ选取较高的区间(0.7142,1]，如图5所示，数据点之间没有一条连线，无法分析它们之间的相似性。最理想情况是图4展示的结构，数据点3、4的高权重属性一致，理论上应属于一类；而1、2的低权重属性相似，未必属于一类，所以选择θ区间为(0.5714,0.7142]。

以图3中的无向图为例，数据点1与2之间存在通路(1,2)，数据点1与4之间存在通路(1,4)，数据点1与3之间存在通路(1,4,3)，所以这四个数据点彼此之间都存在通路，将它们作为一个簇。

相似度阈值θ的选取会对聚类结果产生重要影响，以下讨论相似度阈值θ的选取方法。

对于含有n个数据点的数据集，共有n(n-1)/2个属性权重相似度。以表1中的数据集为例，共有6个属性权重相似度：Sim(2,1)＝0.5714,Sim(3,1)＝0.5714,Sim(3,2)＝0.5714,Sim(4,1)＝0.2857,Sim(4,2)＝0.2857,Sim(4,3)＝0.7142。三个不同的相似度0.2857、0.5714和0.7142将区间[0,1]分成4个子区间[0,0.2857]、(0.2857,0.5714]、(0.5714,0.7142]和(0.7142,1]。当θ在同一子区间内变化时，聚类结果不变；当θ在不同区间内变化时，可以得到不同的聚类结果。理论上讲，θ的合理取值依赖于数据集，但根据对大量测试结果的统计，θ在取倒数第二个区间中的值时聚类效果最好。

对于分类情况已知的数据集，在聚类结果中的聚类数和数据集中的实际类数相等或相差不大时，可以用召回率和精度评价聚类结果的质量。而现实情况是数据集实际的类数和聚类结果中的簇数往往相差很大。以标准数据集mushroom为例，实际数据集包含2个类(可食与有毒)，但当前任何一种聚类方法发现的聚类数皆为20个左右。此时若仍用召回率和精度评判聚类结果，就退化为比较两个最大簇的精度，其余的小簇被忽略。针对此种情况，对于分类情况已知的数据集，用以下方法评价聚类结果，详述如下。

定义1(簇纯度)簇纯度为簇中同种类别数量最多的记录在本簇所有记录中所占的比例，即:

{CP}_{i} = \frac{\max ({NUM}_{x &Element; CF 1}, {NUM}_{x &Element; CF 2}, {. . ., NUM}_{x &Element; CFk}, . . ., {NUM}_{x &Element; CFa})}{Σ_{j = 1}^{n} {NUM}_{x &Element; CFj}} \times 100 % - - - (3)

其中CP_i表示第i个簇的纯度，CF_k表示已知分类情况的数据集中第k类记录的集合，NUM_x∈CFk表示簇中包含第k个已知类的记录数，a表示已知分类情况的数据集的实际类数。

定义2(聚类精度)

CPrecision = \frac{Σ_{i = 1}^{k} {CP}_{i}}{k + | k - a |} - - - (4)

其中CPrecision表示聚类结果的聚类精度，k表示聚类结果中的聚类数，a表示数据集中的实际类数。聚类精度综合考虑了聚类数和纯度两个因素。在各簇纯度相同的情况下，聚类结果的聚类数和实际类数差别越大，聚类精度就越低；聚类结果的聚类数相同的情况下，各簇纯度越高，聚类精度就越高。在理想情况下，聚类结果的聚类数即为实际数据集中的类数，且每个簇的纯度都为100％，此时聚类精度为也为100％。

实施例1：

本实施例选用蘑菇(mushroom)数据集进行测试。蘑菇数据集共包含了8124种蘑菇的信息，其中4208种有毒的蘑菇和3916种无毒的蘑菇。此数据集可以从UCI官网下载。用Java实现ROCK、Squeezer、DNNS和本发明聚类方法(CABAS)。实验环境的操作系统为Windows7version6.1.7600，CPU为Core^TMi3-2310M2.1GHz，内存为4G。对于ROCK、Squeezer和本发明聚类方法(CABAS)都需要给定参数，多次运行各方法，取不同参数的最优结果。对于DNNS，在内聚度度量函数突然减小时结束即可。

实施步骤：

1)应用公式(1)，计算蘑菇(mushroom)数据集中各数据点之间的相似度。表3是从蘑菇(mushroom)数据集中抽取的两个数据点的22个属性值，表4是各个属性在对应的权重|V₁|。公式(1)中函数得到的值为：6、4、0、2、0、4、3、0、10、2、0、4、4、9、9、2、4、3、8、0、0、0。所以，Sim(1,2)＝74/124＝0.5967。

表3蘑菇数据集中的两个数据点

表4蘑菇数据集各属性的权重

2)构建无向图，将蘑菇(mushroom)数据集中各数据点作为图中的节点，若两个数据点之间的相似度大于或等于阈值θ，则在图中用一条连线连接这两个数据点。

3)在无向图中寻找由一个或多个连线组成的通路，将彼此之间存在通路的数据点作为一个簇；剔除不与任何数据点有连线的数据点。

4)输出发现的各个簇。

依据公式(3)对本发明聚类方法从蘑菇(mushroom)数据集中发现的簇的质量进行评价，将评价结果与其他算法得到的结果进行比较。表5为采用ROCK和Squeezer聚类结果，表6为DNNS和本发明聚类方法(CABAS)的聚类结果。

表5ROCK与Squeezer的聚类结果对比

表6DNNS与本发明聚类方法(CABAS)的聚类结果对比

表5、表6中的E表示mushroom中的一个类edible，P表示mushroom中的另一个类poisonous。DNNS与Squeezer在簇数分别为23和24时即有不纯的簇出现，若继续聚类，精度会迅速减小。而本发明聚类方法(CABAS)在簇数为22时，所有的簇纯度仍是100％。仔细分析该结果，ROCK发现的第15个簇不纯，该簇相当于把本发明聚类方法(CABAS)聚类结果中的第13个簇和第19个簇进行合并，追踪ROCK的簇类过程，ROCK在簇数为51时即出现此不纯的簇，所以ROCK不能通过选择参数来得到本发明聚类方法(CABAS)的聚类结果。直观上本发明聚类方法(CABAS)发现簇的个数少且每个簇纯度都为100％，所以聚类精度高。

图6、图7是从蘑菇(mushroom)数据集中选取不同数据量的记录，运行各个聚类方法，得到的时间记录与内存记录。Squeezer与本发明聚类方法(CABAS)用时仍远远小于ROCK和DNNS。Squeezer比本发明聚类方法(CABAS)的执行速度略高但本发明聚类方法(CABAS)的聚类精度高于Squeezer，现实情况是在速度在可接受的范围内时，聚类精度更为重要。用jdk自带的工具jvisualvm监控最大内存占用情况，如图7所示。由于ROCK和DNNS都要缓存链接矩阵，所以程序运行时所占内存空间远大于Squeezer与本发明聚类方法(CABAS)。从以上理论分析和图中数据都可以得出本发明聚类方法(CABAS)与Squeezer时空复杂度略大的结论。但精度方面本发明聚类方法(CABAS)要比Squeezer高很多，特别是对数据集hayes-roth进行测试时，Squeezer发现的所有簇纯度都很低，导致聚类精度很低。而在实际应用中在聚类时间可接受的情况下，聚类精度更加重要。

实施例2：

本实施例选用海叶斯(hayes-roth)数据集进行测试。海叶斯数据集共包含了132条记录。此数据集可在UCI官网上下载，仍用Java语言通过实施例1中的几种方法分别进行聚类。

实施步骤：

1)应用公式(1)，计算海叶斯(hayes-roth)数据集中各数据点之间的相似度。表7是从蘑菇(mushroom)数据集中抽取的两个数据点的5个属性值，表8是各个属性在对应的权重|V₁|。公式(1)中函数得到的值为：2、1、0、2、0。所以，Sim(1,2)＝5/7＝0.7142。

表7海叶斯数据集中的两个数据点

表8海叶斯数据集各属性的权重

2)构建无向图，将海叶斯(hayes-roth)数据集中各数据点作为图中的节点，若两个数据点之间的相似度大于或等于阈值θ，则在图中用一条连线连接这两个数据点。

4)输出发现的各个簇。

依据公式(3)对本发明聚类方法从海叶斯(hayes-roth)数据集中发现的簇的质量进行评价，将评价结果与其他算法得到的结果进行比较：

表9、表10为几种聚类方法所得到的实验结果。

表9ROCK与Squeezer的聚类结果对比

表10DNNS与本发明聚类方法(CABAS)的聚类结果对比

表9、表10为对数据集hayes-roth运行各聚类方法所得到的实验结果。所有聚类结果中都出现大量单个数据点的簇，此种情况与数据集本身有关。仅将前8个簇列出。与其它三个聚类结果相比，只有本发明聚类方法(CABAS)发现了6个纯度为100％的较大簇。ROCK和DNNS的时间复杂度为O(n²+nm_mm_α+n²logn)，空间复杂度为O(min{n²,nm_mm_α}),其中n为数据集中的记录数，m_m为最大近邻数，m_α为平均近邻数。Squeezer的时间复杂度为O(n*k*p*m)，空间复杂度为O(n+k*p*m)，其中n为数据集中的记录数，k为最终簇数，p为属性值的取值范围，m为数据集维度，通常p、k和m的值远远小于n。综合以上分析，在时间复杂度和空间复杂度方面，Squeezer最小，本发明聚类方法(CABAS)次之，ROCK和DNNS最大。

本发明聚类方法在构建无向图时须计算任意两数据点的属性权重相似度，需要进行0.5n(n+1)次运算(n为数据集记录数)，此步骤时间复杂度为O(n²)。以邻接表的方式存储构建的无向图，聚类过程采用图的深度优先遍历思想，该步骤的时间复杂为O(n+e)(e为无向图边数)。因此总的时间复杂度为O(n²+e)。空间复杂度方面，本发明聚类方法运行过程中要缓存所有的数据点及与每个数据点相邻的数据点。最坏情况是所有数据点都相邻，此时所需空间为n+n(n-1),最好情况所有数据点都不相邻，此时所占空间为n。所以，本发明聚类方法的空间复杂度为O(n+e)，其值界于O(n)与O(n²)之间。

本发明在属性权重相似度的基础上，将聚类的过程转化为寻找图连通分量的过程，以数据集中的数据点为节点，当数据集中两数据点的属性权重相似度大于等于θ时认为两数据点间有一条连线(参数θ预先给定)，当数据集中两数据点的相似度小于θ时，认为两点数点间无连线。确定无向图后，无向图的每个连通分量即为一个簇，簇中的记录为连通分量中的各顶点。本发明实质是寻找无向图各连通分量所包含的顶点，可以采用图遍历算法的思想指导聚类过程，因此，时间空间复杂度低、聚类结果精度高。

Claims

1.基于属性权重相似度的分类变量聚类方法，其特征在于，将数据集和相似度阈值θ输入计算机中，数据集是指各种信息表，信息表中的每条记录表示一个数据点；具体步骤如下：

步骤2，将各数据点之间的属性权重相似度与θ作比较，当两数据点的属性权重相似度大于或等于θ，则认为这两个数据点属于同一类；构建无向图，无向图的构建方法为，两数据点的相似度大于或等于θ，则在它们之间建立一条连线，一个或多个连线组成通路；将某一数据点以及所有与该数据点之间有通路的数据点标记为已聚类，并放入一个簇C；同理，再寻找其他的簇。

2.如权利要求1所述的基于属性权重相似度的分类变量聚类方法，其特征在于，步骤1中，通过下面公式计算属性权重相似度，

3.如权利要求1或2所述的基于属性权重相似度的分类变量聚类方法，其特征在于，θ的取值范围为(0.5714,0.7142]。