CN104573050A

CN104573050A - 一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法

Info

Publication number: CN104573050A
Application number: CN201510028384.2A
Authority: CN
Inventors: 闫永刚; 陶刚; 刘俊; 张小兵; 张晓花
Original assignee: Anhui Keli Information Industry Co Ltd
Current assignee: Anhui Keli Information Industry Co Ltd
Priority date: 2015-01-20
Filing date: 2015-01-20
Publication date: 2015-04-29

Abstract

本发明涉及一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法，与现有技术相比解决了离散化效果差、离散化不合理的缺陷。本发明包括以下步骤：利用Canopy聚类实现连续属性数据初始聚类；以初始聚类中心为样本，通过BIRCH层次聚类进行二次聚类；对断点集任一样本找出其所在维各聚类中心的最近邻，以此作为离散微调依据，实现连续属性的离散化。本发明可解决高维、大数据样本的连续属性离散化方法，减少连续属性值的数目，降低系统对存储空间的依赖，使离散化后的数据更规约和简化，便于理解、使用和解释，扩大了适用范围。

Description

一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法

技术领域

本发明涉及数据挖掘预处理技术领域，具体来说是一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法。

背景技术

连续属性离散化是数据挖掘的重要预处理步骤，直接影响到数据挖掘的效果。目前，很多数据挖掘算法在建模前都要求连续属性离散化，如粗糙集算法。连续属性的离散化是指在特定的连续属性的值域范围内设定若干个划分点，将属性的值域范围划分为一些离散化的区间，最后用不同的符号或整数代表落在每个自区间中的属性值。连续属性离散化本质上可归结为利用选取的断点来对条件属性的空间进行划分的问题，即将m维(假设有m个条件属性)空间划分成n个(n<card(U))区域，每个区域中对象的决策值相同，则每个这样的区域对应一个离散后决策系统中的一个对象。

目前，连续属性离散化方法大致上可以归为非监督离散化和有监督离散化两大类：

有监督离散化方法，如统计检验法、信息熵法、贪心算法及其改进算法等，此类方法的优势是考虑了连续属性离散化时对象的分类信息，缺点是忽略了样本间的关联性，因而容易造成不合理的离散化或产生太多的离散化区间数目。

非监督离散化方法，如密度分布聚类、超立方体聚类、Canopy聚类等，此类方法的优势是简单、易于操作，但由于不带类别信息，此类方法需要事先人为地指定聚类簇数且大多没有考虑对象的分类信息，因此，离散化效果往往不太理想。

发明内容

本发明的目的是为了解决现有技术中离散化效果差、离散化不合理的缺陷，提供一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法来解决上述问题。

为了实现上述目的，本发明的技术方案如下：

一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法，包括以下步骤：

利用Canopy聚类实现连续属性数据初始聚类；设置合理的距离阈值T1、T2，其中阈值T1、T2为划分Canopy大小的度量；利用Canopy聚类方法，将相似对象放在一个子集Cluster中；经处理后获取各个Cluster的质心，完成数据初始聚类；

以初始聚类中心为样本，通过BIRCH层次聚类进行二次聚类；利用Canopy聚类输出的Cluster质心，结合聚类特征可加性原理构建聚类特征CF和聚类特征树CF树；通过BIRCH聚类方法把稀疏的簇当做离群点删除，将稠密的簇合并为更大的簇，实现数据集的二次聚类；

对断点集任一样本找出其所在维各聚类中心的最近邻，以此作为离散微调依据，实现连续属性的离散化；以BIRCH聚类算法的聚类中心为断点集，以轮廓系数作为聚类效果评价指标，以不相容度作为离散效果评价指标，对数据集任一样本找出其所在维各聚类中心的最近邻，以此作为离散微调依据，将聚类微调的结果作为最终连续属性离散结果。

所述的Canopy聚类方法包括以下步骤：

将数据集预处理后得到List集合，经十折交叉验证方法后选择两个距离阈值T1和T2，且T1>T2；

循环List集合，从List集合中任取一点t，用距离度量快速计算点t与所有Canopy之间的距离；

若点t与某个Canopy距离在T1以内，则将点t加入到该Canopy；

若点t与某个Canopy的距离在T2以内，则把点t从List中删除。

所述的Cluster的质心计算公式如下：

{C_{j}}^{k} = \frac{x_{j 1}^{k} + x_{j 2}^{k} + . . . + x_{jn}^{k}}{n_{j}},

其中：C_j ^k为簇C_j的聚类中心；n为样本数目；为簇j时第k个属性第n条样本。

所述的结合聚类特征可加性原理构建聚类特征CF和聚类特征树CF树包括以下步骤：

定义聚类特征CF为三元组，CF＝{n，LS，SS}，

其中n是聚类数据的数目，LS是n个数据点的线性和，SS是s个数据点的平方和；

以聚类特征CF为基础，推导出簇的形心x₀、簇的半径R，公式如下：

x_{0} = \frac{Σ_{i = 1}^{n} x_{i}}{n} = \frac{LS}{n}

R = \sqrt{\frac{Σ_{i = 1}^{n} {(x_{i} - x_{0})}^{2}}{n}} = \sqrt{\frac{nSS - 2 L S^{2} + nLS}{n^{2}}}

R为成员对象到形心x₀的平均距离；

假设CF₁＝(N₁，LS₁，SS₁)、CF₂＝(N₂，LS₂，SS₂)，CF₁和CF₂分别为两个类的聚类特征；

合并后新簇的聚类特征为CF₁+CF₂＝(N₁+N₂，LS₁+LS₂，SS₁+SS₂)。

所述的轮廓系数S的取值范围在[-1，1]之间变化，在此范围内，值越大聚类效果越好，轮廓系数S的计算公式如下：

S = \frac{1}{k} Σ_{i = 1}^{k} \frac{b_{i} - a_{i}}{\max (a_{i}, b_{i})},

其中：a_i是样本i到本簇中所有其他样本的平均距离；b_i是样本i到不包含该样本的其他任意簇中所有样本平均距离的最小值。

所述的不相容度的计算步骤如下：

设知识表达系统R＝(U，A，V，f)，A为一个有限属性集合，v为属性α的值域，f:U×A→V为信息函数，即：x∈U，f(x，a)∈Va；

属性A_i的不相容度公式如下：

A_{i} = \frac{Card ({A_{i}}^{T})}{Card (U)}

其中，A_i ^T为只考虑条件属性时论域中不相容样本的集合，Card(A_i ^T)、Card(U)分别为集合A_i ^T、U的基数；

整个决策表的相容性度量如下所示：

a = Π_{i = 1}^{m} A_{i},

设定不相容度误差界限β＝0.25，a＝10^-7，则每个属性的不相容度近似估计值为：离散后的属性不相容度满足|a_i-a^T|＝|a_i-0.1|<0.25。

所述的聚类离散微调包括以下步骤：

对断点集任一样本i找出其所在维各聚类中心的最近邻；

将最近邻的聚类中心标识赋予i，实现了样本到其所属聚类中心的微调，实现了连续属性离散化。

有益效果

本发明的一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法，与现有技术相比可解决高维、大数据样本的连续属性离散化方法，减少连续属性值的数目，降低系统对存储空间的依赖，使离散化后的数据更规约和简化，便于理解、使用和解释，扩大了适用范围。本发明充分利用Canopy聚类方法不需要事先指定k值(即clustering的个数)特点，同时结合BIRCH层次聚类算法克服聚类虚高问题，取长补短，通过二者的有机结合实现了连续属性(尤其是大样本、高维度数据)数据离散化，增强的数据的适用性，有效减弱极端值和异常值的影响，为大规模数据的应用提供良好的数据支撑。

附图说明

图1是本发明的方法流程图；

图2是本发明的样本实验数据集；

图3是本发明的改进前后聚类轮廓系数对比图；

图4是本发明的改进前后聚类簇数变化对比图；

图5是本发明的的传统Canopy与改进的Canopy两种算法在IRIS数据集中的离散对比图。

具体实施方式

为使对本发明的结构特征及所达成的功效有更进一步的了解与认识，用以较佳的实施例及附图配合详细的说明，说明如下：

如图1所示，本发明所述的一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法，包括以下步骤：

第一步，利用Canopy聚类实现连续属性数据初始聚类。设置合理的距离阈值T1、T2，其中阈值T1、T2为划分Canopy大小的度量，T1决定了每个Cluster包含点的数目，这直接影响了Cluster的“重心”和“半径”，而T2则决定了Cluster的数目，T2太大会导致只有一个Cluster，而太小则会出现过多的Cluster，对T1、T2的具体确定可通过十折交叉验证法确定。

利用Canopy聚类方法，将相似对象放在一个子集Cluster中，Canopy聚类方法包括以下步骤：

(1)将数据集预处理后得到List集合，存入内存，经十折交叉验证方法后选择两个距离阈值T1和T2，且T1>T2。

(2)循环List集合，从List集合中任取一点t，用距离度量如欧式距离等，快速计算点t与所有Canopy之间的距离，起始循环时，可以将t作为一个Canopy。

若点t与某个Canopy距离在T1以内，则将点t加入到该Canopy。

若点t与某个Canopy的距离在T2以内，则把点t从List中删除。此时认为点t此时与这个Canopy已经够近了，因此它不可以再做其它Canopy的中心了。

经处理后获取各个Cluster的质心，各个Canopy的质心是指Canopy聚类完成后各个样本的聚类中心，其Cluster的质心计算公式如下：

{C_{j}}^{k} = \frac{x_{j 1}^{k} + x_{j 2}^{k} + . . . + x_{jn}^{k}}{n_{j}},

最终，完成数据初始聚类。

第二步，以初始聚类中心为样本，通过BIRCH层次聚类进行二次聚类。利用Canopy聚类输出的Cluster质心，结合聚类特征可加性原理构建聚类特征CF和聚类特征树CF树，其具体步骤如下：

(1)聚类特征在本质上反映了簇的统计信息，定义聚类特征CF为三元组，CF＝{n，LS，SS}，其中n是聚类数据的数目，LS是n个数据点的线性和，SS是s个数据点的平方和。

(2)以聚类特征CF为基础，推导出簇的形心x₀、簇的半径R，公式如下：

x_{0} = \frac{Σ_{i = 1}^{n} x_{i}}{n} = \frac{LS}{n}

R = \sqrt{\frac{Σ_{i = 1}^{n} {(x_{i} - x_{0})}^{2}}{n}} = \sqrt{\frac{nSS - 2 L S^{2} + nLS}{n^{2}}}

R为成员对象到形心x₀的平均距离，反映了形心周围簇的紧凑程度。

(3)结合聚类特征可加性原理是指：假设CF₁＝(N₁，LS₁，SS₁)、CF₂＝(N₂，LS₂，SS₂)，CF₁和CF₂分别为两个类的聚类特征。根据可加性定理，合并后新簇的聚类特征为CF₁+CF₂＝(N₁+N₂，LS₁+LS₂，SS₁+SS₂)。

通过BIRCH聚类方法把稀疏的簇当做离群点删除，将稠密的簇合并为更大的簇，实现数据集的二次聚类。稠密的簇合并为更大的簇的具体过程是：在树的构建过程中，随着聚类对象的插入，CF树被动态地构造，当对象被插入到最近的叶子条目(子类)时，如果在插入对象后存储在叶子节点中的子类的直径大于阈值，则该叶子节点和邻近的其他节点被分裂。新对象插入后，关于该对象的信息向树根传递。通过修改阈值，CF树的大小可以动态改变，如果存储CF树需要的内存大于主存的大小，此时，则需重新定义一个较小的阈值，并重建CF树。

第三步，对断点集任一样本找出其所在维各聚类中心的最近邻，以此作为离散微调依据，实现连续属性的离散化。

以BIRCH聚类算法的聚类中心为断点集，以轮廓系数作为聚类效果评价指标，轮廓系数是充分考虑了聚类簇的凝聚度和分离度的聚类评价指标，轮廓系数S的取值范围在[-1，1]之间变化，在此范围内，值越大聚类效果越好，轮廓系数S的计算公式如下：

S = \frac{1}{k} Σ_{i = 1}^{k} \frac{b_{i} - a_{i}}{\max (a_{i}, b_{i})},

以不相容度作为离散效果评价指标，其不相容度描述如下：

(1)设知识表达系统R＝(U，A，V，f)，A为一个有限属性集合，v为属性α的值域，f:U×A→V为信息函数，即：x∈U，f(x，a)∈Va。

(2)属性A_i的不相容度公式如下：

A_{i} = \frac{Card ({A_{i}}^{T})}{Card (U)}

(3)样本集中各个属性的不相容是独立统计的，整个决策表的相容性度量如下所示：

a = Π_{i = 1}^{m} A_{i},

设定不相容度误差界限β＝0.25，a＝10^-7，则每个属性的不相容度近似估计值为：离散后的属性不相容度满足|a_i-a^T|＝|a_i-0.1|<0.25即可。

对数据集任一样本找出其所在维各聚类中心的最近邻，以此作为离散微调依据，将聚类微调的结果作为最终连续属性离散结果。所述的聚类离散微调包括以下步骤：

(1)对断点集任一样本i找出其所在维各聚类中心的最近邻。

(2)将最近邻的聚类中心标识赋予i，实现了样本到其所属聚类中心的微调，实现了连续属性离散化。

如图2所示，对国际通用的机器学习数据源中的IRIS、Wine、Glass三个数据集进行试验分析，在聚类实验前，所有数据集均去除了决策属性。

根据充分考虑了簇的凝聚度和分离度两方面因素的聚类质量的评判标准轮廓系数对本发明的聚类效果进行评价，聚类实验的结果如图3所示，可以看出，改进后Canopy聚类的轮廓系数在3个数据集上均得到了明显提升，其中wine与glass数据集提升最为明显，通过与图2关联对比可以发现，提升度(轮廓系统的变化率)与数据的维度呈正比关系，即聚类数目越多，则提深度越明显。

此外，为分析改进前后聚类簇数变化情况(簇数直接影响属性离散后的断点集数目)，实验给出了相应的对比分析图，如图4所示，可以看出，利用BRICH改进后的Canopy聚类算法聚类后的簇数接近原数据集的簇数，即能刻画样本原有的分类信息，也即可以有效反映原始数据内在的关联性。

分别利用传统Canopy聚类离散算法、改进的Canopy聚类离散算法对数据进行离散化，以不相容度作为离散优劣的评价标准，实验结果如图5所示，相比于传统的Canopy聚类算法，基于最近邻策略的改进Canopy聚类算法的不相容度更接近于0(属性不相容度乘积)，不仅如此，通过对比单个属性的不相容度可以看出，改进的Canopy聚类离散算法均具有更小的不相容度，即本发明提出的离散化算法具有整体性优势。

本发明利用Canopy聚类算法对大样本连续属性进行初始聚类划分，产生若干虚高聚类簇数，获取“粗”聚类数目后再利用BIRCH聚类算法进行二次聚类，降低虚高聚类数目，实现“精”聚类。本发明通过二者的有机结合实现了连续属性(尤其是大样本、高维度数据)数据离散化，增强的数据的适用性，有效减弱极端值和异常值的影响，为大规模数据的应用提供良好的数据支撑。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法，其特征在于，包括以下步骤：

11)利用Canopy聚类实现连续属性数据初始聚类；设置合理的距离阈值T1、T2，其中阈值T1、T2为划分Canopy大小的度量；利用Canopy聚类方法，将相似对象放在一个子集Cluster中；经处理后获取各个Cluster的质心，完成数据初始聚类；

12)以初始聚类中心为样本，通过BIRCH层次聚类进行二次聚类；利用Canopy聚类输出的Cluster质心，结合聚类特征可加性原理构建聚类特征CF和聚类特征树CF树；通过BIRCH聚类方法把稀疏的簇当做离群点删除，将稠密的簇合并为更大的簇，实现数据集的二次聚类；

13)对断点集任一样本找出其所在维各聚类中心的最近邻，以此作为离散微调依据，实现连续属性的离散化；以BIRCH聚类算法的聚类中心为断点集，以轮廓系数作为聚类效果评价指标，以不相容度作为离散效果评价指标，对数据集任一样本找出其所在维各聚类中心的最近邻，以此作为离散微调依据，将聚类微调的结果作为最终连续属性离散结果。

2.根据权利要求1所述的一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法，其特征在于，所述的Canopy聚类方法包括以下步骤：

21)将数据集预处理后得到List集合，经十折交叉验证方法后选择两个距离阈值T1和T2，且T1>T2；

22)循环List集合，从List集合中任取一点t，用距离度量快速计算点t与所有Canopy之间的距离；

若点t与某个Canopy距离在T1以内，则将点t加入到该Canopy；

若点t与某个Canopy的距离在T2以内，则把点t从List中删除。

3.根据权利要求1所述的一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法，其特征在于，所述的Cluster的质心计算公式如下：

{C_{j}}^{k} = \frac{x_{j 1}^{k} + x_{j 2}^{k} + . . . + x_{jn}^{k}}{n_{j}},

4.根据权利要求1所述的一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法，其特征在于，所述的结合聚类特征可加性原理构建聚类特征CF和聚类特征树CF树包括以下步骤：

41)定义聚类特征CF为三元组，CF＝{n，LS，SS}，

42)以聚类特征CF为基础，推导出簇的形心x₀、簇的半径R，公式如下：

x_{0} = \frac{Σ_{i = 1}^{n} x_{i}}{n} = \frac{LS}{n}

R = \sqrt{\frac{Σ_{i = 1}^{n} {(x_{i} - x_{0})}^{2}}{n}} = \sqrt{\frac{nSS - {2 LS}^{2} + nLS}{n^{2}}}

R为成员对象到形心x₀的平均距离；

43)假设CF₁＝(N₁，LS₁，SS₁)、CF₂＝(N₂，LS₂，SS₂)，CF₁和CF₂分别为两个类的聚类特征；

5.根据权利要求1所述的一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法，其特征在于，所述的轮廓系数S的取值范围在[-1，1]之间变化，在此范围内，值越大聚类效果越好，轮廓系数S的计算公式如下：

S = \frac{1}{k} Σ_{i = 1}^{k} \frac{b_{i} - a_{i}}{\max (a_{i}, b_{i})},

其中，a_i是样本i到本簇中所有其他样本的平均距离；b_i是样本i到不包含该样本的其他任意簇中所有样本平均距离的最小值。

6.根据权利要求1所述的一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法，其特征在于，所述的不相容度的计算步骤如下：

61)设知识表达系统R＝(U，A，V，f)，A为一个有限属性集合，v为属性α的值域，f:U×A→V为信息函数，即：x∈U，f(x，a)∈Va；

62)属性A_i的不相容度公式如下：

A_{i} = \frac{Card ({A_{i}}^{T})}{Card (U)}

63)整个决策表的相容性度量如下所示：

a = Π_{i = 1}^{m} A_{i},

7.根据权利要求1所述的一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法，其特征在于，所述的聚类离散微调包括以下步骤：

71)对断点集任一样本i找出其所在维各聚类中心的最近邻；

72)将最近邻的聚类中心标识赋予i，实现了样本到其所属聚类中心的微调，实现了连续属性离散化。