CN104063518A

CN104063518A - 一种针对大数据的分解组合聚类方法

Info

Publication number: CN104063518A
Application number: CN201410334542.2A
Authority: CN
Inventors: 吴俊杰; 伍之昂; 曹杰
Original assignee: Nanjing Hong Shuo Information Technology Co Ltd
Current assignee: Guangdong Weishen Information Technology Co.,Ltd.
Priority date: 2014-07-14
Filing date: 2014-07-14
Publication date: 2014-09-24
Anticipated expiration: 2034-07-14
Also published as: CN104063518B

Abstract

本发明公开了一种基于分解组合的大数据聚类方法，将数据集进行横向切分，获得若干数据子集；再将横向数据子集进行纵向切分，获得若干纵向数据子集；然后使用基础聚类算法，获得经过横向和纵向切分后数据子集的类别标签。将若干个纵向数据子集的类别标签进行组合聚类获得横向数据子集的类别标签；再将若干个横向数据子集的类别标签再次进行组合聚类得到完整数据集的类别标签。本发明将大数据聚类问题转化为组合聚类问题，具有高效性，鲁棒性和可并行化等优点。适用于大数据聚类，特别适用在文档分类、客户分群、信息检索等领域。

Description

一种针对大数据的分解组合聚类方法

技术领域

本发明属于数据挖掘领域，涉及一种数据划分的聚类方法，具体的说是一种针对大数据的组合聚类方法。

背景技术

大数据给人们带来了前所未有的冲击和挑战，大数据的特点：Volume(大量)、Velocity(高速)、Variety(多样)、veracity(真实性)。如何挖掘大数据中蕴含的潜在价值信息成为工业界和学术界的热点问题。大数据具有数据量大，维度高的特点，这使得传统的数据分析方法在大数据面前束手无策，力不从心；并且大数据中存在噪声属性和噪声样本点也让挖掘大数据的内在模式难上加难。

发明内容

鉴于大数据聚类中的海量高维难题，本发明的目的是提供一种针对大数据的分解组合聚类方法，本发明采用“分解-组合”的方法，首先将大数据分别进行横向和纵向切分，得到若干数据子集，再利用快速聚类法获得数据子集的类别标签，再利用组合聚类法将若干数据子集的类别标签进行组合，得到完整的数据类别标签。

本发明的目的是通过以下技术方案来实现的：

一种针对大数据的分解组合聚类方法，其特征在于：该方法首先将大数据分解，针对每个数据子集聚类，再使用组合聚类的方法求得最后的完整类别标签，具体步骤如下：

1)对大数据的样本点进行随机抽样,得到若干横向数据子集；

进一步：将大数据D进行横向切分，获得r个数据子集D_i，1≤i≤r，使得r个数据子集的全集为D，r个数据子集的样本总数为D的样本数量的5倍以上。

进一步：利用随机抽样的方式，对大数据进行横向切分，随机抽取10％的样本量获得数据子集D_i，有放回的重复抽样r＝100次，使得100个数据子集的全集为D。

2)对得到的横向数据子集的属性进行随机抽样,得到若干规模较小的纵向数据子集；

进一步：对每个数据子集D_i进行纵向切分，获得c个数据子集D_ij，1≤j≤c，使得c个数据子集的全集为D_i，c个数据子集的属性总数为D_i的属性数量的5倍以上。

进一步：利用随机抽样的方式，对每个数据子集D_i进行纵向切分，随机抽取10％的属性获得数据子集D_ij，有放回的重复抽样c＝100次，使得100个数据子集D_ij的全集为D_i。

3)对得到的纵向数据子集,进行基础聚类,得到若干基础聚类结果；

利用K均值对每个数据集子集D_ij进行聚类，得到π_ij；K均值算法如下，其中K均值聚类距离函数为平方欧式距离或者余弦相似度；只需要运行K均值算法一次即可：

(31)选择K个点作为初始中心；

(32)重复；

(33)将每个点指派到最近的中心，形成K个簇；

(34)重新计算每个簇的中心；

(35)直到中心不发生变化。

4)对纵向数据子集的基础聚类结果进行组合聚类,得到横向数据子集的类别标签；

进一步：利用基于K均值的一致性聚类方法对c个π_ij进行组合聚类，得到π_i作为D_i的类别标签。

利用基于K均值的组合聚类方法对100个π_ij，1≤j≤c进行组合聚类，得到π_i作为D_i的类别标签；基于K均值的组合聚类方法如下：

(41)将100个基础聚类结果π_ij，转化为0-1矩阵，其转换方式如下：

用表示由上述基础聚类结果得到的0-1二元矩阵，n_i为D_i样本个数，其生成方式如下所示：

x_{l}^{(b)} = < x_{l, 1}^{(b)}, . . . x_{l, j}^{(b)}, . . ., x_{l, c}^{(b)} >

其中

x_{l, j}^{(b)} = < x_{l, j 1}^{(b)}, . . ., x_{l, jq}^{(b)}, . . ., x_{l, {jK}_{i}}^{(b)} >,

因此，是一个的矩阵，其中K_i为的π_ij簇个数，并且

(42)选择组合聚类效用函数U，并从中分解

如果效用函数U可以进行如下所示的分解，则可利用基于快速一致性聚类的框架进行求解；

其中，p_k表示第k个类占所有数据的比例，m_k,j表示π_ij的第k个类的中心，且上式中为凸函数；

(43)基于生成快速聚类法的距离函数，利用K均值聚类法的距离范式，

f (x, y) = Φ (x) - Φ (y) - {(x - y)}^{T} &dtri; Φ (y)

其中

经验结果表明，基于熵的效用函数收敛速度快，并且还能够得到较好的聚类结果，其表达式如下

Σ_{k = 1}^{K} p_{k} (- H (m_{k, j})) - (- H (P^{(i)}))

其对应的K均值距离函数为加和的KL散度，形式如下：

Σ_{i = 1}^{r} w_{i} D (x_{l, j}^{(b)} | | m_{k, j})

(44)最后利用K均值聚类算法，在0-1矩阵上运用聚类函数f进行组合聚类，得到数据子集D_i的类别标签π_i。

5)将未出现在横向数据子集的数据点的类别标签标记为0；

6)对横向数据子集的类别标签进行组合聚类,得到整个数据集的类别标签；

进一步：利用基于K均值的一致性聚类方法对r个π_i进行组合聚类，得到π作为D的类别标签，方法与步骤4)相同。

7)模式输出，得到完整数据集的类别标签，完成大数据的分解组合聚类。

本发明旨在解决大数据的聚类问题，使用“分解-组合”的思想，将大数据进行切分，得到规模较小的数据子集，再利用快速聚类算法，如K均值，得到数据子集的类别标签，再使用组合聚类算法对数据子集的类别标签进行融合，最终得到完整数据的类别标签。本发明通过“分解-组合”不仅能够克服大数据的海量高维等难点，并且通过随机抽样的方式还能够抵抗噪声属性和噪声样本对聚类结果带来的影响。本发明具有高效性，鲁棒性和易于并行化等优点。

本发明适用于大数据聚类，特别适用在文档分类、客户分群、信息检索等领域。

附图说明

图1为本发明的整体框架图。

具体实施方式

一种针对大数据的分解组合聚类方法，首先对大数据进行横纵切分；然后，获得每个数据子集的类别标签，再使用组合聚类方法获得整个数据集的类别标签。具体实施步骤如下：

1)横向切分。利用随机抽样的方式，对大数据进行横向切分，即随机抽取10％的样本量获得数据子集D_i，有放回的重复抽样r＝100次，使得100个数据子集的全集为D。

2)纵向切分。利用随机抽样的方式，对每个数据子集D_i进行纵向切分，即随机抽取10％的属性获得数据子集D_ij，有放回的重复抽样c＝100次，使得100个数据子集D_ij的全集为D_i。

3)获得数据子集的类别标签。利用K均值对每个数据集子集D_ij划分成K个簇，得到π_ij。其中K均值聚类距离函数为平方欧式距离或者余弦相似度；因为要获得具有丰富多样性的基础聚类结果，只需要运行K均值算法一次即可，K均值算法如下：

(31)选择K个点作为初始中心；

(32)重复；

(33)将每个点指派到最近的中心，形成K个簇；

(34)重新计算每个簇的中心；

(35)直到中心不发生变化。

4)利用基于K均值的组合聚类方法对100个π_ij，1≤j≤c进行组合聚类，得到π_i作为D_i的类别标签。下面介绍基于K均值的组合聚类方法的步骤：

x_{l}^{(b)} = < x_{l, 1}^{(b)}, . . . x_{l, j}^{(b)}, . . ., x_{l, c}^{(b)} >

其中

x_{l, j}^{(b)} = < x_{l, j 1}^{(b)}, . . ., x_{l, jq}^{(b)}, . . ., x_{l, {jK}_{i}}^{(b)} >,

因此，是一个的矩阵，其中K_i为的π_ij簇个数，并且

(42)选择组合聚类效用函数U，并从中分解

如果效用函数U可以进行如下所示的分解，则可利用基于快速一致性聚类的框架进行求解。

其中，p_k表示第k个类占所有数据的比例，m_k,j表示π_ij的第k个类的中心，且上式中为凸函数。

(43)基于生成快速聚类法的距离函数。利用K均值聚类法的距离范式，

f (x, y) = Φ (x) - Φ (y) - {(x - y)}^{T} &dtri; Φ (y)

其中

Σ_{k = 1}^{K} p_{k} (- H (m_{k, j})) - (- H (P^{(i)}))

其对应的K均值距离函数为加和的KL散度，形式如下：

Σ_{i = 1}^{r} w_{i} D (x_{l, j}^{(b)} | | m_{k, j})

5)将未出现在D_i数据子集的样本点的标签标记为0，并更新π_i。

6)再次利用组合聚类算法，基于K均值的组合聚类方法对100个π_i进行组合聚类，其过程与步骤4)类似。

7)模式输出，得到完整数据集的类别标签，完成大数据的“分解-组合”聚类。

本发明采用“分解-组合”的方法，首先将大数据分别进行横向和纵向切分，得到若干数据子集，再利用快速聚类法获得数据子集的类别标签，再利用组合聚类法将若干数据子集的类别标签进行组合，得到完整的数据类别标签，具有高效性，鲁棒性和易于并行化等优点。

Claims

1.一种针对大数据的分解组合聚类方法，其特征在于：该方法首先将大数据分解，针对每个数据子集聚类，再使用组合聚类的方法求得最后的完整类别标签，具体步骤如下：

1)对大数据的样本点进行随机抽样,得到若干横向数据子集；

5)将未出现在横向数据子集的数据点的类别标签标记为0；

2.根据权利要求1所述的针对大数据的分解组合聚类方法，其特征在于：步骤1)中，将大数据D进行横向切分，获得r个数据子集D_i，1≤i≤r，使得r个数据子集的全集为D，r个数据子集的样本总数为D的样本数量的5倍以上。

3.根据权利要求2所述的针对大数据的分解组合聚类方法，其特征在于：利用随机抽样的方式，对大数据进行横向切分，随机抽取10％的样本量获得数据子集D_i，有放回的重复抽样r＝100次，使得100个数据子集的全集为D。

4.根据权利要求1所述的针对大数据的分解组合聚类方法，其特征在于：步骤2)中，对每个数据子集D_i进行纵向切分，获得c个数据子集D_ij，1≤j≤c，使得c个数据子集的全集为D_i，c个数据子集的属性总数为D_i的属性数量的5倍以上。

5.根据权利要求4所述的针对大数据的分解组合聚类方法，其特征在于：利用随机抽样的方式，对每个数据子集D_i进行纵向切分，随机抽取10％的属性获得数据子集D_ij，有放回的重复抽样c＝100次，使得100个数据子集D_ij的全集为D_i。

6.根据权利要求1所述的针对大数据的分解组合聚类方法，其特征在于：步骤3)中，利用K均值对每个数据集子集D_ij进行聚类，得到π_ij；K均值算法如下，其中K均值聚类距离函数为平方欧式距离或者余弦相似度；只需要运行K均值算法一次即可：

(31)选择K个点作为初始中心；

(32)重复；

(33)将每个点指派到最近的中心，形成K个簇；

(34)重新计算每个簇的中心；

(35)直到中心不发生变化。

7.根据权利要求1所述的针对大数据的分解组合聚类方法，其特征在于：步骤4)中，利用基于K均值的一致性聚类方法对c个π_ij进行组合聚类，得到π_i作为D_i的类别标签。

8.根据权利要求7所述的针对大数据的分解组合聚类方法，其特征在于：利用基于K均值的组合聚类方法对100个π_ij，1≤j≤c进行组合聚类，得到π_i作为D_i的类别标签；基于K均值的组合聚类方法如下：

x_{l}^{(b)} = < x_{l, 1}^{(b)}, . . . x_{l, j}^{(b)}, . . ., x_{l, c}^{(b)} >

其中

x_{l, j}^{(b)} = < x_{l, j 1}^{(b)}, . . ., x_{l, jq}^{(b)}, . . ., x_{l, {jK}_{i}}^{(b)} >,

因此，是一个的矩阵，其中K_i为的π_ij簇个数，并且

(42)选择组合聚类效用函数U，并从中分解

f (x, y) = Φ (x) - Φ (y) - {(x - y)}^{T} &dtri; Φ (y)

其中

经验结果表明，基于熵的效用函数收敛速度快，并且还能够得到较好的聚类结果，其表达式如下:

Σ_{k = 1}^{K} p_{k} (- H (m_{k, j})) - (- H (P^{(i)}))

其对应的K均值距离函数为加和的KL散度，形式如下：

Σ_{i = 1}^{r} w_{i} D (x_{l, j}^{(b)} | | m_{k, j})

9.根据权利要求1所述的针对大数据的分解组合聚类方法，其特征在于：步骤6)中，利用基于K均值的一致性聚类方法对r个π_i进行组合聚类，得到π作为D的类别标签，方法与步骤4)相同。