CN111080351A

CN111080351A - 一种多维数据集的聚类方法及系统

Info

Publication number: CN111080351A
Application number: CN201911237620.6A
Authority: CN
Inventors: 胡齐波; 朱生尊; 李斌辉; 马啸尘; 周勇林; 沈智杰; 景晓军
Original assignee: Shenzhen Surfilter Technology Development Co ltd; Surfilter Network Technology Co ltd
Current assignee: Shenzhen Surfilter Technology Development Co ltd; Surfilter Network Technology Co ltd
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2020-04-28

Abstract

本发明公开了一种多维数据集的聚类方法及系统，其中通过遍历分析数据集对象的各个维度，获取多维数据集的维度；并将多维数据集的维度分为有序独立维度和非有序独立维度；以有序独立维度对数据集重新排序聚类成新的数据集，再通用聚类算法对最后获得数据集进行计算得到结果，提高了此类聚类计算的效率。

Description

一种多维数据集的聚类方法及系统

技术领域

本发明涉及数据挖掘和处理技术领域，尤其涉及一种多维数据集的聚类方法及系统。

背景技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。

在商业上，聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来，并且概括出每一类消费者的消费模式或者说习惯。它作为数据挖掘中的一个模块，可以作为一个单独的工具以发现数据库中分布的一些深层的信息，并且概括出每一类的特点，或者把注意力放在某一个特定的类上以作进一步的分析；并且，聚类分析也可以作为数据挖掘算法中其他分析算法的一个预处理步骤。

但是，直接采用现有的通用聚类算法处理多维度数据集时，存在计算过于复杂，获取聚类结果时间长，消耗计算资源多的问题。

发明内容

本发明针对上述技术问题，公开了一种多维数据集的快速聚类方法及系统。

本发明所提出的技术方案如下：

本发明提出了一种多维数据集的聚类方法，包括以下步骤：

步骤S1、获取多维数据集的维度；并将多维数据集的维度分为有序独立维度和非有序独立维度；

步骤S2、对多维数据集进行排序和聚类；其中，排序和聚类交替进行；每一次排序根据一个有序独立维度的顺序处理，该次排序之后邻近的一次聚类根据该有序独立维度进行，不同次序的排序根据不同的有序独立维度的顺序处理；每一次聚类将产生若干数据集；每一次聚类将该次聚类前分别邻近的一次排序后的若干数据集分别分成若干子一级的若干数据集；第一次聚类针对第一次排序后的所述多维数据集进行。

本发明上述的聚类方法中，所述聚类采用通用聚类算法进行；所述通用聚类算法为K均值聚类算法、均值漂移聚类算法、基于密度的聚类算法、基于高斯混合模型的期望最大化聚类算法、凝聚层次聚类算法或图团体检测法等。

本发明还提出了一种多维数据集的聚类系统，包括：

维度分析单元，用于获取多维数据集的维度；并将多维数据集的维度分为有序独立维度和非有序独立维度；

聚类单元，用于对多维数据集进行排序和聚类；其中，排序和聚类交替进行；每一次排序根据一个有序独立维度的顺序处理，该次排序之后邻近的一次聚类根据该有序独立维度进行，不同次序的排序根据不同的有序独立维度的顺序处理；每一次聚类将产生若干数据集；每一次聚类将该次聚类前分别邻近的一次排序后的若干数据集分别分成若干子一级的若干数据集；第一次聚类针对第一次排序后的所述多维数据集进行。

本发明上述的聚类系统中，所述聚类采用通用聚类算法进行；所述通用聚类算法为K均值聚类算法、均值漂移聚类算法、基于密度的聚类算法、基于高斯混合模型的期望最大化聚类算法、凝聚层次聚类算法或图团体检测法。

其中通过遍历分析数据集对象的各个维度，获取多维数据集的维度；并将多维数据集的维度分为有序独立维度和非有序独立维度；以有序独立维度对数据集重新排序聚类成新的数据集，再通过通用聚类算法对最后获得数据集进行计算得到结果，提高了此类聚类计算的效率。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为本发明实施例提供的聚类方法的流程示意图；

图2为本发明实施例提供的聚类系统的功能模块示意图。

具体实施方式

为了使本发明的技术目的、技术方案以及技术效果更为清楚，以便于本领域技术人员理解和实施本发明，下面将结合附图及具体实施例对本发明做进一步详细的说明。

如图1所示，图1示出了一种多维数据集的聚类方法，该聚类方法，包括以下步骤：

在本步骤中，有序是指客观事物存在和运动中表现出来的稳定性、规则性、相互的因果关联性。

非有序则是指不稳定性、不规则性、随机性。

独立是指多维数据集的维度之间没有关联性。

步骤S2中所述的聚类采用通用聚类算法进行；所述通用聚类算法为K均值聚类算法、均值漂移聚类算法、基于密度的聚类算法、基于高斯混合模型的期望最大化聚类算法、凝聚层次聚类算法或图团体检测法等。

由上述发明提供的技术方案可以看出,通过遍历分析数据集对象的各个维度，获取多维数据集的维度；并将多维数据集的维度分为有序独立维度和非有序独立维度；以有序独立维度对数据集重新排序聚类成新的数据集，再通过通用聚类算法对最后获得数据集进行计算得到结果，提高了此类聚类计算的效率。

具体而言，本发明实施例提供一种聚类方法中，有一个原始的多维数据集(表示为O)，多维数据集中对象的维度数量为m，所有维度分别为x1,x2,…,xm，其中，有序且独立的维度为x1,x2,…,xp，非有序独立的维度为xp+1,xp+2,…,xm。

示例性的，假设p＝2，遍历原始数据集(表示为O)，通过维度x1顺序排序后，使用维度x1进行聚类，将数据集分成ax1个子数据集，表示为{Ax1}。

遍历{Ax1}，对每个子数据集分别通过维度x2顺序排序后，使用维度x2进行聚类，将数据集分成ax2个子数据集，表示为{Ax2}，ax2>ax1。

遍历数据集{Ax2}，对每个子数据集使用通用聚类算法进行聚类计算，获得聚类结果。

其中聚类算法包括但不限于值漂移聚类，基于密度的聚类方法，用高斯混合模型的最大期望聚类，凝聚层次聚类，图团体检测等。

对应于上述本发明实施例提供的聚类方法，如图2所示，本发明实施例提供一种聚类系统，包括：

维度分析单元100，用于获取多维数据集的维度；并将多维数据集的维度分为有序独立维度和非有序独立维度；

有序是指客观事物存在和运动中表现出来的稳定性、规则性、相互的因果关联性。

非有序则是指不稳定性、不规则性、随机性。

独立是指多维数据集的维度之间没有关联性。

聚类单元200，用于对多维数据集进行排序和聚类；其中，排序和聚类交替进行；每一次排序根据一个有序独立维度的顺序处理，该次排序之后邻近的一次聚类根据该有序独立维度进行，不同次序的排序根据不同的有序独立维度的顺序处理；每一次聚类将产生若干数据集；每一次聚类将该次聚类前分别邻近的一次排序后的若干数据集分别分成若干子一级的若干数据集；第一次聚类针对第一次排序后的所述多维数据集进行。

其上所述的聚类系统中，所述聚类采用通用聚类算法进行；所述通用聚类算法为K均值聚类算法、均值漂移聚类算法、基于密度的聚类算法、基于高斯混合模型的期望最大化聚类算法、凝聚层次聚类算法或图团体检测法等。

具体而言，本发明实施例提供一种聚类系统中，维度分析单元获取一个原始的数据集(表示为O)，数据集中对象的维度数量为m，所有维度分别为x1,x2,…,xm，其中，有序独立维度为x1,x2,…,xp，非有序独立维度为xp+1,xp+2,…,xm。

下面将结合具体应用场景对本发明实施例聚类方法作进一步地详细描述。

有一批人员运动轨迹数据，主要字段为：人员id、出现时间t、出现经度x、出现纬度y。需要从这批数据获取人员聚集出现的情况。假设该数据集为O，数据集大小为n。

最直接的方式是将这批数据通过合适的通用聚类算法(如均值漂移聚类，基于密度的聚类方法，用高斯混合模型的最大期望聚类，凝聚层次聚类，图团体检测等直接进行聚类计算。

但是这样做时间复杂度是：数据维度数(3)*数据集大小的平方(n*n)，即O(3n²)。

通过对出现时间t、出现经度x、出现纬度y进行遍历，获得有序独立维度出现时间t，和非有序独立维度出现经度x、出现纬度y。

遍历原始数据集(表示为O)，通过维度t顺序排序后，使用维度t进行聚类，获得各子数据集的数据集{A}。

遍历数据集{A}，对每个子数据集使用通用聚类算法进行聚类计算，获得聚类结果。

其中，时间复杂度是：数据维度数(2)*数据集大小的平方(n*n)，即O(2n²)。比直接通用聚类计算时间复杂度O(3n²)低。如有序独立维度越多，则相对于通用聚类计算时间复杂度越低。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种多维数据集的聚类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的聚类方法，其特征在于，所述聚类采用通用聚类算法进行；所述通用聚类算法为K均值聚类算法、均值漂移聚类算法、基于密度的聚类算法、基于高斯混合模型的期望最大化聚类算法、凝聚层次聚类算法或图团体检测法。

3.一种多维数据集的聚类系统，其特征在于，包括：

维度分析单元(100)，用于获取多维数据集的维度；并将多维数据集的维度分为有序独立维度和非有序独立维度；

聚类单元(200)，用于对多维数据集进行排序和聚类；其中，排序和聚类交替进行；每一次排序根据一个有序独立维度的顺序处理，该次排序之后邻近的一次聚类根据该有序独立维度进行，不同次序的排序根据不同的有序独立维度的顺序处理；每一次聚类将产生若干数据集；每一次聚类将该次聚类前分别邻近的一次排序后的若干数据集分别分成若干子一级的若干数据集；第一次聚类针对第一次排序后的所述多维数据集进行。

4.根据权利要求3所述的聚类系统，其特征在于，所述聚类采用通用聚类算法进行；所述通用聚类算法为K均值聚类算法、均值漂移聚类算法、基于密度的聚类算法、基于高斯混合模型的期望最大化聚类算法、凝聚层次聚类算法或图团体检测法。