CN111080351A - 一种多维数据集的聚类方法及系统 - Google Patents
一种多维数据集的聚类方法及系统 Download PDFInfo
- Publication number
- CN111080351A CN111080351A CN201911237620.6A CN201911237620A CN111080351A CN 111080351 A CN111080351 A CN 111080351A CN 201911237620 A CN201911237620 A CN 201911237620A CN 111080351 A CN111080351 A CN 111080351A
- Authority
- CN
- China
- Prior art keywords
- clustering
- data set
- dimensionality
- sorting
- clustering algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 55
- 238000001514 detection method Methods 0.000 claims description 9
- 239000000203 mixture Substances 0.000 claims description 9
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 238000005354 coacervation Methods 0.000 claims description 6
- 238000003064 k means clustering Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 abstract description 9
- 238000007418 data mining Methods 0.000 description 3
- 230000001364 causal effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种多维数据集的聚类方法及系统,其中通过遍历分析数据集对象的各个维度,获取多维数据集的维度;并将多维数据集的维度分为有序独立维度和非有序独立维度;以有序独立维度对数据集重新排序聚类成新的数据集,再通用聚类算法对最后获得数据集进行计算得到结果,提高了此类聚类计算的效率。
Description
技术领域
本发明涉及数据挖掘和处理技术领域,尤其涉及一种多维数据集的聚类方法及系统。
背景技术
将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。
在商业上,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来,并且概括出每一类消费者的消费模式或者说习惯。它作为数据挖掘中的一个模块,可以作为一个单独的工具以发现数据库中分布的一些深层的信息,并且概括出每一类的特点,或者把注意力放在某一个特定的类上以作进一步的分析;并且,聚类分析也可以作为数据挖掘算法中其他分析算法的一个预处理步骤。
但是,直接采用现有的通用聚类算法处理多维度数据集时,存在计算过于复杂,获取聚类结果时间长,消耗计算资源多的问题。
发明内容
本发明针对上述技术问题,公开了一种多维数据集的快速聚类方法及系统。
本发明所提出的技术方案如下:
本发明提出了一种多维数据集的聚类方法,包括以下步骤:
步骤S1、获取多维数据集的维度;并将多维数据集的维度分为有序独立维度和非有序独立维度;
步骤S2、对多维数据集进行排序和聚类;其中,排序和聚类交替进行;每一次排序根据一个有序独立维度的顺序处理,该次排序之后邻近的一次聚类根据该有序独立维度进行,不同次序的排序根据不同的有序独立维度的顺序处理;每一次聚类将产生若干数据集;每一次聚类将该次聚类前分别邻近的一次排序后的若干数据集分别分成若干子一级的若干数据集;第一次聚类针对第一次排序后的所述多维数据集进行。
本发明上述的聚类方法中,所述聚类采用通用聚类算法进行;所述通用聚类算法为K均值聚类算法、均值漂移聚类算法、基于密度的聚类算法、基于高斯混合模型的期望最大化聚类算法、凝聚层次聚类算法或图团体检测法等。
本发明还提出了一种多维数据集的聚类系统,包括:
维度分析单元,用于获取多维数据集的维度;并将多维数据集的维度分为有序独立维度和非有序独立维度;
聚类单元,用于对多维数据集进行排序和聚类;其中,排序和聚类交替进行;每一次排序根据一个有序独立维度的顺序处理,该次排序之后邻近的一次聚类根据该有序独立维度进行,不同次序的排序根据不同的有序独立维度的顺序处理;每一次聚类将产生若干数据集;每一次聚类将该次聚类前分别邻近的一次排序后的若干数据集分别分成若干子一级的若干数据集;第一次聚类针对第一次排序后的所述多维数据集进行。
本发明上述的聚类系统中,所述聚类采用通用聚类算法进行;所述通用聚类算法为K均值聚类算法、均值漂移聚类算法、基于密度的聚类算法、基于高斯混合模型的期望最大化聚类算法、凝聚层次聚类算法或图团体检测法。
其中通过遍历分析数据集对象的各个维度,获取多维数据集的维度;并将多维数据集的维度分为有序独立维度和非有序独立维度;以有序独立维度对数据集重新排序聚类成新的数据集,再通过通用聚类算法对最后获得数据集进行计算得到结果,提高了此类聚类计算的效率。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为本发明实施例提供的聚类方法的流程示意图;
图2为本发明实施例提供的聚类系统的功能模块示意图。
具体实施方式
为了使本发明的技术目的、技术方案以及技术效果更为清楚,以便于本领域技术人员理解和实施本发明,下面将结合附图及具体实施例对本发明做进一步详细的说明。
如图1所示,图1示出了一种多维数据集的聚类方法,该聚类方法,包括以下步骤:
步骤S1、获取多维数据集的维度;并将多维数据集的维度分为有序独立维度和非有序独立维度;
在本步骤中,有序是指客观事物存在和运动中表现出来的稳定性、规则性、相互的因果关联性。
非有序则是指不稳定性、不规则性、随机性。
独立是指多维数据集的维度之间没有关联性。
步骤S2、对多维数据集进行排序和聚类;其中,排序和聚类交替进行;每一次排序根据一个有序独立维度的顺序处理,该次排序之后邻近的一次聚类根据该有序独立维度进行,不同次序的排序根据不同的有序独立维度的顺序处理;每一次聚类将产生若干数据集;每一次聚类将该次聚类前分别邻近的一次排序后的若干数据集分别分成若干子一级的若干数据集;第一次聚类针对第一次排序后的所述多维数据集进行。
步骤S2中所述的聚类采用通用聚类算法进行;所述通用聚类算法为K均值聚类算法、均值漂移聚类算法、基于密度的聚类算法、基于高斯混合模型的期望最大化聚类算法、凝聚层次聚类算法或图团体检测法等。
由上述发明提供的技术方案可以看出,通过遍历分析数据集对象的各个维度,获取多维数据集的维度;并将多维数据集的维度分为有序独立维度和非有序独立维度;以有序独立维度对数据集重新排序聚类成新的数据集,再通过通用聚类算法对最后获得数据集进行计算得到结果,提高了此类聚类计算的效率。
具体而言,本发明实施例提供一种聚类方法中,有一个原始的多维数据集(表示为O),多维数据集中对象的维度数量为m,所有维度分别为x1,x2,…,xm,其中,有序且独立的维度为x1,x2,…,xp,非有序独立的维度为xp+1,xp+2,…,xm。
示例性的,假设p=2,遍历原始数据集(表示为O),通过维度x1顺序排序后,使用维度x1进行聚类,将数据集分成ax1个子数据集,表示为{Ax1}。
遍历{Ax1},对每个子数据集分别通过维度x2顺序排序后,使用维度x2进行聚类,将数据集分成ax2个子数据集,表示为{Ax2},ax2>ax1。
遍历数据集{Ax2},对每个子数据集使用通用聚类算法进行聚类计算,获得聚类结果。
其中聚类算法包括但不限于值漂移聚类,基于密度的聚类方法,用高斯混合模型的最大期望聚类,凝聚层次聚类,图团体检测等。
对应于上述本发明实施例提供的聚类方法,如图2所示,本发明实施例提供一种聚类系统,包括:
维度分析单元100,用于获取多维数据集的维度;并将多维数据集的维度分为有序独立维度和非有序独立维度;
有序是指客观事物存在和运动中表现出来的稳定性、规则性、相互的因果关联性。
非有序则是指不稳定性、不规则性、随机性。
独立是指多维数据集的维度之间没有关联性。
聚类单元200,用于对多维数据集进行排序和聚类;其中,排序和聚类交替进行;每一次排序根据一个有序独立维度的顺序处理,该次排序之后邻近的一次聚类根据该有序独立维度进行,不同次序的排序根据不同的有序独立维度的顺序处理;每一次聚类将产生若干数据集;每一次聚类将该次聚类前分别邻近的一次排序后的若干数据集分别分成若干子一级的若干数据集;第一次聚类针对第一次排序后的所述多维数据集进行。
其上所述的聚类系统中,所述聚类采用通用聚类算法进行;所述通用聚类算法为K均值聚类算法、均值漂移聚类算法、基于密度的聚类算法、基于高斯混合模型的期望最大化聚类算法、凝聚层次聚类算法或图团体检测法等。
由上述发明提供的技术方案可以看出,通过遍历分析数据集对象的各个维度,获取多维数据集的维度;并将多维数据集的维度分为有序独立维度和非有序独立维度;以有序独立维度对数据集重新排序聚类成新的数据集,再通过通用聚类算法对最后获得数据集进行计算得到结果,提高了此类聚类计算的效率。
具体而言,本发明实施例提供一种聚类系统中,维度分析单元获取一个原始的数据集(表示为O),数据集中对象的维度数量为m,所有维度分别为x1,x2,…,xm,其中,有序独立维度为x1,x2,…,xp,非有序独立维度为xp+1,xp+2,…,xm。
示例性的,假设p=2,遍历原始数据集(表示为O),通过维度x1顺序排序后,使用维度x1进行聚类,将数据集分成ax1个子数据集,表示为{Ax1}。
遍历{Ax1},对每个子数据集分别通过维度x2顺序排序后,使用维度x2进行聚类,将数据集分成ax2个子数据集,表示为{Ax2},ax2>ax1。
遍历数据集{Ax2},对每个子数据集使用通用聚类算法进行聚类计算,获得聚类结果。
其中聚类算法包括但不限于值漂移聚类,基于密度的聚类方法,用高斯混合模型的最大期望聚类,凝聚层次聚类,图团体检测等。
下面将结合具体应用场景对本发明实施例聚类方法作进一步地详细描述。
有一批人员运动轨迹数据,主要字段为:人员id、出现时间t、出现经度x、出现纬度y。需要从这批数据获取人员聚集出现的情况。假设该数据集为O,数据集大小为n。
最直接的方式是将这批数据通过合适的通用聚类算法(如均值漂移聚类,基于密度的聚类方法,用高斯混合模型的最大期望聚类,凝聚层次聚类,图团体检测等直接进行聚类计算。
但是这样做时间复杂度是:数据维度数(3)*数据集大小的平方(n*n),即O(3n2)。
通过对出现时间t、出现经度x、出现纬度y进行遍历,获得有序独立维度出现时间t,和非有序独立维度出现经度x、出现纬度y。
遍历原始数据集(表示为O),通过维度t顺序排序后,使用维度t进行聚类,获得各子数据集的数据集{A}。
遍历数据集{A},对每个子数据集使用通用聚类算法进行聚类计算,获得聚类结果。
其中,时间复杂度是:数据维度数(2)*数据集大小的平方(n*n),即O(2n2)。比直接通用聚类计算时间复杂度O(3n2)低。如有序独立维度越多,则相对于通用聚类计算时间复杂度越低。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (4)
1.一种多维数据集的聚类方法,其特征在于,包括以下步骤:
步骤S1、获取多维数据集的维度;并将多维数据集的维度分为有序独立维度和非有序独立维度;
步骤S2、对多维数据集进行排序和聚类;其中,排序和聚类交替进行;每一次排序根据一个有序独立维度的顺序处理,该次排序之后邻近的一次聚类根据该有序独立维度进行,不同次序的排序根据不同的有序独立维度的顺序处理;每一次聚类将产生若干数据集;每一次聚类将该次聚类前分别邻近的一次排序后的若干数据集分别分成若干子一级的若干数据集;第一次聚类针对第一次排序后的所述多维数据集进行。
2.根据权利要求1所述的聚类方法,其特征在于,所述聚类采用通用聚类算法进行;所述通用聚类算法为K均值聚类算法、均值漂移聚类算法、基于密度的聚类算法、基于高斯混合模型的期望最大化聚类算法、凝聚层次聚类算法或图团体检测法。
3.一种多维数据集的聚类系统,其特征在于,包括:
维度分析单元(100),用于获取多维数据集的维度;并将多维数据集的维度分为有序独立维度和非有序独立维度;
聚类单元(200),用于对多维数据集进行排序和聚类;其中,排序和聚类交替进行;每一次排序根据一个有序独立维度的顺序处理,该次排序之后邻近的一次聚类根据该有序独立维度进行,不同次序的排序根据不同的有序独立维度的顺序处理;每一次聚类将产生若干数据集;每一次聚类将该次聚类前分别邻近的一次排序后的若干数据集分别分成若干子一级的若干数据集;第一次聚类针对第一次排序后的所述多维数据集进行。
4.根据权利要求3所述的聚类系统,其特征在于,所述聚类采用通用聚类算法进行;所述通用聚类算法为K均值聚类算法、均值漂移聚类算法、基于密度的聚类算法、基于高斯混合模型的期望最大化聚类算法、凝聚层次聚类算法或图团体检测法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911237620.6A CN111080351A (zh) | 2019-12-05 | 2019-12-05 | 一种多维数据集的聚类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911237620.6A CN111080351A (zh) | 2019-12-05 | 2019-12-05 | 一种多维数据集的聚类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111080351A true CN111080351A (zh) | 2020-04-28 |
Family
ID=70313273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911237620.6A Pending CN111080351A (zh) | 2019-12-05 | 2019-12-05 | 一种多维数据集的聚类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111080351A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111913081A (zh) * | 2020-07-14 | 2020-11-10 | 上海电力大学 | 一种基于均值漂移聚类的开关柜绝缘状态异常检测方法 |
CN118245956A (zh) * | 2024-05-27 | 2024-06-25 | 长沙壹润信息科技发展有限公司 | 基于传感器监测技术的工业装备异常状态检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060155394A1 (en) * | 2004-12-16 | 2006-07-13 | International Business Machines Corporation | Method and apparatus for order-preserving clustering of multi-dimensional data |
US20110015967A1 (en) * | 2009-07-17 | 2011-01-20 | Gm Global Technology Operations, Inc. | Methodology to identify emerging issues based on fused severity and sensitivity of temporal trends |
JP2013025791A (ja) * | 2011-07-19 | 2013-02-04 | Fuji Xerox Co Ltd | ジオタグ付き収集写真の分類方法、システムおよびプログラム |
CN108122186A (zh) * | 2017-12-29 | 2018-06-05 | 北京航空航天大学 | 一种基于卡口数据的职住位置估计方法 |
CN109344729A (zh) * | 2018-09-07 | 2019-02-15 | 福建诺恒科技有限公司 | 一种识别道路中人员运动的方法 |
-
2019
- 2019-12-05 CN CN201911237620.6A patent/CN111080351A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060155394A1 (en) * | 2004-12-16 | 2006-07-13 | International Business Machines Corporation | Method and apparatus for order-preserving clustering of multi-dimensional data |
US20110015967A1 (en) * | 2009-07-17 | 2011-01-20 | Gm Global Technology Operations, Inc. | Methodology to identify emerging issues based on fused severity and sensitivity of temporal trends |
JP2013025791A (ja) * | 2011-07-19 | 2013-02-04 | Fuji Xerox Co Ltd | ジオタグ付き収集写真の分類方法、システムおよびプログラム |
CN108122186A (zh) * | 2017-12-29 | 2018-06-05 | 北京航空航天大学 | 一种基于卡口数据的职住位置估计方法 |
CN109344729A (zh) * | 2018-09-07 | 2019-02-15 | 福建诺恒科技有限公司 | 一种识别道路中人员运动的方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111913081A (zh) * | 2020-07-14 | 2020-11-10 | 上海电力大学 | 一种基于均值漂移聚类的开关柜绝缘状态异常检测方法 |
CN118245956A (zh) * | 2024-05-27 | 2024-06-25 | 长沙壹润信息科技发展有限公司 | 基于传感器监测技术的工业装备异常状态检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Clustering with outlier removal | |
Chen et al. | A fast clustering algorithm based on pruning unnecessary distance computations in DBSCAN for high-dimensional data | |
Aggarwal | An introduction to cluster analysis | |
Ran et al. | Comprehensive survey on hierarchical clustering algorithms and the recent developments | |
Popat et al. | Review and comparative study of clustering techniques | |
Gao et al. | Classifying data streams with skewed class distributions and concept drifts | |
Bifet et al. | New ensemble methods for evolving data streams | |
IndiraPriya et al. | A survey on different clustering algorithms in data mining technique | |
Li et al. | Local gap density for clustering high-dimensional data with varying densities | |
Yan et al. | A novel streaming data clustering algorithm based on fitness proportionate sharing | |
Cheng et al. | A local cores-based hierarchical clustering algorithm for data sets with complex structures | |
US10146835B2 (en) | Methods for stratified sampling-based query execution | |
CN106845536A (zh) | 一种基于图像缩放的并行聚类方法 | |
Benkessirat et al. | Fundamentals of feature selection: an overview and comparison | |
CN111080351A (zh) | 一种多维数据集的聚类方法及系统 | |
Hahsler et al. | Temporal structure learning for clustering massive data streams in real-time | |
Hu et al. | Parallel clustering of big data of spatio-temporal trajectory | |
CN107704872A (zh) | 一种基于相对最离散维分割的K‑means聚类初始中心选取方法 | |
Mandal et al. | Unsupervised non-redundant feature selection: a graph-theoretic approach | |
Liao et al. | Automatic density clustering with multiple kernels for high-dimension bioinformatics data | |
CN105354243B (zh) | 基于归并聚类的并行化频繁概率子图搜索方法 | |
Yu et al. | A three-way decision clustering approach for high dimensional data | |
Qi et al. | I-cfsfdp: A robust and high accuracy clustering method based on cfsfdp | |
Saha et al. | Multi-label collective classification using adaptive neighborhoods | |
CN112148929A (zh) | 基于树形网络的大数据分析方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200428 |