CN104063518A - 一种针对大数据的分解组合聚类方法 - Google Patents
一种针对大数据的分解组合聚类方法 Download PDFInfo
- Publication number
- CN104063518A CN104063518A CN201410334542.2A CN201410334542A CN104063518A CN 104063518 A CN104063518 A CN 104063518A CN 201410334542 A CN201410334542 A CN 201410334542A CN 104063518 A CN104063518 A CN 104063518A
- Authority
- CN
- China
- Prior art keywords
- data
- cluster
- clustering method
- decomposition
- data subset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2219—Large Object storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于分解组合的大数据聚类方法,将数据集进行横向切分,获得若干数据子集;再将横向数据子集进行纵向切分,获得若干纵向数据子集;然后使用基础聚类算法,获得经过横向和纵向切分后数据子集的类别标签。将若干个纵向数据子集的类别标签进行组合聚类获得横向数据子集的类别标签;再将若干个横向数据子集的类别标签再次进行组合聚类得到完整数据集的类别标签。本发明将大数据聚类问题转化为组合聚类问题,具有高效性,鲁棒性和可并行化等优点。适用于大数据聚类,特别适用在文档分类、客户分群、信息检索等领域。
Description
技术领域
本发明属于数据挖掘领域,涉及一种数据划分的聚类方法,具体的说是一种针对大数据的组合聚类方法。
背景技术
大数据给人们带来了前所未有的冲击和挑战,大数据的特点:Volume(大量)、Velocity(高速)、Variety(多样)、veracity(真实性)。如何挖掘大数据中蕴含的潜在价值信息成为工业界和学术界的热点问题。大数据具有数据量大,维度高的特点,这使得传统的数据分析方法在大数据面前束手无策,力不从心;并且大数据中存在噪声属性和噪声样本点也让挖掘大数据的内在模式难上加难。
发明内容
鉴于大数据聚类中的海量高维难题,本发明的目的是提供一种针对大数据的分解组合聚类方法,本发明采用“分解-组合”的方法,首先将大数据分别进行横向和纵向切分,得到若干数据子集,再利用快速聚类法获得数据子集的类别标签,再利用组合聚类法将若干数据子集的类别标签进行组合,得到完整的数据类别标签。
本发明的目的是通过以下技术方案来实现的:
一种针对大数据的分解组合聚类方法,其特征在于:该方法首先将大数据分解,针对每个数据子集聚类,再使用组合聚类的方法求得最后的完整类别标签,具体步骤如下:
1)对大数据的样本点进行随机抽样,得到若干横向数据子集;
进一步:将大数据D进行横向切分,获得r个数据子集Di,1≤i≤r,使得r个数据子集的全集为D,r个数据子集的样本总数为D的样本数量的5倍以上。
进一步:利用随机抽样的方式,对大数据进行横向切分,随机抽取10%的样本量获得数据子集Di,有放回的重复抽样r=100次,使得100个数据子集的全集为D。
2)对得到的横向数据子集的属性进行随机抽样,得到若干规模较小的纵向数据子集;
进一步:对每个数据子集Di进行纵向切分,获得c个数据子集Dij,1≤j≤c,使得c个数据子集的全集为Di,c个数据子集的属性总数为Di的属性数量的5倍以上。
进一步:利用随机抽样的方式,对每个数据子集Di进行纵向切分,随机抽取10%的属性获得数据子集Dij,有放回的重复抽样c=100次,使得100个数据子集Dij的全集为Di。
3)对得到的纵向数据子集,进行基础聚类,得到若干基础聚类结果;
利用K均值对每个数据集子集Dij进行聚类,得到πij;K均值算法如下,其中K均值聚类距离函数为平方欧式距离或者余弦相似度;只需要运行K均值算法一次即可:
(31)选择K个点作为初始中心;
(32)重复;
(33)将每个点指派到最近的中心,形成K个簇;
(34)重新计算每个簇的中心;
(35)直到中心不发生变化。
4)对纵向数据子集的基础聚类结果进行组合聚类,得到横向数据子集的类别标签;
进一步:利用基于K均值的一致性聚类方法对c个πij进行组合聚类,得到πi作为Di的类别标签。
利用基于K均值的组合聚类方法对100个πij,1≤j≤c进行组合聚类,得到πi作为Di的类别标签;基于K均值的组合聚类方法如下:
(41)将100个基础聚类结果πij,转化为0-1矩阵,其转换方式如下:
用表示由上述基础聚类结果得到的0-1二元矩阵,ni为Di样本个数,其生成方式如下所示:
其中
因此,是一个的矩阵,其中Ki为的πij簇个数,并且
(42)选择组合聚类效用函数U,并从中分解
如果效用函数U可以进行如下所示的分解,则可利用基于快速一致性聚类的框架进行求解;
其中,pk表示第k个类占所有数据的比例,mk,j表示πij的第k个类的中心,且上式中为凸函数;
(43)基于生成快速聚类法的距离函数,利用K均值聚类法的距离范式,
其中
经验结果表明,基于熵的效用函数收敛速度快,并且还能够得到较好的聚类结果,其表达式如下
其对应的K均值距离函数为加和的KL散度,形式如下:
(44)最后利用K均值聚类算法,在0-1矩阵上运用聚类函数f进行组合聚类,得到数据子集Di的类别标签πi。
5)将未出现在横向数据子集的数据点的类别标签标记为0;
6)对横向数据子集的类别标签进行组合聚类,得到整个数据集的类别标签;
进一步:利用基于K均值的一致性聚类方法对r个πi进行组合聚类,得到π作为D的类别标签,方法与步骤4)相同。
7)模式输出,得到完整数据集的类别标签,完成大数据的分解组合聚类。
本发明旨在解决大数据的聚类问题,使用“分解-组合”的思想,将大数据进行切分,得到规模较小的数据子集,再利用快速聚类算法,如K均值,得到数据子集的类别标签,再使用组合聚类算法对数据子集的类别标签进行融合,最终得到完整数据的类别标签。本发明通过“分解-组合”不仅能够克服大数据的海量高维等难点,并且通过随机抽样的方式还能够抵抗噪声属性和噪声样本对聚类结果带来的影响。本发明具有高效性,鲁棒性和易于并行化等优点。
本发明适用于大数据聚类,特别适用在文档分类、客户分群、信息检索等领域。
附图说明
图1为本发明的整体框架图。
具体实施方式
一种针对大数据的分解组合聚类方法,首先对大数据进行横纵切分;然后,获得每个数据子集的类别标签,再使用组合聚类方法获得整个数据集的类别标签。具体实施步骤如下:
1)横向切分。利用随机抽样的方式,对大数据进行横向切分,即随机抽取10%的样本量获得数据子集Di,有放回的重复抽样r=100次,使得100个数据子集的全集为D。
2)纵向切分。利用随机抽样的方式,对每个数据子集Di进行纵向切分,即随机抽取10%的属性获得数据子集Dij,有放回的重复抽样c=100次,使得100个数据子集Dij的全集为Di。
3)获得数据子集的类别标签。利用K均值对每个数据集子集Dij划分成K个簇,得到πij。其中K均值聚类距离函数为平方欧式距离或者余弦相似度;因为要获得具有丰富多样性的基础聚类结果,只需要运行K均值算法一次即可,K均值算法如下:
(31)选择K个点作为初始中心;
(32)重复;
(33)将每个点指派到最近的中心,形成K个簇;
(34)重新计算每个簇的中心;
(35)直到中心不发生变化。
4)利用基于K均值的组合聚类方法对100个πij,1≤j≤c进行组合聚类,得到πi作为Di的类别标签。下面介绍基于K均值的组合聚类方法的步骤:
(41)将100个基础聚类结果πij,转化为0-1矩阵,其转换方式如下:
用表示由上述基础聚类结果得到的0-1二元矩阵,ni为Di样本个数,其生成方式如下所示:
其中
因此,是一个的矩阵,其中Ki为的πij簇个数,并且
(42)选择组合聚类效用函数U,并从中分解
如果效用函数U可以进行如下所示的分解,则可利用基于快速一致性聚类的框架进行求解。
其中,pk表示第k个类占所有数据的比例,mk,j表示πij的第k个类的中心,且上式中为凸函数。
(43)基于生成快速聚类法的距离函数。利用K均值聚类法的距离范式,
其中
经验结果表明,基于熵的效用函数收敛速度快,并且还能够得到较好的聚类结果,其表达式如下
其对应的K均值距离函数为加和的KL散度,形式如下:
(44)最后利用K均值聚类算法,在0-1矩阵上运用聚类函数f进行组合聚类,得到数据子集Di的类别标签πi。
5)将未出现在Di数据子集的样本点的标签标记为0,并更新πi。
6)再次利用组合聚类算法,基于K均值的组合聚类方法对100个πi进行组合聚类,其过程与步骤4)类似。
7)模式输出,得到完整数据集的类别标签,完成大数据的“分解-组合”聚类。
本发明采用“分解-组合”的方法,首先将大数据分别进行横向和纵向切分,得到若干数据子集,再利用快速聚类法获得数据子集的类别标签,再利用组合聚类法将若干数据子集的类别标签进行组合,得到完整的数据类别标签,具有高效性,鲁棒性和易于并行化等优点。
Claims (9)
1.一种针对大数据的分解组合聚类方法,其特征在于:该方法首先将大数据分解,针对每个数据子集聚类,再使用组合聚类的方法求得最后的完整类别标签,具体步骤如下:
1)对大数据的样本点进行随机抽样,得到若干横向数据子集;
2)对得到的横向数据子集的属性进行随机抽样,得到若干规模较小的纵向数据子集;
3)对得到的纵向数据子集,进行基础聚类,得到若干基础聚类结果;
4)对纵向数据子集的基础聚类结果进行组合聚类,得到横向数据子集的类别标签;
5)将未出现在横向数据子集的数据点的类别标签标记为0;
6)对横向数据子集的类别标签进行组合聚类,得到整个数据集的类别标签;
7)模式输出,得到完整数据集的类别标签,完成大数据的分解组合聚类。
2.根据权利要求1所述的针对大数据的分解组合聚类方法,其特征在于:步骤1)中,将大数据D进行横向切分,获得r个数据子集Di,1≤i≤r,使得r个数据子集的全集为D,r个数据子集的样本总数为D的样本数量的5倍以上。
3.根据权利要求2所述的针对大数据的分解组合聚类方法,其特征在于:利用随机抽样的方式,对大数据进行横向切分,随机抽取10%的样本量获得数据子集Di,有放回的重复抽样r=100次,使得100个数据子集的全集为D。
4.根据权利要求1所述的针对大数据的分解组合聚类方法,其特征在于:步骤2)中,对每个数据子集Di进行纵向切分,获得c个数据子集Dij,1≤j≤c,使得c个数据子集的全集为Di,c个数据子集的属性总数为Di的属性数量的5倍以上。
5.根据权利要求4所述的针对大数据的分解组合聚类方法,其特征在于:利用随机抽样的方式,对每个数据子集Di进行纵向切分,随机抽取10%的属性获得数据子集Dij,有放回的重复抽样c=100次,使得100个数据子集Dij的全集为Di。
6.根据权利要求1所述的针对大数据的分解组合聚类方法,其特征在于:步骤3)中,利用K均值对每个数据集子集Dij进行聚类,得到πij;K均值算法如下,其中K均值聚类距离函数为平方欧式距离或者余弦相似度;只需要运行K均值算法一次即可:
(31)选择K个点作为初始中心;
(32)重复;
(33)将每个点指派到最近的中心,形成K个簇;
(34)重新计算每个簇的中心;
(35)直到中心不发生变化。
7.根据权利要求1所述的针对大数据的分解组合聚类方法,其特征在于:步骤4)中,利用基于K均值的一致性聚类方法对c个πij进行组合聚类,得到πi作为Di的类别标签。
8.根据权利要求7所述的针对大数据的分解组合聚类方法,其特征在于:利用基于K均值的组合聚类方法对100个πij,1≤j≤c进行组合聚类,得到πi作为Di的类别标签;基于K均值的组合聚类方法如下:
(41)将100个基础聚类结果πij,转化为0-1矩阵,其转换方式如下:
用表示由上述基础聚类结果得到的0-1二元矩阵,ni为Di样本个数,其生成方式如下所示:
其中
因此,是一个的矩阵,其中Ki为的πij簇个数,并且
(42)选择组合聚类效用函数U,并从中分解
如果效用函数U可以进行如下所示的分解,则可利用基于快速一致性聚类的框架进行求解;
其中,pk表示第k个类占所有数据的比例,mk,j表示πij的第k个类的中心,且上式中为凸函数;
(43)基于生成快速聚类法的距离函数,利用K均值聚类法的距离范式,
其中
经验结果表明,基于熵的效用函数收敛速度快,并且还能够得到较好的聚类结果,其表达式如下:
其对应的K均值距离函数为加和的KL散度,形式如下:
(44)最后利用K均值聚类算法,在0-1矩阵上运用聚类函数f进行组合聚类,得到数据子集Di的类别标签πi。
9.根据权利要求1所述的针对大数据的分解组合聚类方法,其特征在于:步骤6)中,利用基于K均值的一致性聚类方法对r个πi进行组合聚类,得到π作为D的类别标签,方法与步骤4)相同。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410334542.2A CN104063518B (zh) | 2014-07-14 | 2014-07-14 | 一种针对大数据的分解组合聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410334542.2A CN104063518B (zh) | 2014-07-14 | 2014-07-14 | 一种针对大数据的分解组合聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104063518A true CN104063518A (zh) | 2014-09-24 |
CN104063518B CN104063518B (zh) | 2017-06-09 |
Family
ID=51551232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410334542.2A Active CN104063518B (zh) | 2014-07-14 | 2014-07-14 | 一种针对大数据的分解组合聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104063518B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106157083A (zh) * | 2015-04-14 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 挖掘潜在客户的方法和装置 |
CN107423764A (zh) * | 2017-07-26 | 2017-12-01 | 西安交通大学 | 基于NSS‑AKmeans和MapReduce处理大数据的K‑Means聚类方法 |
CN108280224A (zh) * | 2018-02-09 | 2018-07-13 | 平安科技(深圳)有限公司 | 万级维度数据生成方法、装置、设备以及存储介质 |
CN109145934A (zh) * | 2017-12-22 | 2019-01-04 | 北京数安鑫云信息技术有限公司 | 基于日志的用户行为数据处理方法、介质、设备及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020031254A1 (en) * | 1996-08-12 | 2002-03-14 | Battelle Memorial Institute | Three-dimensional display of document set |
US20110026841A1 (en) * | 2009-08-03 | 2011-02-03 | Canon Kabushiki Kaisha | Clustering processing method, clustering processing apparatus, and non-transitory computer-readable medium |
CN102243641A (zh) * | 2011-04-29 | 2011-11-16 | 西安交通大学 | 大规模数据的高效聚类方法 |
US20130325861A1 (en) * | 2012-05-31 | 2013-12-05 | International Business Machines Corporation | Data Clustering for Multi-Layer Social Link Analysis |
CN103744962A (zh) * | 2014-01-06 | 2014-04-23 | 浪潮(北京)电子信息产业有限公司 | 一种实现K-means聚类的方法及装置 |
CN103902689A (zh) * | 2014-03-26 | 2014-07-02 | 小米科技有限责任公司 | 聚类方法、增量聚类方法及相关装置 |
-
2014
- 2014-07-14 CN CN201410334542.2A patent/CN104063518B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020031254A1 (en) * | 1996-08-12 | 2002-03-14 | Battelle Memorial Institute | Three-dimensional display of document set |
US20110026841A1 (en) * | 2009-08-03 | 2011-02-03 | Canon Kabushiki Kaisha | Clustering processing method, clustering processing apparatus, and non-transitory computer-readable medium |
CN102243641A (zh) * | 2011-04-29 | 2011-11-16 | 西安交通大学 | 大规模数据的高效聚类方法 |
US20130325861A1 (en) * | 2012-05-31 | 2013-12-05 | International Business Machines Corporation | Data Clustering for Multi-Layer Social Link Analysis |
CN103744962A (zh) * | 2014-01-06 | 2014-04-23 | 浪潮(北京)电子信息产业有限公司 | 一种实现K-means聚类的方法及装置 |
CN103902689A (zh) * | 2014-03-26 | 2014-07-02 | 小米科技有限责任公司 | 聚类方法、增量聚类方法及相关装置 |
Non-Patent Citations (4)
Title |
---|
AMINEH AMINI: "On Density-Based Data Streams Clustering Algorithms:A Survey", 《COMPUTER SCIENCE AND TECHNOLOGY》 * |
JUNJIE WU等: "A theoretic framework of K-means-based consensus clustering", 《INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE》 * |
赵妍等: "基于CURE的用户聚类算法研究", 《计算机工程与应用》 * |
魏桂英等: "层次聚类方法的CURE算法研究", 《科技和产业》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106157083A (zh) * | 2015-04-14 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 挖掘潜在客户的方法和装置 |
CN107423764A (zh) * | 2017-07-26 | 2017-12-01 | 西安交通大学 | 基于NSS‑AKmeans和MapReduce处理大数据的K‑Means聚类方法 |
CN109145934A (zh) * | 2017-12-22 | 2019-01-04 | 北京数安鑫云信息技术有限公司 | 基于日志的用户行为数据处理方法、介质、设备及装置 |
CN108280224A (zh) * | 2018-02-09 | 2018-07-13 | 平安科技(深圳)有限公司 | 万级维度数据生成方法、装置、设备以及存储介质 |
WO2019153546A1 (zh) * | 2018-02-09 | 2019-08-15 | 平安科技(深圳)有限公司 | 万级维度数据生成方法、装置、设备以及存储介质 |
CN108280224B (zh) * | 2018-02-09 | 2019-09-10 | 平安科技(深圳)有限公司 | 万级维度数据生成方法、装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104063518B (zh) | 2017-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107590250A (zh) | 一种时空轨迹生成方法及装置 | |
CN103049581B (zh) | 一种基于一致性聚类的Web文本分类方法 | |
CN101763516B (zh) | 一种基于拟合函数的文字识别方法 | |
CN104063518A (zh) | 一种针对大数据的分解组合聚类方法 | |
CN103744935B (zh) | 一种计算机快速海量数据聚类处理方法 | |
CN103617157A (zh) | 基于语义的文本相似度计算方法 | |
CN103401562B (zh) | 一种无损json数据压缩方法 | |
CN104751148A (zh) | 一种版式文件中识别科学公式的方法 | |
Accardi et al. | On Quantum Markov Chains on Cayley tree I: uniqueness of the associated chain with XY-model on the Cayley tree of order two | |
CN102591612A (zh) | 一种基于标点连续性的通用网页正文提取方法及其系统 | |
CN106601235A (zh) | 一种半监督多任务特征选择的语音识别方法 | |
CN103235947A (zh) | 一种手写体数字识别方法及装置 | |
CN104850859A (zh) | 一种基于多尺度分析的图像特征包构建方法 | |
CN104317946A (zh) | 一种基于多张关键图的图像内容检索方法 | |
CN103116636B (zh) | 基于特征空间分解的文本大数据主题挖掘方法和装置 | |
CN103886072A (zh) | 煤矿搜索引擎中检索结果聚类系统 | |
CN103177105A (zh) | 一种图像检索方法及装置 | |
CN105095864B (zh) | 基于深度学习二维主成分分析网络的极光图像检测方法 | |
CN105224962A (zh) | 一种相似车牌提取方法及装置 | |
CN102945550A (zh) | 一种基于高斯尺度空间构建遥感影像语义的方法 | |
CN1604075A (zh) | 一种对报纸版面进行文字阅读顺序恢复的方法 | |
CN102034102B (zh) | 图像显著对象提取方法、互补显著度图学习方法及系统 | |
CN102799891A (zh) | 基于地标点表示的谱聚类方法 | |
CN103310216B (zh) | 基于保内积降维技术的模式识别方法 | |
CN105447142A (zh) | 一种双模式农业科技成果分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20211217 Address after: 519000 room 2-905, No. 2133, Yuehai Middle Road, Xiangzhou District, Zhuhai City, Guangdong Province Patentee after: Guangdong Weishen Information Technology Co.,Ltd. Address before: 210000 room 222, science and innovation base, No. 12, Xingke Road, Nanjing Economic and Technological Development Zone, Jiangsu Province Patentee before: NANJING HONGSHU INFORMATION TECHNOLOGY CO.,LTD. |
|
TR01 | Transfer of patent right |