CN103744935A - 一种计算机快速海量数据聚类处理方法 - Google Patents
一种计算机快速海量数据聚类处理方法 Download PDFInfo
- Publication number
- CN103744935A CN103744935A CN201310748302.2A CN201310748302A CN103744935A CN 103744935 A CN103744935 A CN 103744935A CN 201310748302 A CN201310748302 A CN 201310748302A CN 103744935 A CN103744935 A CN 103744935A
- Authority
- CN
- China
- Prior art keywords
- data object
- data
- group
- objects
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种计算机快速海量数据聚类处理方法,所述方法首先对待分析数据对象进行预处理,完成数据对象的分组,然后计算组内数据对象的相似度矩阵,并依据相似度大小合并生成新数据对象,记录合并生成过程同时删除旧数据对象,如此反复操作直至数据对象的数目等于用户期待的聚类分类数,最后通过查询合并记录获取聚类处理结果。本方法一次执行过程可直接获得任意聚类数的各个子类数据对象的具体构成、子类数据对象数目及其质心,并可查询得到各个子类内部数据对象分布概况与及其特征,极大地方便了海量数据的快速有效处理。
Description
技术领域
本发明涉及一种具有数据概况分析能力的快速海量数据分析方法,属数据处理技术领域。
背景技术
计算机在对数据进行处理时,为提高处理速度,需要对海量数据进行聚类。所述聚类是按照数据本身的相似性(一般为距离准则,距离越小、相似度越大)把一个数据集分割成不同的类或簇,使类内数据对象的相似性尽可能大,同时类间数据对象的差异性也尽可能的大。聚类处理能够帮助人们发现隐藏在海量数据背后的潜在规律,对于信息处理和知识发现具有重要的意义,在数据挖掘、机器学习、模式识别、统计学和生物学等许多领域得到了广泛的应用。
聚类处理种类繁多,但效果较好的聚类方法大都计算复杂,速度较慢,无法满足计算机大规模数据的快速聚类处理需求,此外,缺乏对数据概况的分析能力,也是现有聚类方法在计算机进行处理时普遍存在的一个缺陷。
发明内容
本发明的目的在于针对现有技术之弊端,提供一种具有数据概况分析能力的快速海量数据聚类方法,以解决计算机对大量数据进行聚类处理时的效率和聚类数据概况分析问题。
本发明所述问题是以下述技术方案实现的:
一种计算机快速海量数据聚类处理方法,所述方法以计算机作为数据处理、存储的工具,处理时,计算机首先对待分析数据对象进行预处理,完成数据对象的分组,然后计算组内数据对象的相似度矩阵,并依据相似度大小合并生成新数据对象,记录合并生成过程同时删除旧数据对象,如此反复操作直至数据对象的数目等于用户期待的聚类分类数,最后通过查询合并记录获取聚类处理结果,所述方法包括以下步骤:
a.数据对象预处理
对所有待分析数据对象(数目为 )进行预处理,预处理的具体方法是:对于任一给定数据维度是的待聚类数据对象添加2个数值型属性值和,其中是该数据对象的唯一标识,其取值为自然数,数值大小依据预处理顺序自1开始,依次递增1到;是该待聚类数据对象的权重,其值均设定为1;
c.数据对象分组
f.重复上述步骤d、步骤e,直至每组内数据对象数目减少一半,也即数据对象总数目减少一半;
h、将剩余所有数据对象作为一组,重复执行上述步骤d、步骤e,直至组内只剩1个数据对象;
本发明通过对数据进行分组,有效降低了计算复杂度;新数据对象的合并生成方法选择2个相似度最大的数据对象进行合并,并有效记忆了这2个原有数据对象的信息;记录合并生成过程为聚类和数据概况分析提供了简洁、良好的结构。本方法一次执行过程可直接获得任意聚类数的各个子类数据对象的具体构成、子类数据对象数目及其质心,并可查询得到各个子类内部数据对象分布概况与及其特征,极大地方便了海量数据的快速有效处理。本发明方法计算简便、数据概况分析能力强,适于海量数据的快速聚类处理,可广泛应用于各种聚类处理工作中。
附图说明
下面结合附图对本发明作进一步说明。
图1是本发明的流程图。
具体实施方式
本发明目的在于提供一种具有数据概况分析能力的计算机快速海量数据聚类处理方法,所述方法对于数目为的待聚类数据对象,经过次合并计算,即可获取任意聚类数的聚类结果,并可得出各个子类的所含数据对象的具体构成及子类的质心(即所含数据对象属性值的算数平均值),具有计算速度快、数据分析能力强的特点。
为达到上述目的,本发明采用的技术方案包括以下步骤:
步骤1、数据对象预处理。对所有待分析数据对象(数目为)进行预处理,预处理的具体方法是:对于任一给定数据维度是的待聚类数据对象添加2个数值型属性值、和。其中是该数据对象的唯一标识,其取值为自然数,数值大小依据预处理顺序自1开始,依次递增1到;是该待聚类数据对象的权重,其值均设定为1;
步骤5、依据相似度矩阵,选择组内当前相似度最大的两个数据对象和数据对象(若非唯一,则任选其一)合并生成新数据对象,从本组中删除数据对象和数据对象;在数组中保存合并生成记录,如此操作使组内数据对象数目减少1;
步骤6、重复上述步骤4、步骤5,直至每组内数据对象数目减少一半,也即数据对象总数目减少一半;
步骤8、将剩余所有数据对象作为一组,重复执行上述步骤4、步骤5,直至组内只剩1个数据对象,该数据对象的属性值即为所有待分析数据对象属性值的算数平均值,其权重即为待分析数据对象的数目;
步骤9、查询中的查询合并记录,获取聚类处理结果。中最后一条记录表明了将所有聚类数据划分为2类的结果,包含2个子类数据对象的属性值的算数平均值和类内对象数目。同理推出,查询中的合并记录以获得任意聚类数的聚类结果,并可得出各个子类的所含具体数据对象及各个子类的质心(所含数据对象属性值的算数平均值)。
(2)
上述步骤5中,所述在中保存合并生成记录的具体方法是:在的第1个取值全0的行(记为第行)的第一列赋值为,即令,其后各列依次记录数据对象和数据对象。显然,对于中的任一行记录,表明了唯一标识为的数据对象由唯一标识分别为和的两个数据对象合并生成,且这两个数据对象相似度高,可作为一个子类,其质心即为数据对象唯一标识为的属性值。
Claims (3)
1.一种计算机快速海量数据聚类处理方法,其特征是,所述方法以计算机作为数据处理、存储的工具,处理时,计算机首先对待分析数据对象进行预处理,完成数据对象的分组,然后计算组内数据对象的相似度矩阵,并依据相似度大小合并生成新数据对象,记录合并生成过程同时删除旧数据对象,如此反复操作直至数据对象的数目等于用户期待的聚类分类数,最后通过查询合并记录获取聚类处理结果,所述方法包括以下步骤:
a.数据对象预处理
对所有数目为 的待分析数据对象进行预处理,预处理的具体方法是:对于任一给定数据维度是的待聚类数据对象添加2个数值型属性值和,其中是该数据对象的唯一标识,其取值为自然数,数值大小依据预处理顺序自1开始,依次递增1到;是该待聚类数据对象的权重,其值均设定为1;
c.数据对象分组
f.重复上述步骤d、步骤e,直至每组内数据对象数目减少一半,也即数据对象总数目减少一半;
h、将剩余所有数据对象作为一组,重复执行上述步骤d、步骤e,直至组内只剩1个数据对象;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310748302.2A CN103744935B (zh) | 2013-12-31 | 2013-12-31 | 一种计算机快速海量数据聚类处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310748302.2A CN103744935B (zh) | 2013-12-31 | 2013-12-31 | 一种计算机快速海量数据聚类处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103744935A true CN103744935A (zh) | 2014-04-23 |
CN103744935B CN103744935B (zh) | 2017-06-06 |
Family
ID=50501953
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310748302.2A Expired - Fee Related CN103744935B (zh) | 2013-12-31 | 2013-12-31 | 一种计算机快速海量数据聚类处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103744935B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104143137A (zh) * | 2014-07-29 | 2014-11-12 | 青岛海信医疗设备股份有限公司 | 医疗冷柜系统中样品的存储方法 |
CN104462585A (zh) * | 2014-12-29 | 2015-03-25 | 芜湖乐锐思信息咨询有限公司 | 一种大数据分类系统 |
WO2016061911A1 (zh) * | 2014-10-20 | 2016-04-28 | 浪潮电子信息产业股份有限公司 | 一种基于mic实现聚类算法的方法及装置 |
CN106650948A (zh) * | 2016-12-09 | 2017-05-10 | 曙光信息产业(北京)有限公司 | 一种机器学习中避免大数据冗余的方法 |
CN107784015A (zh) * | 2016-08-30 | 2018-03-09 | 中国电力科学研究院 | 一种基于电力系统在线历史数据的数据约简方法 |
CN108268620A (zh) * | 2018-01-08 | 2018-07-10 | 南京邮电大学 | 一种基于hadoop数据挖掘的文档分类方法 |
CN110516713A (zh) * | 2019-08-02 | 2019-11-29 | 阿里巴巴集团控股有限公司 | 一种目标群体识别方法、装置及设备 |
CN110659290A (zh) * | 2019-09-20 | 2020-01-07 | 北京中科寒武纪科技有限公司 | 数据处理方法及装置以及相关产品 |
CN110679114A (zh) * | 2017-05-24 | 2020-01-10 | 国际商业机器公司 | 一种估计数据对象可删除性的方法 |
CN110781247A (zh) * | 2019-09-23 | 2020-02-11 | 华为技术有限公司 | 向量聚类方法、装置及存储介质 |
CN110928957A (zh) * | 2018-09-20 | 2020-03-27 | 阿里巴巴集团控股有限公司 | 数据聚类方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101989289A (zh) * | 2009-08-06 | 2011-03-23 | 富士通株式会社 | 数据聚类方法和装置 |
CN103136337A (zh) * | 2013-02-01 | 2013-06-05 | 北京邮电大学 | 用于复杂网络的分布式知识数据挖掘装置和挖掘方法 |
-
2013
- 2013-12-31 CN CN201310748302.2A patent/CN103744935B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101989289A (zh) * | 2009-08-06 | 2011-03-23 | 富士通株式会社 | 数据聚类方法和装置 |
CN103136337A (zh) * | 2013-02-01 | 2013-06-05 | 北京邮电大学 | 用于复杂网络的分布式知识数据挖掘装置和挖掘方法 |
Non-Patent Citations (3)
Title |
---|
姚清耕: "基于向量空间模型的中文文本聚类方法的研究", 《中国优秀硕士学位论文数据库信息科技辑》 * |
王振宇等: "基于多向量和二次聚类的话题检测", 《计算机工程与设计》 * |
陈安等: "电子商务中交易数据库的二次聚类算法", 《计算机科学》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104143137A (zh) * | 2014-07-29 | 2014-11-12 | 青岛海信医疗设备股份有限公司 | 医疗冷柜系统中样品的存储方法 |
CN104143137B (zh) * | 2014-07-29 | 2017-07-07 | 青岛海信医疗设备股份有限公司 | 医疗冷柜系统中样品的存储方法 |
WO2016061911A1 (zh) * | 2014-10-20 | 2016-04-28 | 浪潮电子信息产业股份有限公司 | 一种基于mic实现聚类算法的方法及装置 |
CN104462585A (zh) * | 2014-12-29 | 2015-03-25 | 芜湖乐锐思信息咨询有限公司 | 一种大数据分类系统 |
CN107784015A (zh) * | 2016-08-30 | 2018-03-09 | 中国电力科学研究院 | 一种基于电力系统在线历史数据的数据约简方法 |
CN106650948A (zh) * | 2016-12-09 | 2017-05-10 | 曙光信息产业(北京)有限公司 | 一种机器学习中避免大数据冗余的方法 |
CN110679114A (zh) * | 2017-05-24 | 2020-01-10 | 国际商业机器公司 | 一种估计数据对象可删除性的方法 |
CN110679114B (zh) * | 2017-05-24 | 2021-08-06 | 国际商业机器公司 | 一种估计数据对象可删除性的方法 |
CN108268620A (zh) * | 2018-01-08 | 2018-07-10 | 南京邮电大学 | 一种基于hadoop数据挖掘的文档分类方法 |
CN110928957A (zh) * | 2018-09-20 | 2020-03-27 | 阿里巴巴集团控股有限公司 | 数据聚类方法及装置 |
CN110516713A (zh) * | 2019-08-02 | 2019-11-29 | 阿里巴巴集团控股有限公司 | 一种目标群体识别方法、装置及设备 |
CN110659290A (zh) * | 2019-09-20 | 2020-01-07 | 北京中科寒武纪科技有限公司 | 数据处理方法及装置以及相关产品 |
CN110781247A (zh) * | 2019-09-23 | 2020-02-11 | 华为技术有限公司 | 向量聚类方法、装置及存储介质 |
CN110781247B (zh) * | 2019-09-23 | 2021-11-26 | 华为技术有限公司 | 向量聚类方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN103744935B (zh) | 2017-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103744935A (zh) | 一种计算机快速海量数据聚类处理方法 | |
Zhang et al. | Shellnet: Efficient point cloud convolutional neural networks using concentric shells statistics | |
Markonis et al. | Using MapReduce for large-scale medical image analysis | |
CN110472652B (zh) | 基于语义引导的少量样本分类方法 | |
Kumar et al. | Canopy clustering: a review on pre-clustering approach to K-Means clustering | |
CN106778079A (zh) | 一种基于MapReduce的DNA序列k‑mer频次统计方法 | |
Nasridinov et al. | Decision tree construction on GPU: ubiquitous parallel computing approach | |
CN104020983A (zh) | 一种基于OpenCL的KNN-GPU加速方法 | |
CN102243641A (zh) | 大规模数据的高效聚类方法 | |
CN105320764A (zh) | 一种基于增量慢特征的3d模型检索方法及其检索装置 | |
CN104182571A (zh) | 基于Delaunay和GPU的Kriging插值方法 | |
CN103198489B (zh) | 基于显著性密度与边缘响应的显著物体自动检测方法 | |
Hu et al. | Parallel clustering of big data of spatio-temporal trajectory | |
Li et al. | A new extracting algorithm of k nearest neighbors searching for point clouds | |
CN104182208A (zh) | 利用破解规则破解密码的方法及系统 | |
CN105760478A (zh) | 一种基于机器学习的大规模分布式的数据聚类方法 | |
CN109145111B (zh) | 一种基于机器学习的多特征文本数据相似度计算方法 | |
CN108805886B (zh) | 一种多融合物理签名的持久性聚类分割方法 | |
CN111062418A (zh) | 一种基于最小生成树的无参数化聚类算法及系统 | |
CN109740421A (zh) | 一种基于形状的零件分类方法 | |
AU2020103440A4 (en) | A method for optimizing the convergence performance of data learning with minimal computational steps | |
Gandhi et al. | Analysis and implementation of modified K-medoids algorithm to increase scalability and efficiency for large dataset | |
CN113313213A (zh) | 一种加速目标检测算法训练的数据集处理方法 | |
CN108090514B (zh) | 基于两阶段密度聚类的红外图像识别方法 | |
CN106354784A (zh) | 基于降维分组的大数据聚类优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170606 Termination date: 20211231 |
|
CF01 | Termination of patent right due to non-payment of annual fee |