CN108717444A - 一种基于分布式结构的大数据聚类方法和装置 - Google Patents
一种基于分布式结构的大数据聚类方法和装置 Download PDFInfo
- Publication number
- CN108717444A CN108717444A CN201810471647.0A CN201810471647A CN108717444A CN 108717444 A CN108717444 A CN 108717444A CN 201810471647 A CN201810471647 A CN 201810471647A CN 108717444 A CN108717444 A CN 108717444A
- Authority
- CN
- China
- Prior art keywords
- cluster
- data
- big data
- module
- mean value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了数据挖掘技术领域的一种基于分布式结构的大数据聚类方法和装置,该方法的具体步骤如下:S1:从n个数据对象中任意选择k个对象作为初始聚类中心;S2:根据每个聚类对象的均值(中心对象),计算每个对象和这些中心对象的距离,并根据最小距离重新对相应的对象归属进行划分;S3:计算每个有变化聚类的均值;S4:重复步骤S2和S3,直到每个聚类不再发生变化为止,本发明将大数据分为几个子集,每个子集包含较少的数据,并针对这些子集进行同时聚类,能够极大提高对大数据聚类的速度。
Description
技术领域
本发明公开了一种基于分布式结构的大数据聚类方法和装置,具体为数据挖掘技术领域。
背景技术
半个世纪以来,随着计算机全面融入社会生活,信息爆炸已经累积到一个开始变革的程度。大数据既是数据量的一个激增,同时也是数据复杂性的提升。大数据可以说是量累积到一定程度后形成的规模化质变。大数据的类型丰富多彩,既有像原有的数据库数据等结构信息,又有文本、视频等非结构化信息,而且数据的采集和处理速度要求也越来越快。
面对大数据的汹涌来袭,传统的数据处理方式显得越来越困难,由于技术手段的限制,不能充分利用所有数据,受限于分析能力而无法获取复杂问题的答案,因为时限要求不得不采用某项简单的建模技术,因为没有足够的时间运算,从而对模型的精度问题加以妥协。为此,我们提出了一种基于分布式结构的大数据聚类方法和装置投入使用,以解决上述问题。
发明内容
本发明的目的在于提供一种基于分布式结构的大数据聚类方法和装置,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于分布式结构的大数据聚类方法,该方法的具体步骤如下:
S1:从n个数据对象中任意选择k个对象作为初始聚类中心;
S2:根据每个聚类对象的均值(中心对象),计算每个对象和这些中心对象的距离,并根据最小距离重新对相应的对象归属进行划分;
S3:计算每个有变化聚类的均值;
S4:重复步骤S2和S3,直到每个聚类不再发生变化为止。
优选的,所述步骤S2中,计算每个对象和这些中心对象的距离的流程为:首先对步骤S1中剩余的其他对象,根据其与这个k个聚类中心的相似度,分别将它们分配给与其最相似聚类,然后再计算每个所获新聚类的聚类中心,即该聚类中所有对象的均值,不断重复这一过程直到标准测度函数收敛,一般采用均方差作为标准测度函数,具体为:其中E为数据集中所有对象与相应聚类中心的均方差之和,p为代表对象的空间中的一个点,mi为聚类Ci的均值。
优选的,所述步骤S2中,在重新对相应的对象归属进行划分时,具体的算法过程如下:
S21:给定数据集A={a1,a2,…,an};
S22:将数据集A分为若干个子集,A1,A2,…Ap;
S23:对子集A1,A2,…Ap同时进行聚类,分别得到聚类中心数为m1,m2,…mp;
S24:if|m1+m2+…+mp|≥n0,其中n0为问题规模的阈值,将m1+m2+…+mp个聚类中心看成集合A,并将m1+m2+…+mp个数据进行一次性聚类;
S25:聚类结束后,if聚类中心X1和X2聚为一类,而在步骤S23结束后C1和C2分别是以X1和X2为聚类中心的类,将其合并为一类。
优选的,所述步骤S3中,将每个有变化的聚类均值定义为一组密度连接的数据点集,其具体为:
S31:一个给定数据对象的ε半径内的区域成为该数据对象的ε-近邻;
S32:若一个数据对象的ε-近邻至少包含指定数目的(MinPts)对象,该数据对象就称为核心对象;
S33:给定数据对象集Di,若对象数据p为另一组对象q的ε-近邻且q为核心对象,就称p是从q直接密度可达的;
S34:对于给定的ε,若在数据集D中,有一系列数据对象p1,p2……,pn,其中p1=q,pn=p,从而使得pi+1是从pi直接密度可达的,则称p是从q密度可达的;
S35:对给定的ε和MinPts,若存在一个数据对象o(o∈D),使得对象p和q都是从o密度可达的,则对象p和q为密度连接。
优选的,一种基于分布式结构的大数据聚类装置,包括对象选择模块、距离计算模块、归属划分模块、均值聚类模块以及结果输出模块;
所述对象选择模块用于从大数据中选择对象作为初始聚类中心,由所述距离计算模块根据所述对象选择模块选择的聚类中心计算给个聚类对象的均值,利用所述归属划分模块针对每个对象和均值对象之间的距离,对相应的对象进行归属划分,通过所述均值聚类模块计算每个有变化的聚类均值,其计算结果由所述结果输出模块进行输出。
与现有技术相比,本发明的有益效果是:本发明将大数据分为几个子集,每个子集包含较少的数据,并针对这些子集进行同时聚类,能够极大提高对大数据聚类的速度,同时能够对数据集进行预处理,并在每次迭代中对每个数据点的归属进行预判,以提高算法的执行效率,本发明能够对数据集进行垂直划分,并分布到每个子集中,对数据子集作局部聚类分析,并对各局部聚类信息进行合并处理,得到全局聚类结果。
附图说明
图1为本发明工作流程图;
图2为本发明系统原理框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2,本发明提供一种技术方案:一种基于分布式结构的大数据聚类方法,该方法的具体步骤如下:
S1:从n个数据对象中任意选择k个对象作为初始聚类中心;
S2:根据每个聚类对象的均值(中心对象),计算每个对象和这些中心对象的距离,并根据最小距离重新对相应的对象归属进行划分,计算每个对象和这些中心对象的距离的流程为:首先对步骤S1中剩余的其他对象,根据其与这个k个聚类中心的相似度,分别将它们分配给与其最相似聚类,然后再计算每个所获新聚类的聚类中心,即该聚类中所有对象的均值,不断重复这一过程直到标准测度函数收敛,一般采用均方差作为标准测度函数,具体为:其中E为数据集中所有对象与相应聚类中心的均方差之和,p为代表对象的空间中的一个点,mi为聚类Ci的均值,在重新对相应的对象归属进行划分时,具体的算法过程如下:
S21:给定数据集A={a1,a2,…,an};
S22:将数据集A分为若干个子集,A1,A2,…Ap;
S23:对子集A1,A2,…Ap同时进行聚类,分别得到聚类中心数为m1,m2,…mp;
S24:if|m1+m2+…+mp|≥n0,其中n0为问题规模的阈值,将m1+m2+…+mp个聚类中心看成集合A,并将m1+m2+…+mp个数据进行一次性聚类;
S25:聚类结束后,if聚类中心X1和X2聚为一类,而在步骤S23结束后C1和C2分别是以X1和X2为聚类中心的类,将其合并为一类;
S3:计算每个有变化聚类的均值,将每个有变化的聚类均值定义为一组密度连接的数据点集,其具体为:
S31:一个给定数据对象的ε半径内的区域成为该数据对象的ε-近邻;
S32:若一个数据对象的ε-近邻至少包含指定数目的(MinPts)对象,该数据对象就称为核心对象;
S33:给定数据对象集Di,若对象数据p为另一组对象q的ε-近邻且q为核心对象,就称p是从q直接密度可达的;
S34:对于给定的ε,若在数据集D中,有一系列数据对象p1,p2……,pn,其中p1=q,pn=p,从而使得pi+1是从pi直接密度可达的,则称p是从q密度可达的;
S35:对给定的ε和MinPts,若存在一个数据对象o(o∈D),使得对象p和q都是从o密度可达的,则对象p和q为密度连接;
S4:重复步骤S2和S3,直到每个聚类不再发生变化为止。
本发明还提供了一种基于分布式结构的大数据聚类装置,包括对象选择模块、距离计算模块、归属划分模块、均值聚类模块以及结果输出模块;所述对象选择模块用于从大数据中选择对象作为初始聚类中心,由所述距离计算模块根据所述对象选择模块选择的聚类中心计算给个聚类对象的均值,利用所述归属划分模块针对每个对象和均值对象之间的距离,对相应的对象进行归属划分,通过所述均值聚类模块计算每个有变化的聚类均值,其计算结果由所述结果输出模块进行输出。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (5)
1.一种基于分布式结构的大数据聚类方法,其特征在于:该方法的具体步骤如下:
S1:从n个数据对象中任意选择k个对象作为初始聚类中心;
S2:根据每个聚类对象的均值(中心对象),计算每个对象和这些中心对象的距离,并根据最小距离重新对相应的对象归属进行划分;
S3:计算每个有变化聚类的均值;
S4:重复步骤S2和S3,直到每个聚类不再发生变化为止。
2.根据权利要求1所述的一种基于分布式结构的大数据聚类方法,其特征在于:所述步骤S2中,计算每个对象和这些中心对象的距离的流程为:首先对步骤S1中剩余的其他对象,根据其与这个k个聚类中心的相似度,分别将它们分配给与其最相似聚类,然后再计算每个所获新聚类的聚类中心,即该聚类中所有对象的均值,不断重复这一过程直到标准测度函数收敛,一般采用均方差作为标准测度函数,具体为:其中E为数据集中所有对象与相应聚类中心的均方差之和,p为代表对象的空间中的一个点,mi为聚类Ci的均值。
3.根据权利要求1所述的一种基于分布式结构的大数据聚类方法,其特征在于:所述步骤S2中,在重新对相应的对象归属进行划分时,具体的算法过程如下:
S21:给定数据集A={a1,a2,…,an};
S22:将数据集A分为若干个子集,A1,A2,…Ap;
S23:对子集A1,A2,…Ap同时进行聚类,分别得到聚类中心数为m1,m2,…mp;
S24:if|m1+m2+…+mp|≥n0,其中n0为问题规模的阈值,将m1+m2+…+mp个聚类中心看成集合A,并将m1+m2+…+mp个数据进行一次性聚类;
S25:聚类结束后,if聚类中心X1和X2聚为一类,而在步骤S23结束后C1和C2分别是以X1和X2为聚类中心的类,将其合并为一类。
4.根据权利要求1所述的一种基于分布式结构的大数据聚类方法,其特征在于:所述步骤S3中,将每个有变化的聚类均值定义为一组密度连接的数据点集,其具体为:
S31:一个给定数据对象的ε半径内的区域成为该数据对象的ε-近邻;
S32:若一个数据对象的ε-近邻至少包含指定数目的(MinPts)对象,该数据对象就称为核心对象;
S33:给定数据对象集Di,若对象数据p为另一组对象q的ε-近邻且q为核心对象,就称p是从q直接密度可达的;
S34:对于给定的ε,若在数据集D中,有一系列数据对象p1,p2……,pn,其中p1=q,pn=p,从而使得pi+1是从pi直接密度可达的,则称p是从q密度可达的;
S35:对给定的ε和MinPts,若存在一个数据对象o(o∈D),使得对象p和q都是从o密度可达的,则对象p和q为密度连接。
5.一种基于分布式结构的大数据聚类装置,其特征在于:包括对象选择模块、距离计算模块、归属划分模块、均值聚类模块以及结果输出模块;
所述对象选择模块用于从大数据中选择对象作为初始聚类中心,由所述距离计算模块根据所述对象选择模块选择的聚类中心计算给个聚类对象的均值,利用所述归属划分模块针对每个对象和均值对象之间的距离,对相应的对象进行归属划分,通过所述均值聚类模块计算每个有变化的聚类均值,其计算结果由所述结果输出模块进行输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810471647.0A CN108717444A (zh) | 2018-05-17 | 2018-05-17 | 一种基于分布式结构的大数据聚类方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810471647.0A CN108717444A (zh) | 2018-05-17 | 2018-05-17 | 一种基于分布式结构的大数据聚类方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108717444A true CN108717444A (zh) | 2018-10-30 |
Family
ID=63899687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810471647.0A Pending CN108717444A (zh) | 2018-05-17 | 2018-05-17 | 一种基于分布式结构的大数据聚类方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108717444A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781815A (zh) * | 2019-10-25 | 2020-02-11 | 四川东方网力科技有限公司 | 视频数据处理方法及系统 |
CN110929398A (zh) * | 2019-11-20 | 2020-03-27 | 四川航天中天动力装备有限责任公司 | 一种用于微型发动机燃烧室出口截面总温测点布置方法 |
-
2018
- 2018-05-17 CN CN201810471647.0A patent/CN108717444A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781815A (zh) * | 2019-10-25 | 2020-02-11 | 四川东方网力科技有限公司 | 视频数据处理方法及系统 |
CN110781815B (zh) * | 2019-10-25 | 2022-09-27 | 四川东方网力科技有限公司 | 视频数据处理方法及系统 |
CN110929398A (zh) * | 2019-11-20 | 2020-03-27 | 四川航天中天动力装备有限责任公司 | 一种用于微型发动机燃烧室出口截面总温测点布置方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103020256B (zh) | 一种大规模数据的关联规则挖掘方法 | |
CN102222092B (zh) | 一种MapReduce平台上的海量高维数据聚类方法 | |
WO2016101628A1 (zh) | 一种数据建模中的数据处理方法及装置 | |
CN104679818A (zh) | 一种视频关键帧提取方法及系统 | |
CN110619084B (zh) | 一种根据图书馆读者借阅行为进行图书推荐的方法 | |
CN110647995A (zh) | 规则训练方法、装置、设备及存储介质 | |
CN104008420A (zh) | 一种基于自动编码机的分布式离群点检测方法及系统 | |
CN111512283B (zh) | 数据库中的基数估算 | |
CN112085125A (zh) | 基于线性自学习网络的缺失值填补方法、存储介质及系统 | |
CN112597284B (zh) | 公司名称的匹配方法、装置、计算机设备及存储介质 | |
CN105335368A (zh) | 一种产品聚类方法及装置 | |
CN105205052A (zh) | 一种数据挖掘方法及装置 | |
CN105574032A (zh) | 规则匹配运算方法及装置 | |
CN108717444A (zh) | 一种基于分布式结构的大数据聚类方法和装置 | |
CN109918829B (zh) | 一种针对结构的轴向模态识别方法 | |
CN111262248B (zh) | 一种随机潮流解析计算方法和系统 | |
CN104899232A (zh) | 协同聚类的方法和设备 | |
CN108874974A (zh) | 基于频繁词集的并行化话题跟踪方法 | |
Purnawansyah et al. | K-Means clustering implementation in network traffic activities | |
Rahim | Educational Data Mining (EDM) on the use of the internet in the world of Indonesian education | |
CN111107493B (zh) | 一种移动用户位置预测方法与系统 | |
CN103678545A (zh) | 进行网络资源聚类的方法及装置 | |
CN110765130B (zh) | 一种分布式环境下基于Ripley’s K函数的时空POI数据点模式分析方法 | |
CN103440351A (zh) | 一种关联规则数据挖掘算法的并行计算方法及装置 | |
CN110796546A (zh) | 一种基于区块链的分布式聚类算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181030 |