CN105913077A - 一种基于降维和抽样的数据聚类方法 - Google Patents

一种基于降维和抽样的数据聚类方法 Download PDF

Info

Publication number
CN105913077A
CN105913077A CN201610213963.9A CN201610213963A CN105913077A CN 105913077 A CN105913077 A CN 105913077A CN 201610213963 A CN201610213963 A CN 201610213963A CN 105913077 A CN105913077 A CN 105913077A
Authority
CN
China
Prior art keywords
cluster
sample
sampling
data
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610213963.9A
Other languages
English (en)
Inventor
张铁峰
李中
顾明迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China Electric Power University
Original Assignee
North China Electric Power University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China Electric Power University filed Critical North China Electric Power University
Priority to CN201610213963.9A priority Critical patent/CN105913077A/zh
Publication of CN105913077A publication Critical patent/CN105913077A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于降维和抽样的数据聚类方法,所述方法首先通过分段均值法对数据集进行降维处理,然后构造随机函数从大规模的聚类数据集中进行随机抽样,得到规模较小的工作集,并在工作集上进行k‑means聚类,得到随机抽样聚类结果,最后通过衡量剩下的聚类样本与已经得到的抽样聚类结果的关系,对剩余样本进行分类。本发明采用降维和抽样的方法减少参与迭代的数据集样本的数目和维度,在保持良好聚类效果的情况下,大大降低了k‑means算法的复杂度,从而实现了大规模数据的高效聚类。

Description

一种基于降维和抽样的数据聚类方法
技术领域
本发明涉及一种能够对大规模数据进行高效聚类的方法,属于数据处理技术领域。
背景技术
目前,常用的数据聚类方法有经典k-means,FCM,层次聚类和自组织神经映射等,其中,k-means是一种最为经典,使用最为广泛的划分聚类方法。K-means聚类方法通过动态地迭代调整聚类中心,根据样本到每个子类中心的相似度进行不断迭代来得到聚类结果。但是,由于k-means需要反复地计算每个样本到中心的相似度,算法的复杂度会随着数据集维数的增加而成指数级增长(时间复杂度:O(tkmn),空间复杂度:O((m+k)n)。其中,t为迭代次数,k为簇的数目,m为记录数,n为维数),当样本规模较大时无法进行有效的处理。因此,如何采用k-means聚类方法解决大规模数据的聚类问题一直是聚类分析领域的研究人员所面临的难题。
发明内容
本发明的目的在于针对现有技术之弊端,提供一种基于降维和抽样的数据聚类方法,以降低k-means算法复杂度,实现大规模数据的高效聚类。
本发明所述问题是以下述技术方案实现的:
一种基于降维和抽样的数据聚类方法,所述方法首先通过分段均值法对数据集进行降维处理,然后构造随机函数从大规模的聚类数据集中进行随机抽样,得到规模较小的工作集,并在工作集上进行k-means聚类,得到随机抽样聚类结果,最后通过衡量剩下的聚类样本与已经得到的抽样聚类结果的关系,对剩余样本进行分类。
上述基于降维和抽样的数据聚类方法,所述方法包括以下步骤:
a.对待聚类的数据集X进行平均分段得到数据集Y:
设数据集为X={x1,x2,…,xm},X的第i个样本对象为xi=(xi1,xi2,...,xin),数据集Y={y1,y2,…,ym},Y的第i个样本对象为yi=(yi1,yi2,…,yin′),n′=n/v,v表示分段间隔,则:
y i k = 1 v Σ j = 1 + ( k - 1 ) v k v x i j ;
b.从数据集Y随机抽取m/s个样本构成样本集Y';
c.从样本集Y'中任意选择k个样本{w1,w2,…,wk}作为初始聚类中心,其中wj=yi,j∈{1,2,…,k},i={1,2,…,m/s};
d.计算Y'中每个样本与簇Cj(k个簇中的第j个簇Cj的初始聚类中心为wj)的聚类中心的距离i={1,2,…,m/s},j∈{1,2,…,k},若则xi∈Cj
e.更新簇的平均值即聚类中心;
f.计算平方误差准则函数其中,k是聚类数即簇的个数,p是空间中的点(p∈Cj,意思是Cj中的每一样本与聚类中心的距离的平方的和),是簇Cj的平均值(p和都是多维的);
g.判断是否满足迭代终止条件:若E值收敛,则进行步骤h;否则返回步骤c;
h.停止迭代计算,得到随机抽样聚类结果C={C1,C2,…Ck}和各个簇的聚类中心;
i.计算剩余样本集中任意一个样本与随机抽样聚类的聚类中心的相似性,并根据最小邻近准则进行分类,得到聚类结果
本发明采用降维和抽样的方法减少参与迭代的数据集样本的数目和维度,在保持良好聚类效果的情况下,大大降低了k-means算法的复杂度,从而实现了大规模数据的高效聚类。
附图说明
图1是基于降维和抽样的数据聚类方法的流程图。
文中各符号为:X为待聚类的数据集,Y为对X进行平均分段得到数据集,Y'为从数据集Y随机抽取m/s个样本得到的样本集,v表示分段间隔,是簇Cj的平均值,为样本yi与簇Cj的聚类中心的距离,E为平方误差准则函数,p是空间中的点,C={C1,C2,…Ck}为随机抽样聚类结果。
具体实施方式
下面结合附图对本发明作进一步说明。
本发明提供了一种具有数据聚类分析能力的快速大规模数据聚类分析方法,该方法首先通过分段均值法对数据集进行降维处理,其次构造随机函数从大规模的聚类数据集中进行随机抽样,得到规模较小的工作集,并在工作集上进行传统k-means聚类,得到聚类中心,完成抽样过程,得到抽样结果。然后通过衡量剩下的聚类样本与已经得到的抽样结果的关系,对剩余样本进行分类。由于该方法通过随机抽样大大地减小了参与k-means聚类的问题规模,因此有效提高了聚类效率。
设数据集X={x1,x2,…,xm},第i个样本对象xi=(xi1,xi2,...,xin),设分段间隔为v即每v个点取平均,抽样因子为s,则维数降为n/v,记录数减少为m/s。可将m×n大小的特征参数矩阵降维为(m÷s)×(n÷v)大小的参数矩阵。时间复杂度变为O(tkmn/(sv)),空间复杂度变为O((m/s+k)(n/v))。
为达到上述目的,本发明采用的技术方案包括以下步骤:
输入:数据集X={x1,x2,…,xm},分段间隔为v,抽样因子为s,聚类个数为k
输出:k个簇Ck
步骤1:对数据集进行平均分段得到数据集Y。其中第i个样本对象yi=(yi1,yi2,…,yin′),n′=n/v,v表示分段间隔即每v个点取平均,
步骤2:从数据集Y随机抽取m/s个样本构成样本集Y';
步骤3:从样本集Y'中任意选择k个样本{w1,w2,…,wk}作为初始聚类中心,其中wj=yi,j∈{1,2,…,k},i={1,2,…,m/s};
步骤4:计算Y'中每个样本与簇Cj的聚类中心的距离i={1,2,…,m/s},j∈{1,2,…,k},若则xi∈Cj
步骤5:更新簇的平均值即聚类中心;
步骤6:计算平方误差准则函数其中,k是聚类数即簇的个数,p是空间中的点,是簇Cj的平均值(p和都是多维的);
步骤7:若E值收敛,则进行步骤8;否则返回步骤3;
步骤8:得到随机抽样聚类结果C={C1,C2,…Ck}和各个簇的聚类中心;
步骤9:计算剩余样本集中任意一个样本与随机抽样聚类的聚类中心的相似性,并根据最小邻近准则进行分类,得到聚类结果
本发明计算简便、速度快,实用性强,具有良好的数据聚类分析能力,适于大规模数据的快速聚类分析。本发明方法不但可以在保持聚类准确度基本不降低的情况下,通过更小数据集和更少的维度,达到降低算法复杂度和高效聚类的目的,同时还可以获取详细的聚类结果,包括各个子类的聚类中心、所含数据对象数目、具体数据对象构成等信息。

Claims (2)

1.一种基于降维和抽样的数据聚类方法,其特征是,所述方法首先通过分段均值法对数据集进行降维处理,然后构造随机函数从大规模的聚类数据集中进行随机抽样,得到规模较小的工作集,并在工作集上进行k-means聚类,得到随机抽样聚类结果,最后通过衡量剩下的聚类样本与已经得到的抽样聚类结果的关系,对剩余样本进行分类。
2.根据权利要求1所述的一种基于降维和抽样的数据聚类方法,其特征是,所述方法包括以下步骤:
a.对待聚类的数据集X进行平均分段得到数据集Y:
设数据集为X={x1,x2,…,xm},X的第i个样本对象为xi=(xi1,xi2,...,xin),数据集Y={y1,y2,…,ym},Y的第i个样本对象为yi=(yi1,yi2,…,yin′),n′=n/v,v表示分段间隔,则:
y i k = 1 v Σ j = 1 + ( k - 1 ) v k v x i j ;
b.从数据集Y随机抽取m/s个样本构成样本集Y';
c.从样本集Y'中任意选择k个样本{w1,w2,…,wk}作为初始聚类中心,其中wj=yi,j∈{1,2,…,k},i={1,2,…,m/s};
d.计算Y'中每个样本与簇Cj的聚类中心的距离i={1,2,…,m/s},j∈{1,2,…,k},若则xi∈Cj
e.更新簇的平均值即聚类中心;
f.计算平方误差准则函数其中,k是聚类数即簇的个数,p是空间中的点,是簇Cj的平均值,p和都是多维的;
g.判断是否满足迭代终止条件:若E值收敛,则进行步骤h;否则返回步骤c;
h.停止迭代计算,得到随机抽样聚类结果C={C1,C2,…Ck}和各个簇的聚类中心;
i.计算剩余样本集中任意一个样本与随机抽样聚类的聚类中心的相似性,并根据最小邻近准则进行分类,得到聚类结果
CN201610213963.9A 2016-04-07 2016-04-07 一种基于降维和抽样的数据聚类方法 Pending CN105913077A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610213963.9A CN105913077A (zh) 2016-04-07 2016-04-07 一种基于降维和抽样的数据聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610213963.9A CN105913077A (zh) 2016-04-07 2016-04-07 一种基于降维和抽样的数据聚类方法

Publications (1)

Publication Number Publication Date
CN105913077A true CN105913077A (zh) 2016-08-31

Family

ID=56745768

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610213963.9A Pending CN105913077A (zh) 2016-04-07 2016-04-07 一种基于降维和抽样的数据聚类方法

Country Status (1)

Country Link
CN (1) CN105913077A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528862A (zh) * 2016-11-30 2017-03-22 四川用联信息技术有限公司 基于改进的均值中心算法实现搜索引擎关键词优化
CN106778812A (zh) * 2016-11-10 2017-05-31 百度在线网络技术(北京)有限公司 聚类实现方法和装置
CN108169105A (zh) * 2017-11-07 2018-06-15 山东卓越生物技术股份有限公司 应用于血细胞分析仪的白细胞分类处理方法
CN108805174A (zh) * 2018-05-18 2018-11-13 广东惠禾科技发展有限公司 聚类方法及装置
CN108805213A (zh) * 2018-06-15 2018-11-13 山东大学 计及小波熵降维的电力负荷曲线双层谱聚类方法
CN109492094A (zh) * 2018-10-15 2019-03-19 上海电力学院 一种基于密度的混合多维属性数据处理方法
CN109740628A (zh) * 2018-12-03 2019-05-10 深圳市华讯方舟太赫兹科技有限公司 点云聚类方法、图像处理设备及具有存储功能的装置
CN110298371A (zh) * 2018-03-22 2019-10-01 北京京东尚科信息技术有限公司 数据聚类的方法和装置
CN110503117A (zh) * 2018-05-16 2019-11-26 北京京东尚科信息技术有限公司 数据聚类的方法和装置
CN110880005A (zh) * 2018-09-05 2020-03-13 阿里巴巴集团控股有限公司 向量索引建立方法及装置和向量检索方法及装置
CN110895333A (zh) * 2019-12-05 2020-03-20 电子科技大学 一种基于多普勒频率的77g车载雷达数据快速聚类方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778812A (zh) * 2016-11-10 2017-05-31 百度在线网络技术(北京)有限公司 聚类实现方法和装置
CN106778812B (zh) * 2016-11-10 2020-06-19 百度在线网络技术(北京)有限公司 聚类实现方法和装置
CN106528862A (zh) * 2016-11-30 2017-03-22 四川用联信息技术有限公司 基于改进的均值中心算法实现搜索引擎关键词优化
CN108169105A (zh) * 2017-11-07 2018-06-15 山东卓越生物技术股份有限公司 应用于血细胞分析仪的白细胞分类处理方法
CN108169105B (zh) * 2017-11-07 2020-12-18 山东卓越生物技术股份有限公司 应用于血细胞分析仪的白细胞分类处理方法
CN110298371A (zh) * 2018-03-22 2019-10-01 北京京东尚科信息技术有限公司 数据聚类的方法和装置
CN110503117A (zh) * 2018-05-16 2019-11-26 北京京东尚科信息技术有限公司 数据聚类的方法和装置
CN108805174A (zh) * 2018-05-18 2018-11-13 广东惠禾科技发展有限公司 聚类方法及装置
CN108805213A (zh) * 2018-06-15 2018-11-13 山东大学 计及小波熵降维的电力负荷曲线双层谱聚类方法
CN110880005A (zh) * 2018-09-05 2020-03-13 阿里巴巴集团控股有限公司 向量索引建立方法及装置和向量检索方法及装置
CN110880005B (zh) * 2018-09-05 2023-06-23 阿里巴巴集团控股有限公司 向量索引建立方法及装置和向量检索方法及装置
CN109492094A (zh) * 2018-10-15 2019-03-19 上海电力学院 一种基于密度的混合多维属性数据处理方法
CN109740628A (zh) * 2018-12-03 2019-05-10 深圳市华讯方舟太赫兹科技有限公司 点云聚类方法、图像处理设备及具有存储功能的装置
CN110895333A (zh) * 2019-12-05 2020-03-20 电子科技大学 一种基于多普勒频率的77g车载雷达数据快速聚类方法
CN110895333B (zh) * 2019-12-05 2022-06-03 电子科技大学 一种基于多普勒频率的77g车载雷达数据快速聚类方法

Similar Documents

Publication Publication Date Title
CN105913077A (zh) 一种基于降维和抽样的数据聚类方法
Ji et al. Coauthorship and citation networks for statisticians
Meng et al. A communication-efficient parallel algorithm for decision tree
Jović et al. A review of feature selection methods with applications
Rai et al. Infinite predictor subspace models for multitask learning
CN107368700A (zh) 基于计算云平台的微生物多样性交互分析系统及其方法
Guo et al. Research on recommendation of insurance products based on random forest
Gordon et al. Scanning tunneling state recognition with multi-class neural network ensembles
CN111125469B (zh) 一种社交网络的用户聚类方法、装置以及计算机设备
CN102243641A (zh) 大规模数据的高效聚类方法
Vitalii et al. Classification of multifractal time series by decision tree methods
CN108664653A (zh) 一种基于K-means的医疗消费客户自动分类方法
CN105844303A (zh) 一种基于局部和全局信息的采样式聚类集成方法
CN109376790A (zh) 一种基于渗流分析的二元分类方法
CN103793438A (zh) 一种基于MapReduce的并行聚类方法
Malehi et al. Classic and bayesian tree-based methods
Jiang et al. Modulation recognition of communication signal based on convolutional neural network
Vo et al. Sparse additive Gaussian process with soft interactions
CN103500205B (zh) 非均匀大数据分类方法
Marconi et al. Hyperbolic manifold regression
CN115293639A (zh) 一种基于隐马尔可夫模型的战场态势研判方法
Farmer et al. Quasar Identification Using Multivariate Probability Density Estimated from Nonparametric Conditional Probabilities
WO2021017736A1 (zh) 一种图像分析装置
Kumar et al. Machine learning solutions for investigating streams data using distributed frameworks: Literature review
Khan et al. Nowcasting the financial time series with streaming data analytics under apache spark

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160831

RJ01 Rejection of invention patent application after publication