CN104317824A - 一种基于离群指数的初始聚类中心优选算法 - Google Patents
一种基于离群指数的初始聚类中心优选算法 Download PDFInfo
- Publication number
- CN104317824A CN104317824A CN201410523697.0A CN201410523697A CN104317824A CN 104317824 A CN104317824 A CN 104317824A CN 201410523697 A CN201410523697 A CN 201410523697A CN 104317824 A CN104317824 A CN 104317824A
- Authority
- CN
- China
- Prior art keywords
- point
- cluster
- initial
- data
- clustering center
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Abstract
本发明涉及一种聚类算法,具体涉及一种基于离群指数的初始聚类中心优选算法。包括如下步骤:(1)计算局部离群指数;(2)得到处于密集区域的数据对象集合D;(3)将局部离群指数最小的数据加入初始聚类中心集合;在集合D中找出距离O1点最远的点O2作为第二个聚类中心,加入初始聚类中心集合,并从D中删除O1、O2;(4)从集合D中找出O3和O1、O2和O3的距离之和最大,然后将O3加入到初始聚类中心集合,将O3从集合D中删除,继续从集合D中找出到初始聚类中心对象集合中所有对象距离最远的点作为聚类中心,直到第k个;(5)运用K‐均值聚类算法对整个数据集进行聚类。本发明简单、快速、应用广泛。
Description
技术领域
本发明涉及一种聚类算法,具体涉及一种基于离群指数的初始聚类中心优选算法。
背景技术
数据聚类(或聚类分析)是为了获得图案、点集或对象集本然的分组关系。聚类分析参照“物以类聚”的思想,通过研究抽取样本数据的潜在结构,将数据对象分组成为多个类(或簇),使得同一个类中的对象之间具有较高的相似度,而不同类中的对象差别较大。由于类的形成完全是数据驱动的,不需要任何的先验信息和假设,因此聚类分析是一种非监督学习方法,广泛应用于数据挖掘和数据分析。
传统K‐均值聚类算法中初始聚类中心的选择是随机选取的,初始聚类中心选取的不同会产生不同的聚类结果;传统的K‐均值聚类算法受初始聚类中心的影响比较大。根据初始聚类中心选择的不同,分类准确率也不同,针对这一问题常用的方法是通过多次随机生成初始聚类中心,计算聚类结果,选择目标函数最小的一次计算结果作为最后的聚类结果,如Matlab 中K‐均值聚类的实现.该方法的缺点是耗时严重,试验效果不稳定,未必能够得到最优结果。
发明内容
本发明提供一种简单、快速、应用广泛的基于离群指数的初始聚类中心优选算法。
一种基于离群指数的初始聚类中心优选算法,采用如下步骤:
输入:具有n 个对象的数据集X和聚类分组数k ;
输出:k 个聚类,使得目标函数E 最小;
步骤1:计算每个数据对象的局部离群指数;
步骤2:将局部离群指数排在前n 个的数据对象点删除,得到处于密集区域的数据对象集合D;
步骤3:将局部离群指数最小的数据对象作为第一个聚类中心O1,将O1加入初始聚类中心集合;在集合D 中找出距离O1点最远的点O2作为第二个聚类中心,加入初始聚类中心集合,并从D中删除O1、O2;
步骤4:从集合D中找出O3 和O1、O2和O3的距离之和最大,然后将O3加入到初始聚类中心集合,将O3从集合D中删除,继续从集合D 中找出到初始聚类
中心对象集合中所有对象距离最远的点作为聚类中心,直到第k 个;
步骤5:用得到的k个聚类中心,运用K‐均值聚类算法对整个数据集进行聚类。
本发明简单、快速、应用广泛。
具体实施方式
一种基于离群指数的初始聚类中心优选算法,其特征在于:采用如下步骤:
输入:具有n 个对象的数据集X和聚类分组数k ;
输出:k 个聚类,使得目标函数E 最小;
步骤1:计算每个数据对象的局部离群指数;
步骤2:将局部离群指数排在前n 个的数据对象点删除,得到处于密集区域的数据对象集合D;
步骤3:将局部离群指数最小的数据对象作为第一个聚类中心O1,将O1加入初始聚类中心集合;在集合D 中找出距离O1点最远的点O2作为第二个聚类中心,加入初始聚类中心集合,并从D中删除O1、O2;
步骤4:从集合D中找出O3 和O1、O2和O3的距离之和最大,然后将O3加入到初始聚类中心集合,将O3从集合D中删除,继续从集合D 中找出到初始聚类中心对象集合中所有对象距离最远的点作为聚类中心,直到第k 个;
步骤5:用得到的k个聚类中心,运用K‐均值聚类算法对整个数据集进行聚类。
Claims (1)
1.一种基于离群指数的初始聚类中心优选算法,其特征在于:采用如下步骤:
输入:具有n 个对象的数据集X和聚类分组数k ;
输出:k 个聚类,使得目标函数E 最小;
步骤1:计算每个数据对象的局部离群指数;
步骤2:将局部离群指数排在前n 个的数据对象点删除,得到处于密集区域的数据对象集合D;
步骤3:将局部离群指数最小的数据对象作为第一个聚类中心O1,将O1加入初始聚类中心集合;在集合D 中找出距离O1点最远的点O2作为第二个聚类中心,加入初始聚类中心集合,并从D中删除O1、O2;
步骤4:从集合D中找出O3 和O1、O2和O3的距离之和最大,然后将O3加入到初始聚类中心集合,将O3从集合D中删除,继续从集合D 中找出到初始聚类中心对象集合中所有对象距离最远的点作为聚类中心,直到第k个;
步骤5:用得到的k个聚类中心,运用K‐均值聚类算法对整个数据集进行聚类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410523697.0A CN104317824A (zh) | 2014-10-08 | 2014-10-08 | 一种基于离群指数的初始聚类中心优选算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410523697.0A CN104317824A (zh) | 2014-10-08 | 2014-10-08 | 一种基于离群指数的初始聚类中心优选算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104317824A true CN104317824A (zh) | 2015-01-28 |
Family
ID=52373056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410523697.0A Pending CN104317824A (zh) | 2014-10-08 | 2014-10-08 | 一种基于离群指数的初始聚类中心优选算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104317824A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109063781A (zh) * | 2018-08-14 | 2018-12-21 | 浙江理工大学 | 一种仿自然色彩功能和形式的模糊意象织物设计方法 |
CN109962982A (zh) * | 2019-03-29 | 2019-07-02 | 中海生态环境科技有限公司 | 一种基于物联网的河湖水生态环境监控系统 |
-
2014
- 2014-10-08 CN CN201410523697.0A patent/CN104317824A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109063781A (zh) * | 2018-08-14 | 2018-12-21 | 浙江理工大学 | 一种仿自然色彩功能和形式的模糊意象织物设计方法 |
CN109962982A (zh) * | 2019-03-29 | 2019-07-02 | 中海生态环境科技有限公司 | 一种基于物联网的河湖水生态环境监控系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nazari et al. | A new hierarchical clustering algorithm | |
Li et al. | A clustering method based on K-means algorithm | |
CN106570178B (zh) | 一种基于图聚类的高维文本数据特征选择方法 | |
CN103761311B (zh) | 基于多源领域实例迁移的情感分类方法 | |
PH12019501965A1 (en) | Method and device for constructing scoring model and evaluating user credit | |
Sharma et al. | K-modes clustering algorithm for categorical data | |
RU2017143983A (ru) | Способы и системы для определения вариантов числа копий | |
WO2014118980A1 (ja) | 情報変換方法、情報変換装置および情報変換プログラム | |
Wang et al. | Using DTW to measure trajectory distance in grid space | |
CN104317824A (zh) | 一种基于离群指数的初始聚类中心优选算法 | |
Wazarkar et al. | Text clustering using HFRECCA and rough K-means clustering algorithm | |
Prasad et al. | Vertical collaborative fuzzy C-means for multiple EEG data sets | |
CN105589843B (zh) | 一种文本字串匹配方法及系统 | |
CN104714250A (zh) | 实用的内幕小层自动解释方法 | |
Pouyan et al. | Distance metric learning using random forest for cytometry data | |
Danganan et al. | OCA: Overlapping Clustering application unsupervised approach for data analysis | |
Mawati et al. | Modified centroid selection method of K-means clustering | |
RU2014130519A (ru) | Способ автоматической кластеризации объектов | |
Krishnamoorthy et al. | A new inter cluster validation method for unsupervised clustering techniques | |
Zhao et al. | FCM algorithm based on the optimization parameters of objective function point | |
Ashour et al. | Improving Bregman k-means | |
Albert et al. | The inverse ising problem | |
Zhou et al. | An improved initial clustering center selection method for K-means algorithm | |
Grün et al. | Towards a more quantitative view of gene expression profiling with BioRetis and HPCDA | |
Mathur et al. | Increased performance factor for the best clustering algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150128 |
|
WD01 | Invention patent application deemed withdrawn after publication |