CN104317824A - 一种基于离群指数的初始聚类中心优选算法 - Google Patents

一种基于离群指数的初始聚类中心优选算法 Download PDF

Info

Publication number
CN104317824A
CN104317824A CN201410523697.0A CN201410523697A CN104317824A CN 104317824 A CN104317824 A CN 104317824A CN 201410523697 A CN201410523697 A CN 201410523697A CN 104317824 A CN104317824 A CN 104317824A
Authority
CN
China
Prior art keywords
point
cluster
initial
data
clustering center
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410523697.0A
Other languages
English (en)
Inventor
王耀斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Gaoxin Industry Co Ltd
Original Assignee
Shaanxi Gaoxin Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Gaoxin Industry Co Ltd filed Critical Shaanxi Gaoxin Industry Co Ltd
Priority to CN201410523697.0A priority Critical patent/CN104317824A/zh
Publication of CN104317824A publication Critical patent/CN104317824A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Abstract

本发明涉及一种聚类算法,具体涉及一种基于离群指数的初始聚类中心优选算法。包括如下步骤:(1)计算局部离群指数;(2)得到处于密集区域的数据对象集合D;(3)将局部离群指数最小的数据加入初始聚类中心集合;在集合D中找出距离O点最远的点O2作为第二个聚类中心,加入初始聚类中心集合,并从D中删除O、O2;(4)从集合D中找出O3和O、O2和O3的距离之和最大,然后将O3加入到初始聚类中心集合,将O3从集合D中删除,继续从集合D中找出到初始聚类中心对象集合中所有对象距离最远的点作为聚类中心,直到第k个;(5)运用K‐均值聚类算法对整个数据集进行聚类。本发明简单、快速、应用广泛。

Description

一种基于离群指数的初始聚类中心优选算法
技术领域
本发明涉及一种聚类算法,具体涉及一种基于离群指数的初始聚类中心优选算法。
背景技术
数据聚类(或聚类分析)是为了获得图案、点集或对象集本然的分组关系。聚类分析参照“物以类聚”的思想,通过研究抽取样本数据的潜在结构,将数据对象分组成为多个类(或簇),使得同一个类中的对象之间具有较高的相似度,而不同类中的对象差别较大。由于类的形成完全是数据驱动的,不需要任何的先验信息和假设,因此聚类分析是一种非监督学习方法,广泛应用于数据挖掘和数据分析。
传统K‐均值聚类算法中初始聚类中心的选择是随机选取的,初始聚类中心选取的不同会产生不同的聚类结果;传统的K‐均值聚类算法受初始聚类中心的影响比较大。根据初始聚类中心选择的不同,分类准确率也不同,针对这一问题常用的方法是通过多次随机生成初始聚类中心,计算聚类结果,选择目标函数最小的一次计算结果作为最后的聚类结果,如Matlab 中K‐均值聚类的实现.该方法的缺点是耗时严重,试验效果不稳定,未必能够得到最优结果。
发明内容
本发明提供一种简单、快速、应用广泛的基于离群指数的初始聚类中心优选算法。
一种基于离群指数的初始聚类中心优选算法,采用如下步骤:
输入:具有n 个对象的数据集X和聚类分组数k ;
输出:k 个聚类,使得目标函数E 最小;
步骤1:计算每个数据对象的局部离群指数;
步骤2:将局部离群指数排在前n 个的数据对象点删除,得到处于密集区域的数据对象集合D;
步骤3:将局部离群指数最小的数据对象作为第一个聚类中心O,将O加入初始聚类中心集合;在集合D 中找出距离O点最远的点O2作为第二个聚类中心,加入初始聚类中心集合,并从D中删除O、O2
步骤4:从集合D中找出O3 和O、O2和O3的距离之和最大,然后将O3加入到初始聚类中心集合,将O3从集合D中删除,继续从集合D 中找出到初始聚类
中心对象集合中所有对象距离最远的点作为聚类中心,直到第k 个;
步骤5:用得到的k个聚类中心,运用K‐均值聚类算法对整个数据集进行聚类。
本发明简单、快速、应用广泛。
具体实施方式
一种基于离群指数的初始聚类中心优选算法,其特征在于:采用如下步骤:
输入:具有n 个对象的数据集X和聚类分组数k ;
输出:k 个聚类,使得目标函数E 最小;
步骤1:计算每个数据对象的局部离群指数;
步骤2:将局部离群指数排在前n 个的数据对象点删除,得到处于密集区域的数据对象集合D;
步骤3:将局部离群指数最小的数据对象作为第一个聚类中心O,将O加入初始聚类中心集合;在集合D 中找出距离O点最远的点O2作为第二个聚类中心,加入初始聚类中心集合,并从D中删除O、O2
步骤4:从集合D中找出O3 和O、O2和O3的距离之和最大,然后将O3加入到初始聚类中心集合,将O3从集合D中删除,继续从集合D 中找出到初始聚类中心对象集合中所有对象距离最远的点作为聚类中心,直到第k 个;
步骤5:用得到的k个聚类中心,运用K‐均值聚类算法对整个数据集进行聚类。

Claims (1)

1.一种基于离群指数的初始聚类中心优选算法,其特征在于:采用如下步骤:
输入:具有n 个对象的数据集X和聚类分组数k ;
输出:k 个聚类,使得目标函数E 最小;
步骤1:计算每个数据对象的局部离群指数;
步骤2:将局部离群指数排在前n 个的数据对象点删除,得到处于密集区域的数据对象集合D;
步骤3:将局部离群指数最小的数据对象作为第一个聚类中心O,将O加入初始聚类中心集合;在集合D 中找出距离O点最远的点O2作为第二个聚类中心,加入初始聚类中心集合,并从D中删除O、O2
步骤4:从集合D中找出O3 和O、O2和O3的距离之和最大,然后将O3加入到初始聚类中心集合,将O3从集合D中删除,继续从集合D 中找出到初始聚类中心对象集合中所有对象距离最远的点作为聚类中心,直到第k个;
步骤5:用得到的k个聚类中心,运用K‐均值聚类算法对整个数据集进行聚类。
CN201410523697.0A 2014-10-08 2014-10-08 一种基于离群指数的初始聚类中心优选算法 Pending CN104317824A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410523697.0A CN104317824A (zh) 2014-10-08 2014-10-08 一种基于离群指数的初始聚类中心优选算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410523697.0A CN104317824A (zh) 2014-10-08 2014-10-08 一种基于离群指数的初始聚类中心优选算法

Publications (1)

Publication Number Publication Date
CN104317824A true CN104317824A (zh) 2015-01-28

Family

ID=52373056

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410523697.0A Pending CN104317824A (zh) 2014-10-08 2014-10-08 一种基于离群指数的初始聚类中心优选算法

Country Status (1)

Country Link
CN (1) CN104317824A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063781A (zh) * 2018-08-14 2018-12-21 浙江理工大学 一种仿自然色彩功能和形式的模糊意象织物设计方法
CN109962982A (zh) * 2019-03-29 2019-07-02 中海生态环境科技有限公司 一种基于物联网的河湖水生态环境监控系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063781A (zh) * 2018-08-14 2018-12-21 浙江理工大学 一种仿自然色彩功能和形式的模糊意象织物设计方法
CN109962982A (zh) * 2019-03-29 2019-07-02 中海生态环境科技有限公司 一种基于物联网的河湖水生态环境监控系统

Similar Documents

Publication Publication Date Title
Nazari et al. A new hierarchical clustering algorithm
Li et al. A clustering method based on K-means algorithm
CN106570178B (zh) 一种基于图聚类的高维文本数据特征选择方法
CN103761311B (zh) 基于多源领域实例迁移的情感分类方法
PH12019501965A1 (en) Method and device for constructing scoring model and evaluating user credit
Sharma et al. K-modes clustering algorithm for categorical data
RU2017143983A (ru) Способы и системы для определения вариантов числа копий
WO2014118980A1 (ja) 情報変換方法、情報変換装置および情報変換プログラム
Wang et al. Using DTW to measure trajectory distance in grid space
CN104317824A (zh) 一种基于离群指数的初始聚类中心优选算法
Wazarkar et al. Text clustering using HFRECCA and rough K-means clustering algorithm
Prasad et al. Vertical collaborative fuzzy C-means for multiple EEG data sets
CN105589843B (zh) 一种文本字串匹配方法及系统
CN104714250A (zh) 实用的内幕小层自动解释方法
Pouyan et al. Distance metric learning using random forest for cytometry data
Danganan et al. OCA: Overlapping Clustering application unsupervised approach for data analysis
Mawati et al. Modified centroid selection method of K-means clustering
RU2014130519A (ru) Способ автоматической кластеризации объектов
Krishnamoorthy et al. A new inter cluster validation method for unsupervised clustering techniques
Zhao et al. FCM algorithm based on the optimization parameters of objective function point
Ashour et al. Improving Bregman k-means
Albert et al. The inverse ising problem
Zhou et al. An improved initial clustering center selection method for K-means algorithm
Grün et al. Towards a more quantitative view of gene expression profiling with BioRetis and HPCDA
Mathur et al. Increased performance factor for the best clustering algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150128

WD01 Invention patent application deemed withdrawn after publication