CN104317824A

CN104317824A - 一种基于离群指数的初始聚类中心优选算法

Info

Publication number: CN104317824A
Application number: CN201410523697.0A
Authority: CN
Inventors: 王耀斌
Original assignee: Shaanxi Gaoxin Industry Co Ltd
Current assignee: Shaanxi Gaoxin Industry Co Ltd
Priority date: 2014-10-08
Filing date: 2014-10-08
Publication date: 2015-01-28

Abstract

本发明涉及一种聚类算法，具体涉及一种基于离群指数的初始聚类中心优选算法。包括如下步骤：（1）计算局部离群指数；（2）得到处于密集区域的数据对象集合D；（3）将局部离群指数最小的数据加入初始聚类中心集合；在集合D中找出距离O_１点最远的点O₂作为第二个聚类中心，加入初始聚类中心集合，并从D中删除O_１、O₂；（4）从集合D中找出O₃和O_１、O₂和O₃的距离之和最大，然后将O₃加入到初始聚类中心集合，将O₃从集合D中删除，继续从集合D中找出到初始聚类中心对象集合中所有对象距离最远的点作为聚类中心，直到第k个；（5）运用K‐均值聚类算法对整个数据集进行聚类。本发明简单、快速、应用广泛。

Description

一种基于离群指数的初始聚类中心优选算法

技术领域

本发明涉及一种聚类算法，具体涉及一种基于离群指数的初始聚类中心优选算法。

背景技术

数据聚类（或聚类分析）是为了获得图案、点集或对象集本然的分组关系。聚类分析参照“物以类聚”的思想，通过研究抽取样本数据的潜在结构，将数据对象分组成为多个类（或簇），使得同一个类中的对象之间具有较高的相似度，而不同类中的对象差别较大。由于类的形成完全是数据驱动的，不需要任何的先验信息和假设，因此聚类分析是一种非监督学习方法，广泛应用于数据挖掘和数据分析。

传统K‐均值聚类算法中初始聚类中心的选择是随机选取的，初始聚类中心选取的不同会产生不同的聚类结果；传统的K‐均值聚类算法受初始聚类中心的影响比较大。根据初始聚类中心选择的不同，分类准确率也不同，针对这一问题常用的方法是通过多次随机生成初始聚类中心，计算聚类结果，选择目标函数最小的一次计算结果作为最后的聚类结果，如Matlab 中K‐均值聚类的实现．该方法的缺点是耗时严重，试验效果不稳定，未必能够得到最优结果。

发明内容

本发明提供一种简单、快速、应用广泛的基于离群指数的初始聚类中心优选算法。

一种基于离群指数的初始聚类中心优选算法,采用如下步骤：

输入：具有n 个对象的数据集X和聚类分组数k ；

输出：k 个聚类，使得目标函数E 最小；

步骤1：计算每个数据对象的局部离群指数；

步骤2：将局部离群指数排在前n 个的数据对象点删除，得到处于密集区域的数据对象集合D；

步骤3：将局部离群指数最小的数据对象作为第一个聚类中心O_１，将O_１加入初始聚类中心集合；在集合D 中找出距离O_１点最远的点O₂作为第二个聚类中心，加入初始聚类中心集合，并从D中删除O_１、O₂；

步骤4：从集合D中找出O₃ 和O_１、O₂和O₃的距离之和最大，然后将O₃加入到初始聚类中心集合，将O₃从集合D中删除，继续从集合D 中找出到初始聚类

中心对象集合中所有对象距离最远的点作为聚类中心，直到第k 个；

步骤5：用得到的k个聚类中心，运用K‐均值聚类算法对整个数据集进行聚类。

本发明简单、快速、应用广泛。

具体实施方式

一种基于离群指数的初始聚类中心优选算法,其特征在于：采用如下步骤：

输入：具有n 个对象的数据集X和聚类分组数k ；

输出：k 个聚类，使得目标函数E 最小；

步骤1：计算每个数据对象的局部离群指数；

步骤4：从集合D中找出O₃ 和O_１、O₂和O₃的距离之和最大，然后将O₃加入到初始聚类中心集合，将O₃从集合D中删除，继续从集合D 中找出到初始聚类中心对象集合中所有对象距离最远的点作为聚类中心，直到第k 个；

Claims

1.一种基于离群指数的初始聚类中心优选算法,其特征在于：采用如下步骤：

输入：具有n 个对象的数据集X和聚类分组数k ；

输出：k 个聚类，使得目标函数E 最小；

步骤1：计算每个数据对象的局部离群指数；

步骤4：从集合D中找出O₃ 和O_１、O₂和O₃的距离之和最大，然后将O₃加入到初始聚类中心集合，将O₃从集合D中删除，继续从集合D 中找出到初始聚类中心对象集合中所有对象距离最远的点作为聚类中心，直到第k个；