CN105512206A

CN105512206A - 一种基于聚类的离群点检测方法

Info

Publication number: CN105512206A
Application number: CN201510848176.7A
Authority: CN
Inventors: 刘文婷
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2015-11-27
Filing date: 2015-11-27
Publication date: 2016-04-20

Abstract

发明公开了一种基于聚类的离群点检测方法，包括步骤为，获取数据集并采用改进的k_means聚类算法计算出k个类簇，对k个类簇进行划分为大类簇集BC和小类簇集SC，基于大小类簇的方法计算数据对象的离群因子后汇总形成离群因子序列，基于离群因子序列确定离群数据。有益效果：可有效地从大量数据集中发现隐藏在其中的离群数据，确定每个数据对象的离群度，检测准确高效，可广泛应用于金融和经济分析、电子通信、现代物流等领域。

Description

一种基于聚类的离群点检测方法

技术领域

本发明涉及一种离群点检测方法，特别是涉及一种基于聚类的离群点检测方法，属于离群数据挖掘技术领域。

背景技术

离群数据挖掘技术是目前数据挖掘领域的研究热点之一，聚类方法在数据挖掘领域具有较好的研究基础。

目前，已有的离群数据挖掘主要基于距离或最近邻概念进行的离群挖掘。随着互联网和移动互联网的广泛普及，大量的数据在金融和经济分析、电子通信、现代物流等不同领域广泛应用，数据本身的复杂性，难以准确判断数据是否异常，导致难以给出确切的离群数据。

发明内容

本发明的主要目的在于，克服现有技术中的不足，提供一种基于聚类的离群点检测方法，可有效地从大量数据集中发现隐藏在其中的离群数据，确定每个数据对象的离群度，检测准确高效，可广泛应用于金融和经济分析、电子通信、现代物流等领域。

为了达到上述目的，本发明所采用的技术方案是：

一种基于聚类的离群点检测方法，包括以下步骤：

1)获取数据集并采用改进的k_means聚类算法计算出k个类簇；

2)对k个类簇进行划分，划分生成大类簇集BC和小类簇集SC；

依据每个类簇|C_i|(i＝1,2…k)包含的数据对象个数对k个类簇进行排序，将包含的数据对象个数大于设定阈值的类簇划分入大类簇集BC，包含的数据对象个数小于设定阈值的类簇划分入小类簇集SC；

3)基于大小类簇的方法分别计算大类簇集内大类簇和小类簇集内小类簇中数据对象的离群因子，汇总形成离群因子序列；

4)基于离群因子序列确定离群数据。

本发明进一步设置为，所述步骤1)获取数据集并采用改进的k_means聚类算法计算出k个类簇，具体包括以下步骤：

1-1)获取数据集D；

数据集用D＝{x₁,x₂,…,x_i,…,x_n}，i＝1,2…n表示，其中，n为数据集D大小，x_i为数据集中的数据对象；

1-2)采用最大最小聚类方法，初始化m个聚类中心；

1-2-a)根据式(1)计算数据集D中任意数据对象x_i到样本中心的距离d_i，形成距离样本；

d_{i} = Σ_{j = 1, i &NotEqual; j}^{n} | | x_{i} - \overset{&OverBar;}{x} | | - - - (1)

其中，x_i数据对象，i＝1,2…n，为样本中心、即为数据集中所有数据对象样本的均值，样本中心的计算公式为

从距离样本中选取与样本中心相距的距离为下限值的第一样本x_a，作为第一个初始聚类中心o₁；

1-2-b)当初始化m＝2时，从数据集中除第一样本x_a、选出与第一样本x_a相距的距离为上限值的第二样本x_b作为第二个初始聚类中心o₂；

1-2-c)当初始化m＝3时，从数据集中除第一样本x_a和第二样本x_b、计算任意数据对象x_i到第一样本x_a和第二样本x_b的距离分别为d_ia和d_ib，取d_i为d_ia和d_ib中的下限值、即d_i＝min(d_ia,d_ib)；

遍历数据集中除第一样本x_a和第二样本x_b外其余数据对象，形成除第一样本x_a和第二样本x_b外的数据对象距离集d_i(i≤n,i≠a,i≠b)；

从d_i(i≤n,i≠a,i≠b)中选取上限值、即获得对应的数据对象x_c作为第三个聚类中心o₃；

1-2-d)当初始化m≤k时，针对已经获得的k-1个初始聚类中心，计算未被作为聚类中心的数据对象x_j到每一聚类中心的距离d_jp(p＝1,2…,k-1)，取d_j为d_jp中的下限值、即d_j＝min(d_j1,d_j2,…,d_j(k-1))，其中，j＝1,2…n；

遍历数据集中未被作为聚类中心的数据对象，形成除k-1个初始聚类中心外的数据对象距离集，并从中选取距离上限值对应的数据对象x_q作为第m个聚类中心o_m；

1-3)采用改进的k_means聚类算法，计算出k个类簇；

1-3-1)选择聚类数搜索范围[k_min,k_max]，其中，k_min＝2，n为数据集D大小；

1-3-2)Fork＝k_mintok_max，即循环执行如下操作，

1-3-2a)按照步骤1-2)的方法初始化k个初始聚类中心o_k；

1-3-2b)采用k_means聚类算法，对数据集中每个数据对象x_p，找出与数据对象x_p相距的距离为下限值的聚类中心o_i，并将数据对象x_p分配到聚类中心o_i所标明的类簇C_i中；

1-3-2c)计算聚类结果指标值SILHOUETTE；

1-3-3)当指标值为上限值时，其所对应的指标值k值即为所需选定的聚类数，所对用的聚类则为所需选定的聚类；

其中，指标值为上限值、即

S I L H O U E T T E = \frac{b (t) - a (t)}{m a x {a (t), b (t)}},

a(t)表示类簇C_j的数据对象t与类簇C_j中所有数据对象的平均距离，令d(t,C_i)表示类簇C_j的数据对象t与另一类簇C_i中所有数据对象的平均距离，则b(t)＝min{d(t,C_i)},i＝1,2,…,k且k≠j。

本发明进一步设置为，所述步骤2)对k个类簇进行划分，划分生成大类簇集BC和小类簇集SC，具体包括以下步骤：

2-1)对k个类簇进行排序；

假设数据集被划分为类簇集合，根据每个类簇包含的数据对象个数对k个类簇进行排序组成类簇序列C＝{C₁,C₂,…,C_k},令|C_i|(i∈[1,k])表示类簇C_i包含的数据对象个数，k表示类簇的个数，且|C₁|≥|C₂|≥…≥|C_k|；

2-2)将k个类簇划分为大类簇集BC和小类簇集SC；

基于步骤2-1)的类簇序列，假定|C₁|+|C₂|+…+|C_b|≥γ*|C|，|C|表示类簇包含的数据对象个数，则大类簇集BC＝{C_i|i≤b}，小类簇集

S C = {C_{j} | j > b};

其中，γ,为用户给定值，γ表示大类簇集占总数据集的比例，表示大类簇集规模与小类簇集规模的比值，b为大类簇集与小类簇集的边界。

本发明进一步设置为，所述步骤3)基于大小类簇的方法分别计算大类簇集内大类簇和小类簇集内小类簇中数据对象的离群因子，汇总形成离群因子序列，步骤为：

判断数据集中的每个数据对象o属于大类簇和小类簇中的哪一个，如果数据对象o属于小类簇C_i、即o∈C_i，则获取与数据对象o相距距离为下限值的大类簇C_j，计算数据对象o到大类簇C_j中心的距离；如果数据对象o属于大类簇C_k、即o∈C_k，则获取与数据对象o相距距离为下限值的大类簇C_k，计算数据对象o到大类簇C_k中心的距离；

根据式(2)计算每个数据对象o的离群因子BCOF(o)，离群因子为基于类簇规模的平均距离，并将离群因子汇总形成离群因子序列L；

B C O F (o) = \{\begin{matrix} \frac{| | o - C_{j} | |}{| C_{j} |} & o &Element; C_{j}, C_{j} &Element; S C, C_{j} &Element; B C \\ \frac{| | o - C_{j} | |}{\underset{C_{j} &Element; B C}{Σ} | C_{j} | / | B C |} & o &Element; C_{j}, C_{j} &Element; B C \end{matrix} - - - (2)

其中，||o-C_j||表示数据对象o到大类簇C_j中心的距离，|C_i|表示小类簇C_i包含的数据对象个数，|C_j|表示大类簇C_j包含的数据对象个数，|BC|表示大类簇集BC中包含的大类簇个数。

本发明进一步设置为，所述步骤4)基于离群因子序列确定离群数据，是从离群因子序列中，将大于设定阈值α的离群因子确定为离群数据，将小于等于设定阈值α的离群因子确定为正常数据、即非离群数据。

与现有技术相比，本发明具有的有益效果是：

本发明提供的一种基于聚类的离群点检测方法，依次通过步骤，获取数据集并采用改进的k_means聚类算法计算出k个类簇，对k个类簇进行划分为大类簇集BC和小类簇集SC，基于大小类簇的方法计算数据对象的离群因子后汇总形成离群因子序列，基于离群因子序列确定离群数据；可有效地从大量数据集中发现隐藏在其中的离群数据，确定每个数据对象的离群度，检测准确高效，可广泛应用于金融和经济分析、电子通信、现代物流等领域。

上述内容仅是本发明技术方案的概述，为了更清楚的了解本发明的技术手段，下面结合附图对本发明作进一步的描述。

附图说明

图1为本发明一种基于聚类的离群点检测方法的流程图。

具体实施方式

下面结合说明书附图，对本发明作进一步的说明。

如图1所示，本发明提供一种基于聚类的离群点检测方法，包括以下步骤：

1)获取数据集并采用改进的k_means聚类算法计算出k个类簇；

1-1)获取数据集D；

1-2)采用最大最小聚类方法，初始化m个聚类中心；

d_{i} = Σ_{j = 1, i &NotEqual; j}^{n} | | x_{i} - \overset{&OverBar;}{x} | | - - - (1)

从d_i(i≤n,i≠a,i≠b)中选取上限值、获得对应的数据对象x_c作为第三个聚类中心o₃；

1-3)采用改进的k_means聚类算法，计算出k个类簇；

1-3-2)Fork＝k_mintok_max，即循环执行如下操作，

1-3-2a)按照步骤1-2)的方法初始化k个初始聚类中心o_k；

1-3-2c)计算聚类结果指标值SILHOUETTE；

其中，指标值为上限值、即

S I L H O U E T T E = \frac{b (t) - a (t)}{m a x {a (t), b (t)}},

2)对k个类簇进行划分，划分生成大类簇集BC和小类簇集SC；

依据每个类簇|C_i|(i＝1,2…k)包含的数据对象个数对k个类簇进行排序，将包含的数据对象个数大于设定阈值的类簇划分入大类簇集BC，包含的数据对象个数小于设定阈值的类簇划分入小类簇集SC；具体包括以下步骤：

2-1)对k个类簇进行排序；

2-2)将k个类簇划分为大类簇集BC和小类簇集SC；

S C = {C_{j} | j > b};

首先，判断数据集中的每个数据对象o属于大类簇和小类簇中的哪一个，如果数据对象o属于小类簇C_i、即o∈C_i，则获取与数据对象o相距距离为下限值的大类簇C_j，计算数据对象o到大类簇C_j中心的距离；如果数据对象o属于大类簇C_k、即o∈C_k，则获取与数据对象o相距距离为下限值的大类簇C_k，计算数据对象o到大类簇C_k中心的距离；

接着，根据式(2)计算每个数据对象o的离群因子BCOF(o)，离群因子为基于类簇规模的平均距离，并将离群因子汇总形成离群因子序列L；

B C O F (o) = \{\begin{matrix} \frac{| | o - C_{j} | |}{| C_{j} |} & o &Element; C_{j}, C_{j} &Element; S C, C_{j} &Element; B C \\ \frac{| | o - C_{j} | |}{\underset{C_{j} &Element; B C}{Σ} | C_{j} | / | B C |} & o &Element; C_{j}, C_{j} &Element; B C \end{matrix} - - - (2)

4)基于离群因子序列确定离群数据；

从离群因子序列L中，将大于设定阈值α的离群因子确定为离群数据，将小于等于设定阈值α的离群因子确定为正常数据、即非离群数据。

本发明采用改进的k_means聚类算法，采用最大最小距离算法设定初始聚类中心，随着聚类数的增加，原来的初始聚类中心不变，基于最大最小距离原则逐步增加初始聚类中心，使不同聚类数的初始聚类中心之间有继承关系；其最大最小距离算法基本思想是尽可能取离得远的数据对象作为聚类中心，运用聚类算法产生不同聚类数目的聚类结果，选择合适的有效性指标对聚类结果进行评估，根据评估结果确定最佳聚类数和最佳类簇。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于聚类的离群点检测方法，其特征在于，包括以下步骤：

1)获取数据集并采用改进的k_means聚类算法计算出k个类簇；

2)对k个类簇进行划分，划分生成大类簇集BC和小类簇集SC；

4)基于离群因子序列确定离群数据。

2.根据权利要求1所述的一种基于聚类的离群点检测方法，其特征在于，所述步骤1)获取数据集并采用改进的k_means聚类算法计算出k个类簇，具体包括以下步骤：

1-1)获取数据集D；

1-2)采用最大最小聚类方法，初始化m个聚类中心；

d_{i} = Σ_{j = 1, i &NotEqual; j}^{n} | | x_{i} - \overset{&OverBar;}{x} | | - - - (1)

1-3)采用改进的k_means聚类算法，计算出k个类簇；

1-3-2)Fork＝k_mintok_max，即循环执行如下操作，

1-3-2a)按照步骤1-2)的方法初始化k个初始聚类中心o_k；

1-3-2c)计算聚类结果指标值SILHOUETTE；

其中，指标值为上限值、即

3.根据权利要求1所述的一种基于聚类的离群点检测方法，其特征在于，所述步骤2)对k个类簇进行划分，划分生成大类簇集BC和小类簇集SC，具体包括以下步骤：

2-1)对k个类簇进行排序；

2-2)将k个类簇划分为大类簇集BC和小类簇集SC；

基于步骤2-1)的类簇序列，假定|C₁|+|C₂|+…+|C_b|≥γ*|C|，|C|表示类簇包含的数据对象个数，则大类簇集BC＝{C_i|i≤b}，小类簇集SC＝{C_j|j＞b}；

其中，为用户给定值，γ表示大类簇集占总数据集的比例，表示大类簇集规模与小类簇集规模的比值，b为大类簇集与小类簇集的边界。

4.根据权利要求1所述的一种基于聚类的离群点检测方法，其特征在于，所述步骤3)基于大小类簇的方法分别计算大类簇集内大类簇和小类簇集内小类簇中数据对象的离群因子，汇总形成离群因子序列，步骤为：

B C O F (o) = \{\begin{matrix} \frac{| | o - C_{j} | |}{| C_{i} |} & o &Element; C_{i}, C_{i} &Element; S C, C_{j} &Element; B C \\ \frac{| | o - C_{j} | |}{\underset{C_{j} &Element; B C}{Σ} | C_{j} | / | B C |} & o &Element; C_{j}, C_{j} &Element; B C \end{matrix} - - - (2)

5.根据权利要求1所述的一种基于聚类的离群点检测方法，其特征在于：所述步骤4)基于离群因子序列确定离群数据，是从离群因子序列中，将大于设定阈值α的离群因子确定为离群数据，将小于等于设定阈值α的离群因子确定为正常数据、即非离群数据。