CN110083665A

CN110083665A - 基于改进的局部异常因子检测的数据分类方法

Info

Publication number: CN110083665A
Application number: CN201910368828.5A
Authority: CN
Inventors: 游子毅
Original assignee: Guizhou Education University
Current assignee: Guizhou Education University
Priority date: 2019-05-05
Filing date: 2019-05-05
Publication date: 2019-08-02

Abstract

本发明公开了基于改进的局部异常因子检测的数据分类方法，包括：离群因子检测；相似性度量；初始聚类中心点的选取，通过自适应调整k距离参数的局部离群因子检测LOF算法筛选出离群因子较小的数据作为初始聚类中心的候选集；聚类中心的迭代优化。在优化聚类中心迭代阶段，利用离差标准化对数据间的离群因子进行标准化，使得新离群因子new_r_i的取值范围为大于等于1。本发明提高对聚类中心定位以及簇划分的精确度。

Description

基于改进的局部异常因子检测的数据分类方法

技术领域

本发明属于数据处理技术领域，具体来说涉及基于改进的局部异常因子检测的数据分类方法。

背景技术

目前，利用聚类分析实现数据的分类已成为数据挖掘领域中必不可少的技术，在商业、保险行业、生物学、电子商务等领域具有广泛的应用前景。

聚类算法种类繁多，包括基于距离划分的K-means算法、基于隶属度划分的FCM模糊聚类等。其中K-means算法具有思路简单、易于实现且聚类速度快的优点，但其聚类中心易受离群点和异常点的影响而导致聚类陷入局部最优。因此，该算法在数据分类上的应用及优化一直备受关注。在已见报道中，唐东凯等^[12]针对初始聚类中心的优化提出了改进方案。该方案利用各数据的离群因子缩小初始聚类中心的候选集，缓减了离群点对选取初始聚类中心的干扰。Mahdi Hashemzadeh等使用集群加权的方法减轻FCM的初始化灵敏度，并提出自动局部特征加权方法适当地加权每个簇的特征，以提高聚类的准确率。Teng Li等通过潜变量(MKKLV)算法开发并提出了一种多核k-means聚类，可以针对每个样本自适应地调整基础核。Ravi Sankar等提出了利用信息熵的相似系数分析k-modes算法的时间复杂度，以在保持k-modes算法的可扩展性同时提高了聚类精度。R.J等将遗传算法与模糊k-modes算法相结合，优化了初始聚类中心点的选取。但是，以上针对K-means算法的改进均没有考虑到簇内数据的相关性，这往往导致聚类结果准确率稳定性差从而达不到预期要求。

发明内容

本发明的目的在于克服上述缺点而提供的一种提高对聚类中心定位以及簇划分的精确度的基于改进的局部异常因子检测的数据分类方法。

本发明目的及解决其主要技术问题是采用以下技术方案来实现的：

本发明的基于改进的局部异常因子检测的数据分类方法，包括以下步骤：

(1)离群因子检测

根据原始K-means算法在选取聚类中心点时的缺陷，提出了依据数据集中每个数据点的离群因子来排除离群点的方法，得出离群因子的计算公式(I)如下：

表示为点p的领域点N_k(p)的局部可达密度与点p的局部可达密度之比的平均值；

如果LOF值趋向1，说明p与其领域点的密度相近，p与该领域属于同一簇的可能性大；LOF越小于1，说明p的密度高于其领域点密度，即p为密集点；相反，LOF越大于1，则p越可能是异常点；

(2)相似性度量

对数据集的每一个属性如公式(II)进行初步的预处理：

X_ij＝x_ij/max(x_ij) (II)

其中，max(x_ij)表示数据第j列的最大值；

分别根据公式(III)和(IV)计算出数据中每个属性的熵值与权值：

根据公式(V)计算出来的权值计算数据点之间加权欧式距离：

(3)初始聚类中心点的选取

挑选出距离聚类中心点较近的部分数据作为初始聚类中心的候选集，具体步骤如下：

Step1：由公式(I)计算出数据中每个数据点的离群因子，并按离群因子值从小到大进行排列形成数据集记为D_L；

Step2：在D_L上选取前a*N(0<a≤1,N为数据集的大小)个数据对象作为初始聚类中心的候选集F(a的大小可自适应调整)；

Step3：计算数据集F中所有数据的中心点c₀，利用相似性度量，找到距离c₀最远的数据点c₁，把c₁记作第一个初始聚类中心点，再次找到距离c₁最远的点c₂,将c₂记作第二个初始聚类中心点，建立集合C＝{c₁,c₂}；

Step4：计算剩余数据对象x_j分别到集合C＝{c₁,c₂}的加权距离，记作disc₁,disc₂,…，disc_i，找到点c_i+1＝max{min(disc_j1,disc_j2，…，disc_ji)，i+1≤k，x_j∈F}，将c_i+1记为第i+1个初始聚类中心点,即C＝{c₁,c₂,…,c_i+1}；Step5：重复Step 4，直到找到k个初始聚类中心点；

(4)聚类中心的迭代优化

采用离群因子对数据间距离进行加权，具体实现过程如下：

Step1：将当前轮k个聚类中心点加入到候选集F中形成新集合F’，计算出F’中每一个对象的离群因子r_i(i∈F’),并找出r_i的最大值与最小值。

Step2：利用离差标准化对数据间的离群因子进行标准化，使得新离群因子new_r_i的取值范围为大于等于1，具体计算见公式(Ⅵ)。

在公式(Ⅵ)中，Max_r表示离群因子最大值，Min_r表示离群因子最小值。

Step3：计算F’中每一个对象x_j到聚类中心c_i的加权距离disw(x_j,c_i)，然后与离群因子new_r_i相乘，见公式(Ⅶ)。

D_ji＝disw(x_j,c_i)×new_r_i (Ⅶ)

Step4：计算每个对象x_j到聚类中心集C＝{c₁,c₂,…,c_k}中各点的最小真实距离Min_D_ji,并将对象x_j归为c_i的类中。

Step5：计算同一簇中所有对象的均值作为新的聚类中心，更新聚类中心集C'＝{c'₁,c'₂,…,c'_k}。

Step6：重复Step1-Step 5直到聚类中心不再发生变化。

上述的基于改进的局部异常因子检测的数据分类方法，其中步骤(3)中Step1的公式(I)计算出数据中每个数据点的离群因子的方法为：

通过自适应调整k距离参数的局部离群因子检测(LOF)算法筛选出离群因子较小的数据作为初始聚类中心的候选集。LOF算法的k距离参数由如下公式自适应调整。

k_dist＝β×num(dataset) (Ⅷ)

其中，num(dataset)表示集合dataset的数据对象个数，β值可根据实际经验实际地设置为0.03。

上述的基于改进的局部异常因子检测的数据分类方法，其中步骤(4)中Step2的在优化聚类中心迭代阶段离群因子优化方法为：

在优化聚类中心迭代阶段，利用离差标准化对数据间的离群因子进行标准化，使得新离群因子new_r_i的取值范围为大于等于1，具体计算见公式(Ⅵ)

本发明同现有技术相比，具有明显的优点和有益效果，由以上技术方案可知，本发明为避免离群点对初始聚类中心准确性产生影响，通过自适应调整k距离参数的局部离群因子检测(LOF)算法筛选出离群因子较小的数据作为初始聚类中心的候选集。在优化聚类中心迭代阶段，利用离群因子加权距离方法提高对聚类中心定位以及簇划分的精确度。实践证明了该优化算法对于数据分类应用场景的有效性。

附图说明

图1为实验中k参数的取值

具体实施方式

(1)离群因子检测

(2)相似性度量

对数据集的每一个属性如公式(II)进行初步的预处理。

X_ij＝x_ij/max(x_ij) (II)

其中，max(x_ij)表示数据第j列的最大值。

分别根据公式(III)和(IV)计算出数据中每个属性的熵值与权值。

根据公式(V)计算出来的权值计算数据点之间加权欧式距离。

(3)初始聚类中心点的选取

Step1：由公式(I)计算出数据中每个数据点的离群因子，并按离群因子值从小到大进行排列形成数据集记为D_L；公式(I)计算出数据中每个数据点的离群因子的方法为：

k_dist＝β×num(dataset) (Ⅷ)

(4)聚类中心的迭代优化

采用离群因子对数据间距离进行加权，具体实现过程如下：

在公式(Ⅵ)中，Max_r表示离群因子最大值，Min_r表示离群因子最小值。在优化聚类中心迭代阶段离群因子优化方法为：

D_ji＝disw(x_j,c_i)×new_r_i (Ⅶ)

Step5：计算同一簇中所有对象的均值作为新的聚类中心，更新聚类中心集C'＝{c'₁,c'₂,...,c'_k}。

Step6：重复Step1-Step 5直到聚类中心不再发生变化。

实验例：证明本发明方法的实用性，具体步骤如下：

选取UCI数据库中的Iris、Wine、Seeds、Wifi Localization、CMC、Abalone六个公共数据集，分别对K-means++、FCM、OFMMK-means以及优化的算法进行了测试结果显示。所用数据集的具体描述如表1所示。

表1为实验所数据集

在LOF算法中，参数k_dist表示检测的邻域点数量。该值越大，所选取的样本点越多，聚类的准确性越容易受到LOF值的影响。本文利用以上六个数据集对参数k_dist的取值做了以下实验，如图1所示。

将K-means++算法、FCM算法、OFMMK-means算法以及所提出的优化算法在样本数据集Iris、Wine、Seeds、Wifi Localization、CMC及Abalone上运行十次，分别将运行结果的平均准确率与时间进行比较，其结果如表2和表3所示。

由表2可看出，优化算法在各个数据集中聚类的准确率都高于K-means++算法、FCM算法及OFMMK-means算法。如表3所示，由于优化算法要计算每个数据点的信息熵与离群因子，所以运行时间相比K-means++算法和OFMMK-means算法略长一些，但是明显低于FCM算法。综上，优化算法在提高准确率的同时，耗时相对减少，可见该算法在数据分类应用场景上的有效性。

表2为样本数据在不同算法上的平均准确率

表3为样本数据在不同算法上的平均准确率

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，任何未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.基于改进的局部异常因子检测的数据分类方法，包括以下步骤：

（1）离群因子检测

根据原始K-means算法在选取聚类中心点时的缺陷，提出了依据数据集中每个数据点的离群因子来排除离群点的方法，得出离群因子的计算公式（I）如下：

（I）

（2）相似性度量

对数据集的每一个属性如公式（II）进行初步的预处理：

（II）

其中，max(x_ij)表示数据第j列的最大值；

分别根据公式（III）和（IV）计算出数据中每个属性的熵值与权值：

（III）

（IV）

根据公式（V）计算出来的权值计算数据点之间加权欧式距离：

（V）

（3）初始聚类中心点的选取

Step1：由公式（I）计算出数据中每个数据点的离群因子，并按离群因子值从小到大进行排列形成数据集记为D_L；

Step2：在D_L上选取前a*N（0<a≤1,N为数据集的大小）个数据对象作为初始聚类中心的候选集F（a的大小可自适应调整）；

Step3：计算数据集F中所有数据的中心点c₀，利用相似性度量，找到距离c₀最远的数据点c₁，把c₁记作第一个初始聚类中心点，再次找到距离c₁最远的点c₂,将c₂记作第二个初始聚类中心点，建立集合C={c₁,c₂}；

Step4：计算剩余数据对象x_j分别到集合C={c₁,c₂}的加权距离，记作disc₁,disc₂,…，disc_i，找到点c_i+1=max{min(disc_j1,disc_j2，…，disc_ji)，i+1≤k，x_j∈F}，将c_i+1记为第i+1个初始聚类中心点,即C={c₁,c₂,…,c_i+1}；Step5：重复Step 4，直到找到k个初始聚类中心点；

（4）聚类中心的迭代优化

采用离群因子对数据间距离进行加权，具体实现过程如下：

Step1：将当前轮k个聚类中心点加入到候选集F中形成新集合F’，计算出F’中每一个对象的离群因子r_i（i∈F’）,并找出r_i的最大值与最小值；

Step2：利用离差标准化对数据间的离群因子进行标准化，使得新离群因子new_r_i的取值范围为大于等于1，具体计算见公式（Ⅵ）；

（Ⅵ）

在公式（Ⅵ）中，Max_r表示离群因子最大值，Min_r表示离群因子最小值；

Step3：计算F’中每一个对象x_j到聚类中心c_i的加权距离disw（x_j,c_i），然后与离群因子new_r_i相乘，见公式（Ⅶ）；

（Ⅶ）

Step4：计算每个对象x_j到聚类中心集C={c₁,c₂,…,c_k}中各点的最小真实距离Min_D_ji,并将对象x_j归为c_i的类中；

Step5：计算同一簇中所有对象的均值作为新的聚类中心，更新聚类中心集；

Step6：重复Step1-Step 5直到聚类中心不再发生变化;

其特征在于：步骤(3)中 Step1的公式（I）计算出数据中每个数据点的离群因子的方法为：

通过自适应调整k距离参数的局部离群因子检测LOF算法筛选出离群因子较小的数据作为初始聚类中心的候选集，LOF算法的k距离参数由如下公式自适应调整；

（Ⅷ）

其中， num(dataset)表示集合dataset的数据对象个数，β值可根据实际经验实际地设置为0.03。

2.如权利要求1所述的基于改进的局部异常因子检测的数据分类方法，其中步骤（4）中Step2的在优化聚类中心迭代阶段离群因子优化方法为：

在优化聚类中心迭代阶段，利用离差标准化对数据间的离群因子进行标准化，使得新离群因子new_r_i的取值范围为大于等于1，具体计算见公式（Ⅵ）

（Ⅵ）

在公式（Ⅵ）中，Max_r表示离群因子最大值，Min_r表示离群因子最小值。