CN105868266A

CN105868266A - 一种基于聚类模型的高维数据流离群点检测方法

Info

Publication number: CN105868266A
Application number: CN201610055727.9A
Authority: CN
Inventors: 罗光春; 陈爱国; 段贵多; 邓璇
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2016-01-27
Filing date: 2016-01-27
Publication date: 2016-08-17

Abstract

本发明属于数据挖掘算法在高维数据流处理领域的应用，特别涉及到一种基于聚类模型的高维数据流离群点检测方法。该方法首先通过样本数据流进行聚类，再分析聚类结果中每一个簇的特征维，在计算测试数据集属于哪个簇的时候，只计算与该簇特征维相关的属性，忽略吊冗余属性的计算，从而有效的降低了计算量。如果发现某个数据点不属于任何簇，该点将形成新的簇，如果某个簇长时间没有吸收新的数据点且该簇的数据点个数很少，那么该簇即是包含离群点的簇。本发明具有在高维数据流离群点检测时的效率和准确率都比传统的基于滑动窗口的离群点检测算法要高的技术效果。

Description

一种基于聚类模型的高维数据流离群点检测方法

技术领域

本发明属于数据挖掘算法在高维数据流处理领域的应用，特别涉及到了一种基于聚类模型的高维数据流离群点检测方法。

背景技术

随着传感器网络的普及以及“大数据”时代的到来，越来越多的数据由传统的静态数据向动态数据流的形式进行转变，这给基于静态数据的离群点检测方法带来了新的挑战，尤其是在数据维度非常高的情况下。与静态数据相比，动态数据流具有海量性、实时性和动态变化性的特点。

离群点检测也称为离群点挖掘，是数据流挖掘的重点之一，离群点检测的目的是检测出数据集中的噪声点从而进行数据清理，或发现数据集中潜在的有意义的信息。离群点检测的应用前景十分广阔，比如在计算机入侵检测系统、硬件故障检测、异常支付检测、公共卫生领域中包括异常疾病爆发监测、公共安全突发事件监控等，同时在地震监测、异常气候监控、生态系统失调检测等领域都有重要的应用价值。

聚类分析的目的就是把数据集中的数据项分成一个或者多个簇，使得不同簇之间的数据项的相似性很低，而同一簇内的数据项具有较大的相似性。随着硬件技术的快速发展和相应软件系统的不断升级，对于各种数据的采集也都采取的是自动化获取的方式，并且采集数据的量级也越来越大，不同数据项之间的相互关系错综复杂。通过聚类分析，能够很好的从海量数据集中发掘信息的分布特点，为更好的使用这些数据进行知识发现打下了扎实的基础。

然而传统的聚类算法都是基于静态数据的，也就是说在聚类的过程中数据可以被多次访问，但是如今许多应用场景产生的数据不仅数据量大、数据维度高而且这些数据伴随着时间的到达迅速变化。如金融行业的股票交易数据、卫星通讯数据等，而这些数据很多情况下是不允许被二次访问。因此在内存有限、动态增量的高维数据且只允许单遍数据访问的情况下，传统数据聚类方法已经无法适应，因此高维数据流聚类方法受到相关研究人员的高度关注。在高维空间数据集中，如何对数据流进行有效高质量高效率的聚类，从中挖掘出有价值的信息具有重要的理论意义和现实价值。在高维数据流中，传统的基于滑动窗口的离群点检测方法处理效率低，且基于欧式距离的相似度计算方法在高维数据集中显得毫无意义。

发明内容

针对上述存在问题或不足，为了能够高效准确的发现高维数据流中的离群点，并实现既能降低高维数据流处理计算量又能准确的发现数据流中离群点。本发明提供了一种基于聚类模型的高维数据流离群点检测方法。

该方法具体包括如下步骤：

步骤1、训练数据流处理，将训练数据集聚类分簇：

根据数据项的属性将数据分簇，然后分析每个簇的特征维；如果某个簇没有特征维，那么计算的时候该簇的所有维都要参与计算，然后将得到的每个簇的特征维存储在位图中；

特征维具体流程如下：

(1)假设在t₀时刻有|C|个簇，簇中每个数据点的维度是d，创建一个大小为|C|*d的二维位图，用于记录所有簇的特征维，初始时位图中所有元素值为0；

(2)遍历所有簇，对于任意一个簇C_i，计算该簇所有点在所有维度上的密度值，那么|C|个簇一共有|C|*d个密度值；密度值计算方式是用该维度上最大值减去最小值后再除以该簇数据点个数，密度值越小说明数据点在该维上越密集；

(3)在|C|*d个密度值中计算出密度值最小的|C|*L个值，其中0<L<d，密度值为0的不参与计算；

将位图中与对应最小密度值的维更新为1，所有簇的特征维就是对应所得位图中值为1的维；

步骤2、对待测试数据流进行离群点检测：

当接收到新的数据点后，首先衰减所有簇，分裂达到条件的簇，然后合并重叠簇，再检查当前簇的个数是否超过最大簇个数阈值K，超过阈值则合并相距最近的两个簇，标记为活跃簇，直至当前簇的个数不超过K；然后计算数据流中每个数据点与当前所有簇之间的距离，找到离该数据点最近的簇，并记录簇与簇之间最小距离阈值r2即mindist，如果r2小于定义的数据点与簇最小距离阈值r1即radius，那么该数据点被该簇吸收并更新该簇时间，否则以该点新建一个簇；

所述分裂条件是簇中任意一个维度的直方图H(t)出现了两个或两个以上的显著峰值；

步骤3、遍历所有簇，判断簇内个数：

记录每个簇最后一次吸收数据点的时间T和该簇中包含的数据点个数N；如果T与当前时间差值大于时间阈值T_r，并且数据点个数N小于最小数据点阈值N_min，标记该簇为离群点簇；

步骤4、输出离群点：

遍历所有在步骤3中标记为离群点簇，输出离群点，并删除离群簇。

本发明通过首先对训练数据流进行聚类，分析聚类得到的各个簇的特征维，在判断新到达的数据点属于哪个簇的时候只需要计算特征维忽略冗余维的计算从而有效的提高了高维数据流处理速率。最终在判断离群点的时候只需找到那些在很长一段时间内簇中数据点个数很少的簇即可，这些簇所包含的数据点即是离群点。

本发明提供的基于聚类模型的离群点检测方法在高维数据流离群点检测中，通过训练集计算所有簇的特征维，在判断新到达的数据点属于哪个簇的时候，只计算与该簇特征维相关的维度，忽略掉冗余维的计算，有效的降低了冗余维对计算结果照成的误差，最终通过查找所有簇中的离群簇来检测数据流中的离群点，无论是算法执行效率和离群点检测的准确率都有较好的表现。

综上所述，本发明具有在高维数据流离群点检测时的效率和准确率都比传统的基于滑动窗口的离群点检测算法要高的技术效果。

附图说明

图1为本发明的数据预处理流程图；

图2为本发明的处理流程图；

图3为特征维表示示意图。

具体实施方式

以下结合说明书附图和具体实施方式对本发明的方法做进一步详细说明。应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。

算法执行前对一些具体化参数进行初始化，算法容忍最大簇的个数K，数据点与簇最小距离阈值r1，簇与簇之间最小距离阈值r2(步骤2中mindist)，判断离群簇时簇中最小数据点个数m(步骤三中N_min)和最大相距时间间隔t(步骤三中Tr)等。

本发明的具体步骤包括：

步骤1：如图1所示，数据预处理，将输入的训练集进行聚类，然后分析计算聚类得到的每个簇的特征维，将特征维信息保存在二维位图中。

首先为每个簇建立一个直方图衰减结构(Fading Cluster Structure with Histogram，FCH)，FCH＝(FC1(t)，FC2(t)，W(t)，H(t)，BV(t))，其中FC1(t)是每维数据在时刻t根据衰减函数的累加和，FC2(t)是每维数据在时刻t根据衰减函数的平方和，衰减函数为f(t)＝e^-λt，包含N个数据点的簇的第j维的FC1(t)和FC2(t)计算公式如下：

F C 1^{j} (t) = Σ_{i = 1}^{N} f (t - T_{i}) \cdot (X_{i}^{j})

F C 2^{j} (t) = Σ_{i = 1}^{N} f (t - T_{i}) \cdot {(X_{i}^{j})}^{2}

W(t)是该簇中所有数据点在t时刻权值的和，其计算公式如下：

W (t) = Σ_{i = 1}^{N} f (t - T_{i})

H(t)保存的是簇的直方图衰减数据，对于一个具有N个数据点且数据维度为d的簇，它的每一维都有一个直方图，每个直方图有e个直方条，则第j维数据的第l个直方条的值计算公式如下：

其中，

left＝min(X_i ^j)

right＝max(X_i ^j)

r = \frac{r i g h t - l e f t}{α}

其中left是簇中第j维数据值中的最小值，right是簇中第j维数据值中的最大值，r是每个直方条宽度，y_il是数据X_i在第l个直方条中的权值。

如图3特征维表示示意图所示，t时刻有n个簇，每个簇中数据点包含m个属性，即m维数据。位图中值为1的表示该维是特征维。比如t时刻，Cluster_1的特征维为Dimension#1、Dimension#3……和Dimension#m，Cluster_2的特征维为Dimension#3。

步骤2：如图2所示，对待测试数据流进行离群点检测。当接收到新的数据点后，算法首先会衰减所有簇，分裂达到分裂条件的簇，然后合并重叠簇，然后检查当前簇的个数是否超过最大簇个数阈值K，超过阈值则合并相距最近的两个簇，标记为活跃簇，直至当前簇的个数不超过K。然后从所有簇中找到离新到达的数据点最近的簇，并记录最近距离，如果最近距离小于距离阈值r1，则新到达的数据点被该簇吸收，否则新到达的数据点形成新的簇。再遍历所有簇，找到离群簇，输出离群簇中的离群点。

具体如下：

步骤201、输入一组数据点X1，X2，X3....Xi，准备开始；

步骤202、接收数据点Xi；

步骤203、衰减所有簇：

遍历所有簇，重新计算该簇的权值，权值计算公式为：

W (t) = Σ_{i = 1}^{N} f (t - T_{i})

删除权值小于最小权值阈值remove_threshold的簇；

步骤204、分裂达到分裂条件的簇：

遍历所有活跃簇，检查每个簇中的衰减直方图，查看哪些簇达到了分裂点，分裂条件是簇中任意一个维度的直方图H(t)出现了两个或两个以上的显著峰值；

步骤205、合并重叠簇：

计算所有簇中任意两个簇之间的距离，如果两个簇之间的距离小于阈值merge_threshold就合并这两个簇，其中簇与簇之间距离计算公式为：

其中n是两个簇中特征维的个数总数，BV(t)是t时刻包含所有簇特征维的位图；

步骤206、限制最大簇个数：

如果当前簇集合中簇的总数超过了给定的最大阈值maximum_cluster，就合并簇集合中最相似的两个簇，直到所有簇总数小于maximum_cluster；

步骤207、标记活跃簇，检查所有簇：

如果发现其中任意一个簇的权值大于活动簇权值阈值active_threshold，就将这个簇记作活跃簇，小于活动簇权值阈值就将其记为非活动簇；

步骤208、判断是否有新的簇出现：

如果有新的活动簇出现，则重新计算所有簇的特征值；

步骤209、计算新到达的数据点与所有簇之间的距离，找到离该点最近的簇并记录与该簇的距离dist和该簇下标；

步骤210、判断dist是否小于最小距离阈值：

如果dist大于最小距离阈值，则为数据点Xi，建立新的FCH，其中数据点与簇之间距离计算公式为：

其中n是C簇中特征维的个数，BV(t)是t时刻包含所有簇特征维的位图；

如果dist小于最小距离阈值，新到达的数据点被该簇吸收；

步骤211、遍历所有簇，找到离群簇，输出离群簇中的离群点；

步骤212、等待新的数据点到达；

步骤213、判断数据流是否结束：

若没有结束，则跳转到211至202，继续等待新的数据点输入；

步骤214、如数据流结束则全部结束。

步骤3：查找离群簇

遍历所有簇，记录每个簇最后一次吸收数据点的时间T和该簇中包含的数据点个数N。如果T与当前时间差值大于时间阈值T_r并且数据点个数N小于最小数据点阈值N_min，标记该簇为离群点簇。

步骤4：输出离群点

遍历所有在上一步中标记为离群点簇的簇，输出离群簇中的数据点，输出完毕后删除该离群簇。

如上所述，本发明提供一种基于聚类模型的高维数据流离群点检测方法，通过对训练数据流进行聚类，并分析聚类得到的簇的特征维，在计算后续数据流中数据点属于哪个簇的时候只计算与特征维相关的维，忽略掉冗余维的计算，有效的减少了算法的计算量。

以上对本发明实施例所提供的一种基于聚类模型的高维数据流离群点检测方法进行了详细介绍，以上说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于聚类模型的高维数据流离群点检测方法，具体包括如下步骤：

步骤1、训练数据流处理，将训练数据集聚类分簇：

特征维具体流程如下：

步骤2、对待测试数据流进行离群点检测：

步骤3、遍历所有簇，判断簇内个数：

步骤4、输出离群点：

2.如权利要求1所述基于聚类模型的高维数据流离群点检测方法，其特征在于：

所述步骤1具体为：

首先为每个簇建立一个直方图衰减结构FCH，FCH＝(FC1(t)，FC2(t)，W(t)，H(t)，BV(t))，其中FC1(t)是每维数据在时刻t根据衰减函数的累加和，FC2(t)是每维数据在时刻t根据衰减函数的平方和，衰减函数为f(t)＝e^-λt，包含N个数据点的簇的第j维的FC1(t)和FC2(t)计算公式为：

F C 1^{j} (t) = Σ_{i = 1}^{N} f (t - T_{i}) \cdot (X_{i}^{j})

F C 2^{j} (t) = Σ_{i = 1}^{N} f (t - T_{i}) \cdot {(X_{i}^{j})}^{2}

W(t)是该簇中所有数据点在t时刻权值的和，其计算公式为：

W (t) = Σ_{i = 1}^{N} f (t - T_{i})

H(t)保存的是簇的直方图衰减数据，对于一个具有N个数据点且数据维度为d的簇，它的每一维都有一个直方图，每个直方图有e个直方条，则第j维数据的第l个直方条的值计算公式为：

其中，

left＝m in(X_i ^j)

right＝m ax(X_i ^j)

r = \frac{r i g h t - l e f t}{α}

其中left是簇中第j维数据值中的最小值，right是簇中第j维数据值中的最大值，r是每个直方条宽度，y_il是数据X_i在第l个直方条中的权值；

t时刻有n个簇，每个簇中数据点包含m个属性，即m维数据，位图中值为1的表示该维是特征维，即t时刻，Cluster_1的特征维为Dimension#1、Dimension#3……和Dimension#m，Cluster_2的特征维为Dimension#3。

3.如权利要求1所述基于聚类模型的高维数据流离群点检测方法，其特征在于：

所述步骤2具体为：

步骤201、输入一组数据点X1，X2，X3….Xi，准备开始；