CN108304851A

CN108304851A - 一种高维数据流异常点识别方法

Info

Publication number: CN108304851A
Application number: CN201710045966.0A
Authority: CN
Inventors: 禄盛; 胡子豪; 谢颖; 马艺纬; 朴昌浩
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2017-01-13
Filing date: 2017-01-13
Publication date: 2018-07-20

Abstract

一种高维数据流异常点检测方法，用于快速检测高维数据流中的潜在异常点。通过分析高维数据流模型的特点，提出运用基于鲁棒预处理过程来提高算法在不规范数据集上的稳定性。由于算法在面对高维数据时不适用，提出基于最近邻域和相似性生成测试数据集进行聚类分析，并基于角度向量估计选取相关数据集，以此对数据进行降维处理提高在高维空间的鲁棒性，并加快异常点检测方法的运算速度。最后基于角度异常点检测方法计算测试数据集的局部异常因子，并依据局部异常因子进行异常点的识别。采用本发明方法，能够有效提高算法在高维空间的稳健性，并在不降低算法精度的情况下，优化了算法的储存空间以及降低了算法的时间开销，为实时快速检测高维数据流模型中的异常点提供了理论基础。

Description

一种高维数据流异常点识别方法

技术领域

本发明涉及数据挖掘，异常点检测等技术，特别是涉及一种高维数据流异常点识别方法。

背景技术

随着科学技术的日益发展和人类社会的不断进步，人们不管是在生活或是科研中都积累着海量的数据，而数据挖掘技术作为一种新兴而重要的领域，其迅速发展为海量数据的充分利用注入了新的活力。因此，如何有效的从海量数据中发现有价值的异常数据在当下是迫切并且有意义的研究方向。

近年来，基于数据挖掘的异常点检测技术研究已经取得了丰硕的成果。国内外的学者们针对不同的领域提出了许许多多的异常点检测方法，对异常点检测研究起到了积极的推动作用。归纳起来主要由三种异常检测方法，分别是基于统计，基于距离，以及基于密度的异常检测方法。基于统计的异常检测方法一般需要知道数据的分布并对应建模，对符合特定分布的数据集有良好的效果。然而，这些数据并不总是符合特定模型的。基于距离的异常检测算法对高维数据集有较好的适应性，但是需要人工凭经验预设模型相关参数，对参数的依赖性较高，不符合我们数据流多变的特性。基于密度的算法对低维的数据集有良好的应用，但是随着维数的增加，数据集将变得越来越稀疏，该方法将会失效。因此，传统算法均不能针对高维数据有很好的应用。

伴随着大规模的数据集，数据流模型也得到人们的关注。不同于传统的静态数据库中的数据，数据流模型是有序的，通常是连续的、规模巨大、高速迁移并且数据分布经常随时间变化。由于数据流的特点，这给当前传统面对静态数据集的异常点检测算法提出了新的挑战。第一，由于数据流的规模宏大，我们不可能把所有的数据存入硬盘或者内存；第二，高速的特性要求我们实时并且更快的对数据进行检测；第三，传统算法对于不断迁移分布(数据迁移)的数据效果不是很理想。因此，提出有效的适应高维数据流模型的异常点检测算法日益成为我们异常点检测研究中的重点方向。

发明内容

针对上述背景中存在的问题，本发明提供了一种高维数据流异常点识别方法，以解决传统异常点检测方法不适用于高维数据流模型上的异常点检测难题。

本发明采用的技术方案的步骤如下：

一种基于鲁棒预处理过程和特征子空间的角度分布异常点检测方法，用于高维数据流异常点检测，包括步骤：

A.初始化局部异常因子数据集LOS和特征数据集S，并实时采集高维数据流数据的数据集X；

B.对数据集X进行预处理，依次运用中位数标准化方法和最大最小标准方法化进行特征归一化为X^*；

C.基于K最近邻方法得到X*中每个点同其他点之间的距离，从小到大排序后得到最近邻列表为NNk；

D.根据得到的最近邻列表NNk，运用SNN相似性方法计算得到数据集内每两个点之间的相似度基数构成数据集RP；

E.求得相似度数据集RP的平均向量，并计算出该向量与其他所有维度之间的成对余弦值PCos；

F.判断成对余弦值PCos与阈值G1之间的小大关系，若其大于阈值G1则保留其相关特征属性，否则剔除其相关特征属性；

G.运用角度方法计算处理过后的特征数据集S的局部异常因子LOS，假如LOS大于阈值G2，判定为异常点，反之为正常点；

H.更新LOS和S数据集并输出异常点。

所述步骤A创建数据集LOS用来存放每个点的局部异常因子，以及数据集S用来存放相关子集和每个保留特征属性的偏离度因子，初始化数据集LOS，S，并实时的采集高维的数据流数据，存放在数据集X中。

所述步骤B对采集到的存放高维数据流数据的集合X，首先运用中位数标准化方法预处理数据集X排除偏差较大和偏差较小的数据对数据集的影响，然后运用最大最小标准化方法预处理数据集保证数据集的自然分布属性，预处理后数据集为X^*。其中中位数标准化公式和最大最小标准化公式如下所示：

其中S_i为数据的平均偏差，object[j]·f_i和o_i·f_i为对象o的f特征属性，m_i为数据集f特征的中位数，min为数据集的最小值，max为数据集的最大值，newMax和newMin为用户定义的期望数据分布的最大最小值，这里定义为1和-1。

所述步骤C运用k最近邻域方法求采集到的最新数据与之前每个数据之间的欧式距离，按从小到大的顺序排序得到最近邻列表集NNk。K最近邻域方法通过在训练集中查找一组最接近测试对象的k对象组，并在此相邻关系下基于特殊类的突出的状态或性质来进行标记的分配。k大小的选取也十分关键，如果k选择的过小，则结果就会对异常点非常敏感；反之如果k选择的过大，则邻域就可能包含太多的其他类的点，在本研究中k取15。欧式距离公式如下所示：

其中x_1k为第一个数据点的第k维特征属性，x_2k为第二个数据点的第k维特征属性。

所述步骤D根据前面得到的最近邻列表集NNk，运用SNN相似性方法求得两两点之间的相似性基数，其中相似性基数为两点最近邻列表集NNk的交集，基数越大说明两点的生成机制越相似，反之亦然。点p和点q的SNN相似性公式如下所示：

Sim_SNN(p，q)＝Card(NN_K(p)∩NN_K(q)) (5)

其中函数Card返回NN_K(p)和NN_K(q)的交集，然后通过对p与数据集X中所有点的相似性基数排序，得到进一步的最近邻域表SNN(p)构成数据集RP。

所述步骤E求得数据集RP的几何中心点q，向量为待检测点与中心点q的连接向量，定义为各个维度的轴平行向量，最后定义成对余弦PCos为向量与各个维度的轴平行向量的平均值。成对余弦PCos的定义如下公式所示：

其中j^-为不同于j的任意维度。

所述步骤F根据成对余弦值PCos以及参数θ设定阈值G1，根据PCos的性质，PCos越大那么该维数的特征属性所占的权重也越大，反之亦然。因此假如PCos大于所设定的阈值G1，那么保留其相关特征属性，反之则剔除其相关属性。阈值G1的设定如以下公式所示：

其中θ为依据经验设定的参数，在本文中θ取0.45。

所述步骤G对数据集S的特征属性进行上一步处理后，基于角度异常点检测方法运用空间向量角度公式计算待检测数据的在保留子空间的局部异常因子LOS，假如局部异常因子大于设定的阈值G2，那么判定为异常点，反之为正常点。LOS的计算公式如下所示：

LOS(p)＝Var[Θ_apb]＝MOA₂(p)-(MOA₁(p))²； (8)

其中，公式(8)中的LOS(p)表示点P的异常因子值。公式(9)中的Θ_apb表示向量与向量构成的角度，点p与点a，点b互异，n表示数据集X中数据元素的个数。公式(10)中的Θ² _apb表示向量与向量之间所构成角度的平方，n表示数据集X中数据元素的个数。

所述步骤H返回上诉步骤计算得到的LOS值，以及处理过后的数据集S，并更新初始的数据集LOS，S。通过重复上诉步骤实现对高维数据流数据的异常点检测。

本发明提出了一种全新的高维数据流异常点检测方法，具有以下优点：

1.通过运用中位数标准化和最大最小值标准化技术对数据集进行归一化处理，有效的保证的数据集的规范性，避免了数据不规范对算法的影响，提高了算法的鲁棒性。

2.通过运用基于KNN最近邻域和SNN相似度方法，可以对高维数据流上的数据流进行聚类分析，避免了采用所有数据集进行异常检测，节省了时间开销，为快速检测提供了条件。

3.通过对数据集的所有维度进行权值计算，有效的将高维数据投影到了低维的子空间中，提高了算法在面对高维数据时的适应性，保证了算法在随着维度的增加时，能够稳定有效的运行。

附图说明

图1是本发明实施步骤A至步骤H的流程图。

图2是本发明的整体流程图。

具体实施方式

下面，结合附图对本发明的具体实施方式作进一步说明。

如图1和图2所示，本发明的具体实施过程和工作原理如下：

H.更新LOS和S数据集并输出异常点。

步骤A建立局部异常因子数据集LOS用来存放每个点的局部异常因子，以及特征数据集S用来存放相关子集和每个保留特征属性的偏离度因子，初始化局部异常因子数据集LOS和特征数据集S，然后实时的采集高维空间的数据流数据点，逐一存放在初始数据集X中。

步骤B首先对上述步骤获得的存放高维空间数据流数据点的初始数据集X运用中位数标准化方法预处理，以排除采集过程中偏差较大和偏差较小的数据点对算法的影响。然后再运用最大最小标准化方法预处理初始数据集X，来保证待测数据集的自然分布属性，经过标准归一化预处理后为待测数据集X^*。其中中位数标准化公式和最大最小标准化公式如下所示：

步骤C首先运用k最近邻域方法求得采集到的最新数据与待测数据集中每个数据之间的欧式距离，按从小到大的顺序排序保留前k个数据点存放在最近邻列表集NNk中。其中K最近邻域方法的核心是通过在训练集中查找一组最接近测试对象的k对象组，并在此相邻关系下基于特殊类的突出的状态或性质来进行标记的分配。并且k值大小的选取也十分关键，如果k选择的过小，那么结果就会对异常点非常敏感；反之如果k选择的过大，则邻域就可能包含太多的冗余点。在本研究中k值取15，欧式距离公式如下所示：

步骤D根据上一步得到的最近邻列表集合NNk，运用SNN相似性方法求得两两待测点之间的相似性基数值(比如点p和点q)，其中相似性基数值为两点最近邻列表集合NN_K(p)和NN_K(q)的交集，求得的基数值越大说明两点的生成机制越相似，反之求得的基数值越小说明两点的相似度越低。其中点p和点q的SNN相似性公式如下所示：

Sim_SNN(p，q)＝Card(NN_K(p)∩NN_K(q)) (5)

其中函数Card返回NN_K(p)和NN_K(q)的交集，然后通过对点p与初始数据集X中所有点的相似性基数值进行排序，得到进一步的最近邻域表SNN(p)并构成数据集RP。

步骤E求得数据集RP的几何中心点q，然后连接待检测点与中心点q得到向量定义为与各个维度轴平行的单位向量(例如5维数据集中第3维单位向量为最后定义成对余弦PCos为向量与各个维度的轴平行单位向量的平均值，且成对余弦PCos的定义如下公式所示：

其中j^-为不同于j的任意维度。

步骤F判断该维数的特征属性是否保留，其中阈值G1由成对余弦值PCos以及参数θ设定。根据PCos的性质，PCos越大说明该维数的特征属性所占的权重也越大应该保留，反之PCos越小说明该维数的特征属性所占的权重也越小应当剔除。因此判定如果PCos大于所设定的阈值G1，那么保留其相关特征属性，反之如果PCos小于所设定的阈值G1则剔除其相关属性。阈值G1的设定公式如下所示：

其中θ为依据经验设定的参数，在本文中θ取0.45。

步骤G对数据集S的特征属性进行上一步处理后，基于角度异常点检测方法运用空间向量角度公式计算待检测数据的在保留子空间的局部异常因子LOS，假如局部异常因子大于设定的阈值G2，那么判定为异常点，反之为正常点。LOS的计算公式如下所示：

LOS(p)＝Var[Θ_apb]＝MOA₂(p)-(MOA₁(p))²； (8)

步骤H返回上诉步骤计算得到的局部异常因子LOS值，以及处理过后的特征数据集S，并更新初始的局部异常因子数据集LOS和特征数据集S。通过重复上诉步骤实现对高维数据流数据的异常点检测。

Claims

1.一种基于鲁棒预处理过程和特征子空间的角度分布异常点检测方法，用于高维数据流异常点检测，包括步骤：

H.更新LOS和S数据集并输出异常点。

2.根据权利要求1所述一种高维数据流异常点检测方法，其特征在于：所述步骤A创建数据集LOS用来存放每个点的局部异常因子，以及数据集S用来存放相关子集和每个保留特征属性的偏离度因子，初始化数据集LOS，S，并实时的采集高维的数据流数据，存放在数据集X中。

3.根据权利要求1所述一种高维数据流异常点检测方法，其特征在于：所述步骤B对采集到的存放高维数据流数据的集合X，首先运用中位数标准化方法预处理数据集X排除偏差较大和偏差较小的数据对数据集的影响，然后运用最大最小标准化方法预处理数据集保证数据集的自然分布属性，预处理后数据集为X^*。

4.根据权利要求1所述一种高维数据流异常点检测方法，其特征在于：所述步骤C运用k最近邻域方法求采集到的最新数据与之前每个数据之间的欧式距离，按从小到大的顺序排序得到最近邻列表集NNk。

5.根据权利要求1所述一种高维数据流异常点检测方法，其特征在于：所述步骤D根据前面得到的最近邻列表集NNK，运用SNN相似性方法求得两两点之间的相似性基数，其中相似性基数为两点最近邻列表集NNK的交集，基数越大说明两点的生成机制越相似，反之亦然。

6.根据权利要求1所述一种高维数据流异常点检测方法，其特征在于：所述步骤E求得数据集RP的集合中心点q，向量为待检测点与中心点q的连接向量，定义为各个维度的轴平行向量，最后定义成对余弦PCos为向量与各个维度的轴平行向量的平均值。

7.根据权利要求1所述一种高维数据流异常点检测方法，其特征在于：所述步骤F根据成对余弦值PCos以及参数θ设定阈值G1，根据PCos的性质，PCos越大那么该维数的特征属性所占的权重也越大，反之亦然。因此假如PCos大于所设定的阈值G1，那么保留其相关特征属性，反之则剔除其相关属性。

8.根据权利要求1所述一种高维数据流异常点检测方法，其特征在于：所述步骤G对数据集S的特征属性进行上一步处理后，基于角度异常点检测方法运用空间向量角度公式计算待检测数据的在保留子空间的局部异常因子LOS，假如局部异常因子大于设定的阈值G2，那么判定为异常点，反之为正常点。

9.根据权利要求1所述一种高维数据流异常点检测方法，其特征在于：所述步骤H返回上诉步骤计算得到的LOS值，以及处理过后的数据集S，并更新初始的数据集LOS，S。通过重复上诉步骤实现对高维数据流数据的异常点检测。