CN107066613A

CN107066613A - 一种基于相对密度的异常检测算法

Info

Publication number: CN107066613A
Application number: CN201710315738.0A
Authority: CN
Inventors: 关东海; 陈凯; 袁伟伟
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2017-05-02
Filing date: 2017-05-02
Publication date: 2017-08-18

Abstract

本发明公开的一种基于相对密度的异常检测算法，属于机器学习和数据挖掘领域。本发明的异常检测算法基于最近邻思想，采取了局部相对密度的方法，异常点由数据点的密度和其近邻密度之间的差异而判定，对于一个给定的数据点，其与近邻之间的相对密度差异越大，则该数据点的异常性越大。同传统的基于密度的方式相比，相对密度方法更具准确性，不仅能够解决基于距离的方法无法检测局部异常的问题，而且能够克服基于密度方法对稀疏数据失效的缺陷。对于不同的数据能够检测出不同的异常类型的点。

Description

一种基于相对密度的异常检测算法

技术领域

本发明涉及数据挖掘和机器学习技术领域，具体是基于相对密度的异常检测算法。

背景技术

异常检测在数据挖掘和机器学习领域中是非常重要的任务。异常检测主要是在大量复杂的数据集中挖掘稀少的模式。在实际应用中异常模式所含有的信息往往比正常模式所含有的信息更加重要，例如在医疗诊断中挖掘出癌症病症(稀少模式)比正常信息要有用。异常检测技术广泛的应用于各种领域，例如网络流量入侵，信用卡检测，医疗健康检测等。

机器学习和数据挖掘已经定义了许多异常值检测方法，例如基于分布[1]，基于距离[2][3]，基于密度[4]，基于聚类[5][6][7][8]。基于分布的异常检测需要先验的知道数据服从某种分布，然而在现实世界中很难得到数据的真实分布。[2]提出一种基于距离的异常检测方法，把数据点到其k-th近邻的距离作为该点的异常性。然而这种方法只能够检测到全局异常，对于局部异常的检测就会失效。[4]提出一种基于密度的异常检测，为一个数据点分配异常因子根据他所围绕的近邻。异常因子反映了一个数据点与其近邻的接近程度。这种方法是很好的异常检测方法，但是在稀疏的数据集上有一定的缺陷性。[3]提出了LDOF的方法是用来检测稀疏数据集中的异常点。基于聚类的思想是异常点往往出现在小的簇中。首先把数据集进行聚类，给定一个阈值，如果簇中的点的个数小于所给的阈值则定义为异常。本发明提出了一种相对密度的方法，本方法利用数据点的近邻密度与该数据点密度的比值来衡量数据的异常性。该方法能够检测到局部异常，并且克服了在稀疏密度情况下，基于密度方法效果减弱的问题。本方法对于异常点的检测准确率更高。

参考文献：

[1]Barnett V，Lewis T.Outliers in statistical data[M].Wiley，1974.

[2]Knox E M，Ng R T.Algorithms for mining distancebased outliers inlarge datasets[C]//Proceedings of the International Conference on Very LargeData Bases.1998：392-403.

[3]Zhang K，Hutter M，Jin H.A New Local Distance-Based OutlierDetection Approach for Scattered Real-World Data[C]//Pacific-Asia Conferenceon Advances in Knowledge Discovery and Data Mining.Springer-Verlag，2009：813-822.

[4]Breunig M M.LOF：identifying density-based local outliers[C]//ACMSIGMOD International Conference on Management of Data，May 16-18，2000，Dallas，Texas，Usa.CiteSeer，2000：93-104.

[5]Ester M，Kriegel H P，Sander J，et al.A density-based algorithm fordiscovering clusters in large spatial databases with noise[C]//Kdd.1996，96(34)：226-231.

[6]Chawla S，Gionis A.k-means-：A unified approach to clustering andoutlier detection[C]//Proceedings of the 2013SIAM International Conference onData Mining.Society for Industrial and Applied Mathematics，2013：189-197.

[7]Huang J，Zhu Q，Yang L，et al.A Novel Outlier Cluster DetectionAlgorithm without Top-n Parameter[J].Knowledge-Based Systems，2017.

[8]Lucic M，Bachem O，Krause A.Linear-Time Outlier Detection viaSensitivity[J].arXiv preprint arXiv：1605.00519，2016.

发明内容

本发明要解决的问题是提供一种基于相对密度的异常检测算法，该算法采用基于相对密度的方式，假如数据点的密度与其近邻之间的密度的差异性较大，则该数据点的异常性高，在本方法中我们使用的是数据点的近邻密度与该点密度的比值来衡量该点的异常性。该比值越大则其异常性越高。

如图1所示，本发明公开的基于相对密度的异常检测算法，包括以下步骤：

步骤1)确定算法输入变量，包括待检测的无标记样本集D，最近邻的个数k，根据先验知识获得的异常点的个数n；

步骤2)将数据集D归一化，使得每个属性的取值在[0，1]之间，归一化的数据集记为D′；

步骤3)数据D′中给定的样本点p，根据距离函数dist()，获取点p的k个最近邻N_k(p)；

步骤4)计算点p到N_k(p)中所有的点的平均距离则根据dist_knn(p)可以计算点p的密度density(p)＝1/dist_knn(p)；

步骤5)对于集合N_k(p)中的每一个数据点o∈N_k(p)，分别计算其则可以计算点p的近邻密度

步骤6)计算点p的相对密度Rdensity(p)＝nn_density(p)/density(p)；

步骤7)数据集D′中的所有的样本都计算其Rdensity，可得到一个Rdensities[]数组；

步骤8)将Rdensities[]中的元素按照降序排列得到一个sorted_Rdensities[]数组；

步骤8)选取sorted_Rdensities[]中top-n个样本将其定义为异常点。

进一步，所述步骤1)中，k的选取对预测有一定的影响，我们这里k从[50，200]随机取值。

本发明的有益效果是：本发明基于相对密度的异常检测算法，采用数据点的密度与其近邻密度之间的差异性来衡量该数据点的异常性，同传统的异常检测算法相比，基于相对密度的异常检测算法具有更高的准确性和鲁棒性，本方法不仅能检测到全局异常，还能够检测到局部异常，因此能够满足不同类型数据和异常的要求。本发明的异常检测算法解决了现有异常检测算法识别准确率不高的问题，保证了异常识别的高准确度。

附图说明

图1为本发明基于相对密度的异常检测流程图。

具体实施方式

下面结合附图，对本发明提出的一种基于相对密度的异常检测算法进行详细说明。

如图1所示，本发明的基于相对密度的异常检测算法，包括以下步骤：

步骤1)确定算法输入变量，包括待检测的无标记样本集D，最近邻的个数k，k从[50，200]随机选择，根据先验知识获得的异常点的个数n；

步骤2)数据D中给定的样本点p，根据距离函数dist()，该距离函数为欧式距离，获取点p的k个最近邻N_k(p)；

步骤3)计算点p到N_k(p)中所有的点的平均距离dist_knn(p)，则根据dist_knn(p)可以计算点p的密度density(p)；

步骤4)对于集合N_k(p)中的每一个数据点o∈N_k(p)，分别计算其dist_knn(o)，则可以计算点p的近邻密度nn_density(p)；

步骤5)计算点p的相对密度Rdensity(p)；

步骤6)数据集D中的所有的样本都计算其Rdensity，可得到一个Rdensities[]数组；

步骤7)将Rdensities[]中的元素按照降序排列得到一个sorted_Rdensities[]数组；

步骤8)选取sorted_Rdensities[]中top-n个样本将其定义为异常点。

以下详细地描述本发明对UCI数据库中6组数据和一组人工合成的数据的测试结果同其他异常检测方法相比准确性的改进。本发明提出的异常检测与目前最为流行的LOF和LDOF进行了比较。因为原始UCI数据库中数据存在标签，本实施例中，我们人为的将数据标签去除。本实例中，异常检测算法的性能使用AUC和Recall来衡量。AUC和Recall的值越高则算法的性能越好。

表1-数据集

数据集	样本数(m)	异常个数(n)	维数(d)
				Arrhythmia	420	183	277
Ionosphere	351	126	34
				Pim	768	268	8
Wdbc	569	212	30
				Glass	214	68	10
Handwritten	1593	65	255
				Synth	248	6	2

算法中的参数设置如下：对于LOF和LDOF中的参数k的选取，我们使用的是该算法作者常用的或者是建议的取值。LOF中k＝5，LDOF中k应该大于等于其维数[3][8]，在本发明中我们取k为数据的维数。本发明中参数k从[50，200]随机取值，重复十次上述步骤，最终结果取平均值。我们的方法定义为RDOF(Relative Density-Based Outlier Factor)。

表2-三种异常检测方法的AUC值，结果如下。加粗的为最优值

	LOF	LDOF	RDOF
				Arrhythmia	0.7082	0.7059	0.7407
Ionosphere	0.8353	0.8709	0.8798
				Pim	0.5768	0.5601	0.6273
Wdbc	0.5389	0.5290	0.5644
				Glass	0.5487	0.5980	0.7653
Handwritten	0.5365	0.5625	0.5542
				Synth	1.0000	0.8981	1.0000
Average	0.7768	0.7492	0.7889

表2-三种异常检测方法的Recall值，结果如下。加粗的为最优值

为了排除k对实验结果的影响，我们取k＝5、20、30、50、100、200，在数据集Ionosphere上比较各个算法。

表3-在数据集Ionosphsre上，不同的k取值下，三种异常检测方法的AUC值

	LOF	LDOF	RDOF
				5	0.83527	0.7136	0.8220
20	0.8643	0.8521	0.8615
				30	0.8892	0.8655	0.8711
50	0.8572	0.8799	0.8869
				100	0.8572	0.8766	0.8493
200	0.7428	0.8525	0.8624
				Average	0.841	0.850	0.8624

以上表2中显示，在实验用的7个数据上，本发明提出的算法稳定的优于传统的两种算法。

根据表3中显示，在数据集Ionosphere上基于k取值5，20，30，50，100，200的情况下，最终结果取平均值，本发明提出的算法略优于LOF算法和LDOF算法。

综上所述，以上实施例仅用以说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于相对密度的异常检测算法，其特征在于，包括以下步骤：

步骤3)数据D中给定的样本点p，根据距离函数dist()，获取点p的k个最近邻N_k(p)；

步骤4)计算点p到N_k(p)中所有的点的平均距离dist_knn(p)，则根据dist_knn(p)可以计算点p的密度density(p)；

步骤5)对于集合N_k(p)中的每一个数据点o∈N_k(p)，分别计算其dist_knn(o)，则可以计算点p的近邻密度nn_density(p)；

步骤6)计算点p的相对密度Rdensity(p)；

步骤9)选取sorted_Rdensities[]中top-n个样本将其定义为异常点。

2.根据权利要求1所述的基于相对密度的异常检测算法，其特征在于：所述步骤1)中，k的取值影响检测算法的性能，然而k的值确定非常困难。由于是无监督学习，我们无法通过验证来确定k的值。因此在本发明中k从[50，200]随机取值，重复试验10次，取其平均值作为最终实验结果，这样减少算法对参数k取值的敏感度。

3.根据权利要求1所述的基于相对密度的异常检测算法，其特征在于：所述步骤2)中，所选取的归一化方式为其中x_i为样本点的第i个属性，min和max分别为该属性的最小值和最大值。

4.根据权利要求1所述的基于相对密度的异常检测算法，其特征在于：所述步骤3)中，所选取的距离度量为欧式距离。

5.根据权利要求1所述的基于基于相对密度的异常检测算法，其特征在于：所述步骤4)中，所述点p的密度为density(p)＝1/dist_knn(p)。

6.根据权利要求1所述的基于相对密度的异常检测算法，其特征在于：所述步骤5)中，点p的近邻密度为

7.根据权利要求1所述的基于相对密度的异常检测算法，其特征在于：所述步骤6)中，点p的异常性用相对密度来表示，记为Rdensity(p)，Rdensity(p)＝nn_density(p)/density(p)。