CN109063733A

CN109063733A - 一种基于双参数离群因子的离群点检测方法

Info

Publication number: CN109063733A
Application number: CN201810675516.4A
Authority: CN
Inventors: 周红芳; 刘虹江; 张英杰; 张尧; 刘艺彬; 奚冰彦
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2018-12-21

Abstract

本发明公开了一种基于双参数离群因子的离群点检测方法，具体按照以下步骤实施：步骤1，给定一个空间分布数据集χ＝{X₁,X₂,...X_N}，计算数据集中每一个数据点X_i的局部密度，并将每个数据点X_i的局部密度按大小降序排列，形成一个密度集合；步骤2，根据步骤1的密度集合计算数据集中每一个数据点X_i的全局距离；步骤3，求取密度距离双参数离群因子DDPOS(X_i)；步骤4，判断是否为离群点，若DDPOS(X_i)的值等于1或者收敛于1那么点X_i就是一个正常的数据点，否则判断其为离群点。本发明的目的是提供一种基于双参数离群因子的离群点检测方法，提出了一种新的离群因子且应用提出的离群因子对离群点进行检测时检测精度高。

Description

一种基于双参数离群因子的离群点检测方法

技术领域

本发明属于数据挖掘方法技术领域，涉及一种基于双参数离群因子的离群点检测方法。

背景技术

信息数据在社会的发展起到越来越重要的作用，离群点检测方法研究在数据挖掘领域中已成逐渐成为与分类方法、聚类方法同等重要的一项课题。在一些特定的领域中，对于离群数据的挖掘价值要高于正常数据挖掘的价值，其目的是有效的将数据集中的异常数据识别出来，并且挖掘出数据集中有意义的潜在信息。离群数据挖掘是一种无监督的分类，保证发掘出那些与正常数据明显不同的数据点，即离群点。在其他一些文献中，离群点也称为异常点(anomaly)、冲突点(discordant observation)或者是噪声(noise)等，不同术语称谓代表着不同领域的用户看待数据角度的差异。

现有的离群点挖掘方法一般分为基于统计学习的方法、基于密度的方法、基于距离的方法和基于聚类的方法。此外，现在大部分研究的数据对象都是空间分布数据，将其他的数据转换为符合空间模型的数据同样也能够处理。

基于统计学习的方法主要是根据数据集的知识背景，应用统计技术对整体数据建立统计分析模型，主要步骤是对于输入的数据点，验证该点是否符合建立的模型，进而判断该点是否是离群点，目前该方法应用的已经很少了，因为遵循数据集的规律建立检测模型，不符合随机检测的核心内容，从未知数据集中检测出离群点才是现阶段离群点检测方法的核心任务。

基于密度的方法考察的是数据集中对象和它近邻的密度，如果一个对象的密度相对于它自己的近邻低得多，那么该对象被认为是一个离群点，基于密度的方法分为全局密度和局部密度两种，随着研究的深入，局部密度已经是现在的主流趋势。基于密度方法中有以下几种成熟的算法：LOF(Local Outlier Factor)，INFLO(Improving InfluencedOutlierness)，COF(Connectivity Based Outlier Factor)等，这些方法理论上是合理的，但应用于离群点检测时效果却十分不同，已有研究比较了上述几种经典的离群点检测算法，实验结果表明，INFLO方法最佳；LOF比COF略好，但是LOF的算法复杂度是最低的，而且也容易实现。

基于距离的方法考虑的是数据集中对象给定半径内的邻域，如果一个对象的距离邻域内有足够多的其它点，那么该对象被认为是一个离群点。基于距离方法中有以下几种经典的算法：DB(p,D)-outlier和LDOF(Local Distance-based Outlier Factor)等，LDOF是对DB(p,D)-outlier的拓展和改进，LDOF的算法更加优越一些。

基于聚类的方法全部都是在聚类方法的基础上进行改进的，聚类方法无需知道空间数据的分布情况，依靠单个样本在空间中按照相似度划分类别。有些优秀的聚类算法甚至能够发现数据中任意形状的簇，大大增加了检测算法的精确度和客观性。常用的聚类方法有：K-means，K-modes，DBSCAN，BRICH等。

以上几种离群点检测方法全部都是在单一的领域内发展的，单独考虑一种参数已经很难再突破离群点检测方法效率的瓶颈了。

发明内容

本发明的目的是提供一种基于双参数离群因子的离群点检测方法，提出了一种新的离群因子且应用提出的离群因子对离群点进行检测时检测精度高。

本发明所采用的技术方案是，一种基于双参数离群因子的离群点检测方法(ODA-DDPOS)，具体按照以下步骤实施：

步骤1，给定一个空间分布数据集χ＝{X₁,X₂,...X_N}，其中X_i∈R^d，i＝1,2,...N，计算数据集中每一个数据点X_i的局部密度ρ(X_i)，并将每个数据点X_i的局部密度按大小降序排列，形成一个密度集合

步骤2，根据步骤1的密度集合计算数据集中每一个数据点X_i的全局距离d(X_i)；

步骤3，求取密度距离双参数离群因子

步骤4，判断是否为离群点，若DDPOS(X_i)的值等于1或者收敛于1那么点X_i就是一个正常的数据点，否则判断其为离群点。

本发明的特征还在于，

步骤1中数据集中每一个数据点X_i的局部密度ρ(X_i)的计算方法为：其中为核函数，d_c为数据点X_i的截断距离，||X_i-X_j||是X_i与X_j之间的欧几里得距离，则

数据点X_i的截断距离d_c的计算方法为：计算数据点X_i与数据集中其余点的欧几里得距离，然后将计算的欧几里得距离升序排列选出前K个不重复的距离中最大的距离作为数据点X_i的截断距离。

步骤2全局距离d(X_i)的计算公式如下：

其中，S_i代表包括对象X_i的前K个对象集合，d(X_i)代表了对象X_i与X_j的平均距离，就是全局距离，并且对象X_i的密度要大于对象X_j的密度，limε＝0。

在计算全局距离d(X_i)时，当X_i前面的包括X_i的对象少于K个时，则无法满足前K个对象的平均距离，不足的使用0填充。

本发明的有益效果是：

1.本发明的方法综合考虑离群点检测算法的查准率和查全率，使用综合评估分数F1对算法的性能进行评估，对比传统的LOF，INFLO，LDOF以及RDOS算法，将本发明的离群因子用于离群点检测方法上检测的F1分数要高于其余4个对比算法，主要原因是：本发明在定义离群因子时，采用了密度、距离的双参数来计算离群因子分数，综合考虑离群数据的空间分布特性，这将有效的提高检测的查准率和查全率。

2.本发明在确定离群因子时将密度和距离两种离群因子参数结合起来，使用二者结合共同计算离群因子分数，并且全部过程只有一个手动参数K，大大增加了检测算法的客观性，时间、空间复杂度也经过严格的控制，相比较于LOF，INFLO，LDOF以及RDOS算法，本发明能够更好的检测出空间数据中的离群点，从而提高检测精度。

附图说明

图1是离群点的种类图；

图2是离群点检测算法的流程图；

图3是人造数据集的分布图；

图4是UCI真实数据集的分布图；

图5是IONSPHERE和KDDCUP99的实验结果F1曲线；

图6是LYMPHOGRAPHY和SHUTTLE的实验结果F1曲线；

图7是WAVEFORM和WBC的实验结果F1曲线；

图8是WDBC和WPBC的实验结果F1曲线；

图9是所有算法的平均性能图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明中的相关定义如下：

定义1(离群点)离群点(Outlier)是一数据对象，它显著不同于其他数据对象，是被不同的机制产生的一样，正常的数据对象又称为“正常”或期望数据，离群点则称为“异常”数据，离群点在不同的观察角度来看分类也是不同的。图1是离群点的种类，从图1中可以看出三个坐标轴上的刻度代表在不同分类下相应离群点的类型。

定义2(F1曲线)F1曲线是准确率(Precision，P)和召回率(Recall，R)的综合评价指标。在评估一个算法的性能时，P和R的值越大，算法的性能也就越好，但是P和R实际上是一对矛盾的度量，因此我们选择F1曲线来综合的评价实验结果，准确率、召回率和F1曲线的计算公式如下：

其中TP是真正例(True Positive)，FP是假正例(False Positive)，TN是真反例(True Negative)，FN是假反例(False Negative)，M是数据样本的总数量。

定义3(离群因子)离群因子是判断离群点的依据，它是点的离群程度，可以通过计算对象的偏离程度来给对象打分，从而确定该数据点究竟是否是离群点，图2所示的是离群点检测方法的流程图。

K为定值，有检测人员根据数据集的大小依据经验取值。

本发明基于以下原理：在低维空间中，离群点因为产生的机制不同于正常点，通常分布的很离散，使自己的密度比较小；又因为其分布的离散性，使得它远离于正常点簇，让自己变得足够独立，这种特点即使映射到高维空间中依然成立，根据新的特点并且综合考虑了基于密度和基于距离的算法的特点，将这两种算法的离群因子转换为新的综合离群因子共同来确定离群点。

具体的步骤如下：

步骤1，给定一个空间分布数据集χ＝{X₁,X₂,...X_N}，其中X_i∈R^d，i＝1,2,...N，计算数据集中每一个数据点X_i的局部密度ρ(X_i)，其中为核函数，d_c为数据点X_i的截断距离，||X_i-X_j||是X_i与X_j之间的欧几里得距离，则并将每个数据点X_i的局部密度按大小降序排列，形成一个密度集合

其中，S_i代表包括对象X_i的前K个对象集合，d(X_i)代表了对象X_i与X_j的平均距离，就是全局距离，并且对象X_i的密度要大于对象X_j的密度。当i的取值等于1时，说明X_i此时最有可能成为某一个簇的簇中心，所以对于它的全局距离，赋予一个最小值，即limε＝0；在计算全局距离d(X_i)时，当X_i前面的包括X_i的对象少于K个时，则无法满足前K个对象的平均距离，不足的使用0填充；全局距离可以有效的避免边界点对检测结果的干扰，全局距离求取的是对象与前K个密度比自己大的对象之间的平均距离，根据离群点空间分布的特点，密度越大的点越不可能成为离群点，相反成为簇中心的可能性很高，前K个对象的全局距离的计算无法满足前K个对象的平均距离，所以不足的使用0填充，这样做并不影响最后的计算精度，例如，假设K＝5，当i＝2时，前K个实际只有一个，那么，

步骤3，求取密度距离双参数离群因子

本发明的执行过程如表1所示

表1算法的执行伪代码

本发明离群点检测方法的性能评测：

为了验证本发明的有效性，选择四种离群点检测算法进行对比：LOF算法，RDOS算法，INFLO算法，LDOF算法，这四种算法是基于密度或者基于距离的，并且这四种算法和本发明都只有一个参数K最近邻需要计算，但是结果却不相同。

本发明采用1个人造数据集和8个University of California Irvine(UCI)公共真实数据集，1个人造数据集，8个真实数据集分布和属性分布分别如图3、图4和表2、表3所示，8个UCI标准数据集为：IONSPHERE，KDDCUP99，LYMPHOGRAPHY，SHUTTLE，WBC，WPBC，WAVEFORM和WDBC。

表2人工数据集属性

Datasets	Number of sample	Outlier ratio	class-cluster's number
				Synthetic data set	100	4％	2

在人造数据集中包含了两个簇，簇中心分别为(0.5,0.6)和(3.0,3.5)，其中100个样本点中包括了4个离群点，图3中实心菱形是正常点，空心矩形是离群点。

表3 UCI数据集属性

Datasets	#of features	#of outliers	#of data
				IONSPHERE	31	126	351
KDDCUP99	40	200	48113
				LYMPHOGRAPHY	19	6	148
SHUTTLE	9	13	1013
				WAVEFORM	21	100	3443
WBC	10	10	454
				WDBC	32	10	367
WPBC	32	47	198

表3中展示了8个UCI数据集的特性，这些数据集常用于分类，为了检测离群点算法的性能，根据数据集的知识背景进行处理，认为其中一个或多个簇是离群点，以SHUTTLE数据集为例，它包含了1013条样本数据，一条数据有9个属性，最大的4个集群包含了大部分的正常点，占总数的98.7％，剩余的3个簇被认为是离群点，再以WBC为例，这个数据集包含了454个样本，每个样本数据有9个属性，将WBC数据集划分为两个类，分别为良性和恶性，我们认为恶性的样本数据是离群点，在图4中我们选择了4个数据集，并且从它们的维度中选取了两个具有代表性的属性分布在二维空间中。本发明和四种对比算法都是基于最近邻方法的，所以参数K的取值范围是1到100，实验结果将以F1曲线的形式呈现出来。

实验结果对比：

对于8个真实数据集的结果展示我们将放在图5-图8中。图5是IONSPHERE和KDDCUP99的实验结果，在图5(a)中，K值超过了30之后DDPOS的性能就一直处于领先位置，表现要好于其他算法，在图5(b)中，阈值K在1-40和80-100的区间范围内，性能处于最优。

图6是LYMPHOGRAPHY和SHUTTLE的实验结果，在图6(c)中本发明ODA-DDPOS一直处于领先位置，显示了优越的性能，在图6(d)中当阈值K超过了55是算法一直处于优势位置。

图7是WAVEFORM和WBC的实验结果。在图7(e)中本发明(ODA-DDPOS)的与LOF算法性能相当，在图7(f)中本发明从一开始就表现出良好的性能，但在阈值K的40-80区间范围内，表现的适中。

图8是WDBC和WPBC的实验结果，这两个数据集是WBC数据集的变体，所以它们的整体走势比较接近WBC数据集，在图8(g)中本发明(ODA-DDPOS)一直保持着最好的性能，在图8(h)中除了在阈值K＝20和K＝47时和LDOF算法相平，其余时间本发明(ODA-DDPOS)都保持着最优性能。

图9是所有算法的平均性能，能够清楚的展现出本发明(ODA-DDPOS)的优点，特别是在IONSPHERE，KDDCUP99，LYMPHOGRAPHY，SHUTTLE，WBC和WPBC这6个数据集中表现优异，并且从图中可以看出本发明明显超过了RDOS，LOF，INFLO，LDOF算法，并且当阈值越来越大时，检测效果的差距尤为明显，这很好的说明了本发明(ODA-DDPOS)在离群点检测中的有效性。

Claims

1.一种基于双参数离群因子的离群点检测方法，其特征在于，具体按照以下步骤实施：

步骤3，求取密度距离双参数离群因子

2.根据权利要求1所述的一种基于双参数离群因子的离群点检测方法，其特征在于，所述步骤1中数据集中每一个数据点X_i的局部密度ρ(X_i)的计算方法为：其中为核函数，d_c为数据点X_i的截断距离，||X_i-X_j||是X_i与X_j之间的欧几里得距离，则

3.根据权利要求2所述的一种基于双参数离群因子的离群点检测方法，其特征在于，所述数据点X_i的截断距离d_c的计算方法为：计算数据点X_i与数据集中其余点的欧几里得距离，然后将计算的欧几里得距离升序排列选出前K个不重复的距离中最大的距离作为数据点X_i的截断距离。

4.根据权利要去1所述的一种基于双参数离群因子的离群点检测方法，其特征在于，所述步骤2全局距离d(X_i)的计算公式如下：

5.根据权利要去4所述的一种基于双参数离群因子的离群点检测方法，其特征在于，在计算全局距离d(X_i)时，当X_i前面的包括X_i的对象少于K个时，则无法满足前K个对象的平均距离，不足的使用0填充。