CN107679215A

CN107679215A - 一种基于质心的离群点检测方法

Info

Publication number: CN107679215A
Application number: CN201710975616.4A
Authority: CN
Inventors: 王晓春
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2017-10-19
Filing date: 2017-10-19
Publication date: 2018-02-09

Abstract

本发明公开了一种基于质心的离群点检测方法，以物理意义上的质心定义判断数据集中的边界点检测离群点，检测方法结合基于距离和基于密度的检测思路，使用和数据维数相关的最近邻值及其距离为依据，通过与质心的距离为度量判断数据集中的边界点，并且利用边界点的密度有选择性地发现离群点，不需要用户输入需求的离群点数目，算法会根据从数据集中得到的数据总数、数据维数和离群点度量范围确定数据集中的离群点数目，使得在用户对没有数据集相关领域知识的情况下也可以通过基于质心的离群点检测方法检测离群点。

Description

一种基于质心的离群点检测方法

技术领域

本发明涉及离群点检测方法，特别涉及一种基于质心的离群点检测方法。

背景技术

离群数据挖掘技术是新兴的数据库技术的研究热点，由于度量或执行错误所导致的，例如人为错误、测量设备故障或存在噪声，由于数据来源于异类，如欺诈、入侵、疾病爆发等，或者是固有的数据可变性的结果皆被统称为离群点，离群点的检测和分析是数据挖掘中的一个重要任务，离群点本身可能隐含重要的信息并且具有很高的实用价值，随着离群点检测应用领域的扩展，研究者根据不同的离群点假设开发了许多不同的离群点检测方法，如基于统计的方法，基于深度的方法，基于距离的方法，基于密度的方法和基于聚类的方法。

基于统计的离群点检测方法易于理解，实现起来也较方便，但是绝大多数基于统计的方法仅对数据分布满足某种概率分布的数值型单维数据集较为有效，而现代大型数据库通常不是先验的，标准分布也仅针对低维数据,因此不能用于检测高维数据中的异常。

其他类型的离群点检测算法也从不同的角度看待离群点检测这一问题，但由于离群点并没有严格的、统一的定义，这些算法的适用范围都或多或少受到限制。

发明内容

本发明所要解决的技术问题是提供一种基于质心的离群点检测方法，以物理意义上的质心定义判断数据集中的边界点检测离群点。

进一步方案为：

检测方法结合基于距离和基于密度的检测思路，使用和数据维数相关的最近邻值及其距离为依据，通过与质心的距离为度量判断数据集中的边界点，并且利用边界点的密度有选择性的发现离群点。

进一步方案为：

具体包括如下步骤：

a)对数据集中每个数据对象计算其k＝2d个最近邻，其中k为近邻数，其中d为数据维数；

b)根据k个最近邻的特征向量计算质心；

c)计算质心到该数据对象的距离；

d)根据所有数据对象在c)中计算出的距离的平均值判断数据对象是否是边界点；

e)对于d)步骤中判断出的边界点通过基于密度的方法判断离群。

进一步方案为：

步骤a)中的所需的输入数值参数分别为：来源于用户的、离群点度量范围和来源于数据集本身的，包括数据集中数据总数和数据维数。

进一步方案为：

步骤a)中计算每个数据对象的最近邻采用暴力搜索，即对于数据集中每个数据对象，遍历整个数据集并求出它与剩余所有数据对象的距离值，对距离值按照从小到大的顺序排序得到前k个所需的最近邻。

进一步方案为：

步骤b)对于求出的k个最近邻，根据d维空间中坐标系计算公式计算出质心坐标，得出数据对象与求出的质心坐标距离。

进一步方案为：

离群点度量范围仅指通过检测出的边界点发现离群点时判断的近邻点数目，不代表预先估计的离群点个数。

有益效果：

(1)不需要用户输入需求的离群点数目，算法会根据从数据集中得到的数据总数、数据维数和离群点度量范围确定数据集中的离群点数目。

(2)离群点度量范围与基于统计的检测方法、基于距离的检测方法、基于密度检测方法中所需的输入离群点个数并不相同，而这一点正使得在用户对没有数据集相关领域知识的情况下也可以通过基于质心的离群点检测方法检测离群点。

附图说明

图1为本发明二维空间质心示意图。

图2为本发明算法的步骤流程示意图。

图3为数据集a和数据集b的分布图。

图4为使用不同离群点检测算法在数据集a中的离群点检测结果。

图5为使用不同离群点检测算法在数据集b中的离群点检测结果。

具体实施例

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图及实施例，对本发明进行进一步详细说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本特征，因此其仅显示与本发明有关的构成。但是应该理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限制本发明的范围。

实施例1

基于质心的离群点检测算法思想来源于物理意义上的质心，并通过对数据集的观察，发现质心的定义可以用于判断数据集中的边界点，从而检测离群点。以下从物理上的质心定义开始描述算法思想。

若假想该质点系的总质量集中于该点，则其对于坐标轴的矩等于该系各质点质量对同一坐标轴矩之和。在一个d维空间中的质心，坐标系计算公式为：

(为质心的特征向量，N为点的个数，i代表点的序号，坐标系中点的特征向量，为空间中特征向量的值的总和)

如图1所示，给定一个点o，其附近距其距离最小的4个点为o1，o2，o3，o4，对于这四个点求质心得到o’。设各点坐标为o1(x1,y1)，o2(x2,y2)，o3(x3,y3)，o4(x4,y4)，则求得的质心o’坐标为

在数据集中数据分布相对均匀的情况下，对其中一点o到根据其最近2d(d表示维数)个点求得的质心的距离在点处于簇中时较小，而在处于簇边缘或者簇外时则较大。

例如图1中，若数据分布较均匀，则对于处于簇中的点o，通过o点附近的4个近邻所求得的质心o’和点o的距离会比较近。而当o处于簇边缘或者簇外时，质心o’和o的距离就较大。

如图2所示，本算法的思路步骤具体如下：

a)对数据集中每个数据对象计算其k＝2d个最近邻，其中k为近邻数，d为数据维数；

b)根据k个最近邻的特征向量计算质心；

c)计算质心到该数据对象的距离；

对于边界点判断，可以使用均值标准差，数据组的平均值有算术平均值，几何平均值，平方平均值，调和平均值，加权平均值等，由于所求得的质心距离是单值数据，在此使用算术平均值。

数据集的算数平均值由下式可以计算：

标准差是各数据偏离平均数的距离的平均数，是方差的算术平方根。标准差能反映一个数据集的离散程度。设数据集的平均值为μ，标准差σ为：

算数平均值加标准差得到的值可以大于或者说涵盖数据集中的大部分数据，若数据集近似符合正态分布模型，则约68％数值分布在距离平均值在1个标准差之内的范围，约95％数值分布在距离平均值有2个标准差之内的范围，以及约99.7％数值分布在距离平均值有3个标准差之内的范围。

在求出所有数据对象的质心距离ρ后，通过计算质心距离的平均值和标准差并相加得到阈值，质心距离大于阈值的数据对象将被视为边界点。

在均值加3个标准差的情况下求出的边界点非常少甚至没有，对于划分簇的边界几乎没有价值，在均值加2个标准差的情况下，也不能清晰地显示边界。在均值加一个标准差的情况下可以比较明显的区分出簇的边界点和簇内部的点。

由于数据集并不一定严格按照正态分布模型分布，在数据集中可能出现少量离群程度非常大的点，为了排除这些点对计算平均值的影响，在阈值定为平均值加一个标准方差的基础上，将阈值定为中位数加一个标准方差。

使用中位数加一个标准方差的阈值在实验数据集上检验可以比较清晰地区分出簇的边界点和簇内部的点。

根据得出的边界点判断离群点时，对于2维数据集，其规模小于500时，使用p＝4k＝16作为邻域大小能得出相对较好的离群点检测结果，其中用于判断的边界点密度为前25％。对于规模大于500的数据集，数据集大小为N时，可按照p＝N/500*4k这一经验结果类推。

对于中低维数数据集(d>2)，因为维数对k近邻计算效率的影响，邻域大小p不宜设置过大，例如维数在5-15维，数据集大小小于500的数据集，根据前述k值与维数关系，其k值范围为5*2<k<15*2。此时如果使用p＝4k这一经验结果势必使得算法计算量激增。在这种情况下，一般考虑直接使用k值或者2k值作为邻域大小p，既能在一定程度上保证离群点的检出率，又能不过大增加算法时间消耗。

实施例2

在基于实施例1的基础上，

本算法的思路步骤还可以具体如下：

b)根据k个最近邻的特征向量计算质心；

c)计算质心到该数据对象的距离；

对于边界点判断，为了更好的使边界点反映局部的边界情况，按照范围内比值比起原值更能使数据离散这一想法，使用与k近邻距离比值实现，使用数据点的质心距离ρ与到其k近邻的距离中的某些值之比作为判断边界点的依据。

a.使用数据点o的质心距离ρ与其k近邻的最近距离之比

Raito＝ρ/o.firstnearstk.distance (4)

b.使用数据点o的质心距离ρ与其k近邻的最远距离之比

Raito＝ρ/o.lastnearstk.distance (5)

c.使用数据点o的质心距离ρ与其k近邻的平均距离之比

Raito＝ρ/(∑o.firstnearstk.distance/k)(6)

d.使用数据点o的质心距离ρ与其k近邻的中值距离之比

Raito＝ρ/(o.firstnearstk.distance) (7)

实施例3

在基于实施例1的基础上，

本算法的思路步骤还可以具体如下：

b)根据k个最近邻的特征向量计算质心；

c)计算质心到该数据对象的距离；

一个基于质心距离ρ的比值作为判断边界点的依据，公式如下：

使用数据对象o的质心距离ρ与其k近邻的质心距离ρ的均值做比，可以消除可能出现的距离过小导致对象o的质心距离ρ不大的情况下比值较大的情况。

算法实验结果分析

本次实验评估选择2个包含一定数量离群点的二维合成数据集用于进行实验检测离群点，将本算法与现有的DB、DBmax、LOF、INFLO算法进行比较。给出各个算法在相同参数条件下的离群点检测情况，并给出直观的数据图像。在对算法性能的分析中，主要关注算法在不同数据集上对离群点的检出率，暂时不考虑时间性能对算法效率的影响。

1、合成数据的性能

现有数据集a包含134个数据和一个簇，一些局部离群点。数据集b包含441个数据和6个可见的簇，较多的全局离群点和一些局部离群点。

如图3所示，数据集a中的簇和局部离群点通过一个小的、细长的数据对象组相连，大簇中数据密度分布不是非常均匀，但能很好的分辨簇和局部离群点的分布位置，尽管在密度上数据差距并不大。数据集b中的各个簇则仅能通过数据聚集密集的位置分辨，在各个簇相连的位置并不能很容易划分数据对象属于哪个簇，但数据集中明显远离簇的全局离群点能很好的分辨。

对于数据集a，分别使用基于质心的离群点检测算法、DB算法、DBmax算法、LOF算法、INFLO算法检测离群点。

其中数据集a的初始条件为数据维数d＝2，数据对象数N＝134，各个算法的初始条件为：

a)基于质心的离群点检测算法：邻域大小p＝16；

b)DB算法：k近邻个数k＝4，离群点个数n＝6；

c)DBmax算法：k近邻个数k＝4，离群点个数n＝6；

d)LOF算法：k近邻个数k＝4，离群点个数n＝6；

e)INFLO算法：k近邻个数k＝4，离群点个数n＝6；

经过计算得出的结果如图4所示，其中a为原始数据，b为基于质心的离群点检测算法检测结果，c为DB算法检测结果，d为DBmax算法检测结果、e为LOF算法检测结果，f为INFLO算法检测结果。

从各个离群点检测算法对数据集a的离群点检测结果可以看出，基于质心的离群点检测算法在相同初始条件(作用结果相同)下，能够得出比其他几种方法更好的检测结果。说明这种算法在检测局部离群点时准确性好，并且应用于形状不规则的二维离群点检测问题时，可以有效地检测出离群点。

对于数据集b，使用基于质心的离群点检测算法、DB算法、LOF算法、INFLO算法检测离群点。除数据集b的初始值：数据维数d＝2，数据对象数N＝441之外，

各个算法的初始条件为：

a)基于质心的离群点检测算法：邻域大小p＝16；

b)DB算法：k近邻个数k＝4，离群点个数n＝26；

c)LOF算法：k近邻个数k＝4，离群点个数n＝26；

d)INFLO算法：k近邻个数k＝4，离群点个数n＝26；

结果如图5所示，基于质心的离群点检测算法在相同初始条件(作用结果相同)下，能够得到和DB算法相当的检测结果，并且明显比LOF算法和INFLO算法的准确率高。在此类数据中DB算法具有优势是因为数据集b中的显著离群点基本均为全局离群点，同样也可以说明基于质心的离群点检测算法在检测全局离群点时也有较好的准确率。

经过以上两个在合成数据集上的实验证明了基于质心的离群点检测方法对于全局离群点和局部离群点均有较好的检出率，相较DB算法、DBmax算法、LOF算法、INFLO算法具有一定的优势。

2、对真实数据的性能

使用著名的wine数据集对基于质心的离群点检测算法的性能进行验证，该数据集来源于UCI machine learning数据库，其数据对象来源于对生长在意大利一个区域的三种不同类型葡萄酒的生化分析结果。

Wine数据集中包含3个簇，178个数据对象，每个对象有13个属性值。为使这一主要应用于验证聚类算法聚类的数据集可以用于验证离群点检测算法，使用Heetal和Harkinsetal提出的实验方法进行实验。

Wine数据集中的3个簇分别含有59、71、48个数据对象，将其按顺序编号为1-178号数据对象。按照Heetal和Harkinsetal中的实验方法，对wine数据集进行修改，分别去除其中11-59号、60-120号对象，得到wine1-10、wine121-130两个新数据集。即保留某簇中的10个数据对象，将簇中的其他对象除去，则这10个对象对于剩余的数据集是离群点。每个新的实验数据集上各有到10个不同的离群点，使用基于质心的离群点检测算法、DB算法、LOF算法、INFLO算法对这两个数据集检测离群点，统计检测结果。

由于wine数据集中的每个数据对象有13个属性值，即数据集维数d＝13，所以根据基于质心的离群点检测算法的假设，k＝2d＝26，对于其他算法也取k＝26，目标离群点个数n＝10。得到的离群点检测结果对于目标离群点个数的百分比如下表1所示。

Dataset	基于质心的算法	DB	LOF	INFLO
					wine1-10	90％	90％	90％	90％
wine121-130	60％	30％	50％	50％

表1在修改的wine数据集中各算法的离群点检出率

从表中可以看出，基于质心的离群点检测算法在真实数据集上的离群点检测效率与其他几种算法相同或略高于其他几种算法。由于wine数据集来源于实际实验，具有实际意义，相较合成数据集更能体现算法在实际应用中的价值。从表中的数据结果也可以看出，基于质心的离群点检测算法在真实数据上同样具有一定的使用价值。

以上实施例仅为本发明的最优实施例，不用于限制本发明，本领域技术人员可以在本发明的保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种基于质心的离群点检测方法，其特征在于，以物理意义上的质心定义判断数据集中的边界点检测离群点。

2.根据权利要求1所述的检测方法，其特征在于，所述检测方法结合基于距离和基于密度的检测思路，使用和数据维数相关的最近邻值及其距离为依据，通过与质心的距离为度量判断数据集中的边界点，并且利用边界点的密度有选择性的发现离群点。

3.根据权利要求1所述的检测方法，其特征在于，具体包括如下步骤：

b)根据k个最近邻的特征向量计算质心；

c)计算质心到该数据对象的距离；

4.根据权利要求3所述的检测方法，其特征在于，所述步骤a)中的所需的输入数值参数分别为：来源于用户的、离群点度量范围和来源于数据集本身的，包括数据集中数据总数和数据维数。

5.根据权利要求3所述的检测方法，其特征在于，所述步骤a)中计算每个数据对象的最近邻采用暴力搜索，即对于数据集中每个数据对象，遍历整个数据集并求出它与剩余所有数据对象的距离值，对距离值按照从小到大的顺序排序得到前k个所需的最近邻。

6.根据权利要求3所述的检测方法，其特征在于，所述步骤b)对于求出的k个最近邻，根据d维空间中坐标系计算公式计算出质心坐标，得出数据对象与求出的质心坐标距离。

7.根据权利要求4所述的检测方法，其特征在于，所述离群点度量范围仅指通过检测出的边界点发现离群点时判断的近邻点数目，不代表预先估计的离群点个数。