CN106503086A

CN106503086A - 分布式局部离群点的检测方法

Info

Publication number: CN106503086A
Application number: CN201610887298.1A
Authority: CN
Inventors: 陈爱国; 罗光春; 田玲; 段贵多
Original assignee: Chengdu Kylin Software Co Ltd
Current assignee: Chengdu Kylin Software Co Ltd
Priority date: 2016-10-11
Filing date: 2016-10-11
Publication date: 2017-03-15

Abstract

本发明涉及分布式局部离群点的检测方法，包括：A.对样本的数据做归一化预处理；B.根据关联规则计算用于计算的数据项分量的属性与目标属性的强关联规则，并得到对目标属性影响最大的属性集合；C.进行聚类运算，分别计算出每个聚类数据距离K个簇中心的距离，根据距离大小对数据进行归类，将数据划分到距离最近的簇中心所在的簇；D.将不同的簇分配到不同的节点上，分别对每个簇进行基于密度的离群点检测；E.遍历各节点上所有标记为离群点的数据项，输出并删除离群点。本发明能够更高效和准确的发现高维数据流中的离群点，大幅度提高了局部特征明显的数据集的异常点检测的准确率和效率，并且有效减少了计算的复杂度。

Description

分布式局部离群点的检测方法

技术领域

本发明涉及数据挖掘在大数据处理领域的应用，具体的讲是在大数据下的分布式局部离群点的检测方法。

背景技术

离群点检测也称为离群点挖掘，离群点检测的目的是检测出数据集中的噪声点，从而进行数据清理，或发现数据集中潜在的有意义的信息。离群点检测的应用前景十分广阔，例如在计算机入侵检测系统、硬件故障检测、异常支付检测、公共卫生领域中包括异常疾病爆发监测、公共安全突发事件监控等，同时在地震监测、异常气候监控、生态系统失调检测等领域都有重要的应用价值。

随着大数据挖掘技术的发展，离群点检测是计算机学术研究中的一个热点，目前经过研究，提出了多种算法，如基于偏差的检测方法等，这些方法具有共同的特点：第一，观察所有数据，对数据做出整体分析，查看数据对象是否为离群点，即使用全局参数来判定一个数据点的合理性，所以挖掘得到的离群点都是全局离群点；第二，利用是或不是的二元性质，判断一个数据是不是离群点，基本都没有将数据对象离群的程度纳入考虑范围。但是数据往往具有一定的复杂性和应用领域的多样化，通常会介于二者之间，即从全局的角度考察，它们并没有发现有离群的状况，而从局部角度观察，却出现了离群的情况，这时的数据称为局部离群点。

聚类分析的目的就是把数据集中的数据项分成一个或者多个簇，使得不同簇之间的数据项的相似性很低，而同一簇内的数据项具有较大的相似性。通过聚类分析，能够很好的从海量数据集中发掘信息的分布特点，为更好的使用这些数据进行知识发现打下了扎实的基础。

然而传统的聚类算法都是基于静态数据的，也就是说在聚类的过程中数据可以被多次访问，但如今许多应用场景产生的数据不仅数据量大、数据维度高而且这些数据伴随着时间的变化迅速变化。如医疗行业的医保数据、诊断数据等。传统数据聚类方法已经无法适应数据量的不断增大和数据维度的不断提高的情况，因此大规模的、高维数据聚类方法受到相关研究人员的高度关注，也具有重要的理论意义和现实价值。在离群点检测应用中，部分数据集的异常情况往往集中在某一个或者某一类属性，这类属性或属性集称为目标属性，如医保数据中的医保费用异常，医保费用这一属性则为目标属性，在高维数据中，不同属性对目标属性的影响因子不同，影响因子较小的属性不仅会增加计算量并且会影响异常检测的准确性，因此需要一种有效的方法来提高局部特征明显的数据集的异常点检测的准确率和效率。

发明内容

针对以上的不足，本发明提供了一种分布式局部离群点的检测方法，以能够更高效和准确的发现高维数据流中的离群点，提高检测的准确率和效率。

本发明分布式局部离群点的检测方法，包括：

A.对样本的数据做归一化预处理；

B.通过关联规则算法设置相关参数，计算得到所述相关参数的支持度和置信度，将大于最小置信度的频繁项集对应的关联规则作为用于计算的数据项分量的属性与目标属性的强关联规则，根据强关联规则得到对目标属性影响最大的属性集合。所述的目标属性是指相应的属性集合产生的对应结果。例如在医保数据集合中，如果该数据集合用于做费用预测，那么费用这一分量就是目标属性，其它的分量就是所述的属性；

C.根据步骤B得到的关联规则对待测试数据流进行聚类运算，分别计算出每个聚类数据距离K个簇中心的距离，根据距离大小对数据进行归类，将数据划分到距离最近的簇中心所在的簇；

D.将不同的簇分配到不同的节点上，分别对每个簇进行基于密度的离群点检测；所述节点为分布式计算中的计算节点，每个节点上有若干服务器用来计算待测试数据；

E.遍历各节点上所有标记为离群点的数据项，整合并输出所有离群点，输出完毕后删除离群点。

本发明的方法是通过关联规则对数据集进行属性挖掘分析，计算属性和目标属性之间的关联规则，得到用于聚类分析的属性集。通过聚类分析使每一个簇具有较高相似度，并且只需计算新的属性集中的属性，对其它的冗余属性计算时忽略，从而有效减少了计算的复杂度。最后针对每个簇在多节点下分别进行异常点检测，然后合并各节点的结果，输出离群点。本发明无论是算法执行效率和离群点检测的准确率经测试都有较好的表现。

具体的，在步骤B中，先进行类矩阵运算，通过将两个符合特定条件的K项频繁集作连接运算，从而得到K+1项频繁集，再通过引入经验性或经数学证明的判定条件，反复扫描所有数据，判断各项目集是否为频繁集，直到不再产生出新的候选项集，再根据支持度和置信度产生强关联规则。

频繁集指的是：假设集合I为项的集合，I＝{i1,i2,...,im}，集合D为事务数据集，D＝{T1,T2,...,Tn}，i∈[1,n],事务Ti由I中若干项组成。设S为由项组成的一个集合，S＝{i|i∈I}，简称项集(Itemset)。包含K个项的项集称为K项集。S的支持度sup(S)＝(包含项集S的事务数量/D中总的事务数量的百分比)×100％，若S的支持度≥给定的最小支持度，则S为频繁项集(Frequent Itemset)。

具体的，步骤C中从待测试数据中选取K个簇的中心点为所述聚类运算的起始。

在此基础上，步骤D中可以具体包括有：

D1.设定相关参数Minpts和最小半径Eps；所述最小半径Eps指的是常用的Dbscan聚类算法中的最小领域，通常可以根据数据集特征人工设置；相关参数Minpts是指Dbscan算法中给定点在最小半径Eps领域内成为核心对象的最小领域的点数。

D2.将不同的簇分配到不同的节点上，每个节点分别根据选取原始数据集中任意一个未分类的对象o，检索和对象o的距离≤最小半径Eps的全部对象点Neps(o)；

D3.若|Neps(o)|＜MinPts，o不是核心对象，将o标记为噪声点，并返回步骤D2；

D4.若|Neps(o)|≥MinPts，o是核心对象，把Neps(o)里的全部对象归入堆栈Seeds；设当前对象CurrentObject为堆栈Seeds的当前读取对象，检索Neps(CurrentObject)全部对象，若|NePs(CurreniObject)|大于MinPts，则将堆栈Seeds内的对象全部删除，并把剩余未分类对象归入堆栈Seeds；

D5.判断堆栈Seeds是否是空，是则跳转至步骤D3循环，否则完成对每个簇的离群点检测。

在步骤D中，根据不同的簇中心将数据划分至不同的节点，分别进行异常点检测，从而极大的提高了算法的计算效率。

本发明分布式局部离群点的检测方法，能够对输入的样本数据进行关联规则分析，得到各个分类的频繁项集，并将大于最小置信度的频繁项集对应的关联规则判定为强关联规则，根据强关联规则得到对目标属性影响最大的属性集合；随后根据筛选出的属性，对测试数据进行聚类，使得每一个簇具有较高相似度；最后针对每个簇在多节点下分别进行异常点检测。该方法能够非常准确、快速的检测局部异常点，大幅度提高了局部特征明显的数据集的异常点检测的准确率和效率。

以下结合实施例的具体实施方式，对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明上述技术思想情况下，根据本领域普通技术知识和惯用手段做出的各种替换或变更，均应包括在本发明的范围内。

具体实施方式

本发明分布式局部离群点的检测方法，步骤为：

A.对样本的数据做预处理。将数据存入数据库，对数据进行归一化处理，归一化处理的转换格式是线性函数，公式为：

公式中，转换前的值用x表示，转换后的值用y表示，获取的数据用Value表示。

B.筛选聚类属性

根据数据的应用领域，将归一化后的数据属性进行存储，使用关联规则设置相关参数进行属性关联规则挖掘。计算得到所述相关参数的支持度和置信度，将大于最小置信度的频繁项集对应的关联规则作为用于计算的数据项分量的属性与目标属性的强关联规则，根据强关联规则得到对目标属性影响最大的属性集合。

关联规则主要步骤分为两个步骤：

1)连接：采用类矩阵运算。通过将两个符合特定条件的K项频繁集作连接运算，寻找K+1项频繁集，这些频繁集是发现关联规则的基础。

2)剪枝，即去掉没有必要的中间结果。当项目集很大的时候，判断一个项目集是否为频繁集时，如果采用对数据库进行扫描计算的方法，计算是低效率的，该步骤引入了一些经验性或经数学证明的判定条件。具体步骤为：

a)计算最小支持度及最小置信度。

Apriori算法使用了候选项集的概念，首先扫描数据库产生候选项集I＝{i₁,i₂,…i_n}，若候选项集I的支持度≥最小支持度，则该候选项集合为频繁项目集。支持度(support)的计算公式：A、B分别为候选项集I的子集。

b)在应用Apriori算法的过程中，首先由数据库读入所有步骤A存入数据库的事务数据，得出候选1_项集合C₁及相应的支持度数据，通过将每个1_项集的支持度与最小支持度比较，得出频繁1_项集合L₁，然后将这些频繁1_项集两两进行连接，产生候选2_项集C₂。

c)然后再次扫描数据库得到候选2_项集C₂的支持度，将2_项集的支持度与最小支持度比较，确定频繁2_项集。类似的地，利用这些频繁2_项集L₂产生候选3_项集和确定频繁3_项集，以此类推。

d)反复扫描数据库与最小支持度比较，产生更高项的频繁项集合，再结合产生下一级候选项集，直到不再结合产生出新的候选项集为止。

e)根据支持度和置信度产生强关联规则。其中置信度P的计算公式：

例如医保数据，综合考虑最终选取的分析属性为：医院等级、年龄、性别、户口类型、住院天数、特殊人群标志、材料费、医药费、住院费、医保费、医保报销比例。假设根据经验或相关统计数据，设置最小支持度项目数阈值为1000，即最小支持度为1％，置信度为50％，生成近似精确规则，算法结果如下：

从表中可以看出基于训练样本，找出了六个强关联规则，分别是：女性&住院天数15～20天&医院等级为三甲&医药费3000～3500＝>医保报销比例80％、城镇户口&医院等级为二乙&材料费2000～3000&住院天数5～10天＝>医保报销比例90％、男性&城镇户口&医院等级为三甲&不是特殊人群＝>医保报销比例85％、住院天数10天&材料费1000～2000&医药费500～1000＝>医保报销比例75％、年龄20～30&住院天数&医保费5000～6000＝>医保报销比例65％、女性&农村户口&特殊人群&住院费大于1万＝>医保报销比例70％。将这些强关联属性作为后续计算的属性值。

C.对待测试数据流进行聚类分析

采用Canopy聚类的方法，与传统的聚类算法(例如K-means)相比，该方法的最大特点是不需要事先指定k值(即聚类的个数)。Canopy聚类虽然精度较低，但在速度上有很大优势，因此可以使用Canopy聚类先对数据进行“粗”聚类，得到K值后再使用K-means方法进行进一步“细”聚类。

C1.Canopy中心点生成。Canopy生成方法通常都是在单机情况下运行，因此当遇到大数据量，生成Canopy中心点需要消耗很多时间，为了解决大数据量的问题，引入了Hadoop平台来优化Canopy的生成方法。小数据量的向量有利于单机程序生成Canopy中心点，为了防止其它向量的干扰，先将属于Canopy内的无关向量过滤掉，再通过“K-means迭代”方法不断过滤，直到清除掉所有无关向量。这样所有的Canopy中心点就会被集合起来。

C2.k-means迭代。将需要聚类的数据转化为一个列表的形式。将列表中的第一个点删去，剩余的数据产生一个新的中心。对于每个列表中的点，将距离在数据点与簇最小距离阈值T1以内的点当作这个中心点内的点，同时，将距离在簇与簇之间最小距离阈值T2以内的点从列表中删去。重复直到列表中没有任何点。对于每个中心点，使用K-means算法进行聚类。

D.基于多节点上的离群点检测。

设定参数Minpts和最小半径Eps，根据得到的簇，将不同簇分配到不同的节点上，在每个节点上分别根据选取数据集D中任意一个未分类的对象o。最小半径Eps指的是常用的Dbscan聚类算法中的最小领域，通常可以根据数据集特征人工设置；参数Minpts是指Dbscan算法中给定点在最小半径Eps领域内成为核心对象的最小领域的点数；所述节点为分布式计算中的计算节点。检索和o距离≤最小半径Eps的全部对象点Neps(o)；若|Neps(o)|＜Minpts，o不是核心对象，则将o标记成噪声点，并返回至检索和o距离≤最小半径Eps的全部对象点Neps(o)的步骤执行；若|Neps(o)|≥Minpts o是核心对象，把Neps(o)里的全部对象归入到堆栈Seeds里；当前对象CurrentObject为堆栈Seeds的当前读取对象，检索Neps(CurrentObject)全部对象，若|NePs(CurreniObject)|大于Minpts，则将堆栈Seeds内的对象全部删除，并把剩余未分类对象归入堆栈Seeds。判断堆栈Seeds是否是空，是则跳转到判断对象o是否为核心对象重复执行，否则完成算法流程。

E.输出离群点。

遍历各个节点上所有被标记为离群点的数据项，整合并输出所有离群点，输出完毕后删除该离群点。

Claims

1.分布式局部离群点的检测方法，其特征包括：

A.对样本的数据做归一化预处理；

B.通过关联规则算法设置相关参数，计算得到所述相关参数的支持度和置信度，将大于最小置信度的频繁项集对应的关联规则作为用于计算的数据项分量的属性与目标属性的强关联规则，根据强关联规则得到对目标属性影响最大的属性集合；

D.将不同的簇分配到不同的节点上，分别对每个簇进行基于密度的离群点检测；

2.如权利要求1所述的检测方法，其特征为：步骤B中，先进行类矩阵运算，通过将两个符合特定条件的K项频繁集作连接运算，从而得到K+1项频繁集，再通过引入经验性或经数学证明的判定条件，反复扫描所有数据，判断各项目集是否为频繁集，直到不再产生出新的候选项集，再根据支持度和置信度产生强关联规则。

3.如权利要求1所述的检测方法，其特征为：步骤C中从待测试数据中选取K个簇的中心点为所述聚类运算的起始。

4.如权利要求1至3之一所述的检测方法，其特征为：在步骤D中包括：

D1.设定相关参数Minpts和最小半径Eps；