CN105868387A

CN105868387A - 一种基于并行计算的离群数据挖掘方法

Info

Publication number: CN105868387A
Application number: CN201610227845.3A
Authority: CN
Inventors: 陈勇; 胡中骥; 贾昱
Original assignee: Science And Technology Co Ltd Is Swum In Jiangsu At Once
Current assignee: Science And Technology Co Ltd Is Swum In Jiangsu At Once
Priority date: 2016-04-14
Filing date: 2016-04-14
Publication date: 2016-08-17

Abstract

本发明公开了一种基于并行计算的离群数据挖掘方法，利用属性维上的局部稀疏程度，重新定义了相关子空间，从而能够有效地刻画各种局部数据集上的分布特征；其次，利用局部数据集的概率密度，给出了局部离群因子计算公式，有效地体现了数据对象不服从局部数据集分布特征的程度，并选取离群程度最大的N个数据对象定义为局部离群数据。本发明公开的一种基于并行计算的离群数据挖掘方法，在计算稀疏度因子和离群因子Factor时由Map来实现；在按Factor大小进行全排序时，使用一个Map对Factor进行取样，进而实现决定各个(K2，V2)分配到哪个结点的函数，从而有效地解决了数据分配不均匀问题和局部有序但全局无序问题。

Description

一种基于并行计算的离群数据挖掘方法

技术领域

本发明涉及一种基于并行计算的离群数据挖掘方法。

背景技术

离群数据(outlier)就是明显偏离其他数据、不满足数据的一般模式或行为、与存在的其他数据不一致的数据，蕴含着大量的不易被人类发现却很有价值的信息.离群挖掘作为数据挖掘的一个重要分支，已广泛的应用在天文光谱数据分析、信用卡诈骗、网络入侵挖掘、数据清洗等领域.

在高维海量数据中，由于数据量大和维度高，严重地影响了离群数据挖掘效果和效率，可能无法发现隐藏在子空间中的一些离群数据.在大多数情况下，离群数据是与局部数据集的分布特征明显不一致的数据对象.但在有些属性维上，可以提供不一致的有价值信息，而在其他属性维上，无法提供有价值的信息。

发明内容

本发明的目的是针对高维海量数据，在MapReduce编程模型下，提出了一种基于并行计算的离群数据挖掘方法，该算法利用属性维上的局部稀疏程度，重新定义了相关子空间，从而能够有效地刻画各种局部数据集上的分布特征；其次，利用局部数据集的概率密度，给出了局部离群因子计算公式，有效地体现了数据对象不服从局部数据集分布特征的程度，并选取离群程度最大的N个数据对象定义为局部离群数据。

本发明所采用的技术方案是：

一种基于并行计算的离群数据挖掘方法，包括以下步骤：

S1、执行LSH中的MapReduce任务，生成{(obj，LDS(obj))}，并行计算数据对象obj的LDS(obj)；

S2、以{(obj，LDS(obj))}作为输入，执行MapReduce任务，生成确定DS中每个数据对象obj对应的稀疏度因子；

S3、以作为输入，执行LSH中的MapReduce任务，生成{(obj，([ZLk]kxd(o)(o∈LDS(obj i))))}，确定DS中每个数据对象obj的LDS(obj)对应的局部稀疏因子矩阵[ZLk]kxd(o)(o∈LDS(obji))；

S4、以{(obj，([ZLk]kxd(o)(o∈LDS(obji))))}作为输入，执行MapReduce任务，生成{(obj，Factor(obj))}，确定DS中每个数据对象obj对应的离群因子Factor(obj)；

S5、以{(obj，Factor(obj))}作为输入，执行MapReduce任务，对{(obj，Factor(obj))}按Factor大小进行全排序，确定DS中每个数据对象obj按对应的离群因子Factor(obj)的大小进行全排序；

S6、在步骤5的输出中找离群程度最大的n个数据对象，选取Top(N)作为离群数据。

其中，离群因子计算过程为：

(1)采用分布式策略，确定各个数据对象的LDS(obji)；

(2)采用一个Map函数，计算各个数据对象对应的稀疏度因子

(3)采用分布式策略，确定LDS(o)(o∈LDS(obji))对应的局部稀疏因子矩阵：[ZLk]kxd(o)(o∈LDS(obji))；；

(4)采用一个Map函数，计算各个数据对象对应的子空间定义向量vi，结合[ZLk]kxd(o)(o∈LDS(obji))计算对应的离群因子Factor；

(5)采用一个Map函数和一个Reduce函数，将各个数据对象按对应的离群因子Factor进行全排序并输出结果。

本发明的有益效果是，

本发明公开的一种基于并行计算的离群数据挖掘方法，在计算稀疏度因子和离群因子Factor时由Map来实现，在按Factor大小进行全排序时，使用一个Map对Factor进行取样，进而实现决定各个(K2，V2)分配到哪个结点的函数，从而有效地解决了数据分配不均匀问题和局部有序但全局无序问题；同时，设计一个Reduce来对分配到各个结点的(K2，V2)进行排序。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为传统算法的离群因子的计算过程示意图。

图2为本发明基于并行计算的离群数据挖掘方法的MapReduce程序实现示意图。

具体实施方式

为了加深对本发明的理解，下面结合附图和实施例对本发明作进一步详细的说明。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

传统算法：

设DS是任意一个d维数据集，属性集FS＝{A1，A2，…Ad}，xij(i＝1，2，…，n；j＝1，2，…，d)表示第i个数据对象obji在第j个属性上的取值。如果第i个对象obj的子空间定义向量v各维值都是0，表明obj与局部分布特征一致；如果第i个对象obj存在着相关子空间，表明obj与局部分布特征不一致。通常我们用Factor(obj)来描述离群程度：

F a c t o r (o b j) = \max {0, e r f (\frac{{PLOF}_{R S} (o b j)}{\sqrt{2} \cdot \sqrt{E_{o &Element; L D S (o b j) \cup o b j} [{({PLOF}_{R S} (o))}^{2}]}})}

其中，LDS(obj)是obj局部数据集，PLOF是局部异常因子：

{PLOF}_{R S} (o b j) = \frac{σ_{R S} (o b j, L D S (o b j))}{E_{o &Element; L D S (o b j)} (σ_{R S} (o))} - 1

由公式可知，数据集DS中的任意数据对象obji(i＝1，2，...，n；n＝|DS|)的离群因子Factor(obji)的计算步骤是：

首先，确定obji的LDS(obji)，并利用公式计算obji对应的稀疏度因子从而生成DS的稀疏因子矩阵[Zk]n×d；其次，根据[Zk]n×d，参照LDS(o)(LDS(obji))，生成对应的局部稀疏因子矩阵[ZLk]k×d(o)(o∈LDS(obji))，然后生成obji对应的子空间定义向量vi；最后，确定obji对应的离群因数Factor(obji)。

因此在DS中，任意数据对象的离群因子计算过程可由图1所示。

图1刻画和描述了离群因子的计算过程，当数据集DS较小时，表A与表B都较小，可以首先生成表A，并将其保存在内存中；然后由表A通过生成表B，并将其也保存在内存中。由于表A与表B中都在内存，可采用索引技术，从表B中的对应项对应到表A的相应项来生成表C。当数据集DS大到一定程度时，表A与表B都相当大。在生成表C时，需将表A中的每一个数据对象和对应局部数据集LDS(obji)逐项输入，以及在表B中查找LDS(obji)对应的稀疏度因子，因此，表B必须被保留在各计算结点上的内存中。当B表太大时，会耗尽各个计算结点的内存资源。

因此，为了生成表C，不再采用索引策略对应生成，而是从表B中查找LDS(obji)对应的局部稀疏因子，采用类似于表A中生成LDS(obji)的操作。

由图1可以看出：生成表A时，需要遍历DS中的全部数据对象；生成表C时，需要遍历表A中的全部数据对象。因此，生成表A和表C是全局相关的，其他过程都与全局无关，各数据对象对应操作彼此之间不存在通信。

在MapReduce编程模型中，离群因子计算过程为：

1.采用分布式策略，确定各个数据对象的LDS(obji)；

2.采用一个Map函数，计算各个数据对象对应的稀疏度因子

3.采用分布式策略，确定LDS(o)(o∈LDS(obji))对应的局部稀疏因子矩阵：[ZLk]kxd(o)(o∈LDS(obji))；

4.采用一个Map函数，计算各个数据对象对应的子空间定义向量vi，结合[ZLk]kxd(o)(o∈LDS(obji))计算对应的离群因子Factor；

5.采用一个Map函数和一个Reduce函数，将各个数据对象按对应的离群因子Factor进行全排序并输出结果。

输入：数据集DS(属性个数为d)、近邻数K、稀疏度差异因子阈值；

输出：n个离群数据。

1、执行LSH中的MapReduce任务，生成{(obj，LDS(obj))}，并行计算数据对象obj的LDS(obj)；

2、以{(obj，LDS(obj))}作为输入，执行MapReduce任务，生成确定DS中每个数据对象obj对应的稀疏度因子；

3、以作为输入，执行LSH中的MapReduce任务，生成{(obj，([ZLk]kxd(o)(o∈LDS(obj i))))}，确定DS中每个数据对象obj的LDS(obj)对应的局部稀疏因子矩阵[ZLk]kxd(o)(o∈LDS(obji))；

4、以{(obj，([ZLk]kxd(o)(o∈LDS(obji))))}作为输入，执行MapReduce任务，生成{(obj，Factor(obj))}，确定DS中每个数据对象obj对应的离群因子Factor(obj)；

5、以{(obj，Factor(obj))}作为输入，执行MapReduce任务，对{(obj，Factor(obj))}按Factor大小进行全排序，确定DS中每个数据对象obj按对应的离群因子Factor(obj)的大小进行全排序；

6、在步骤5的输出中找离群程度最大的n个数据对象，选取Top(N)作为离群数据。

要说明的是，以上所述实施例是对本发明技术方案的说明而非限制，所属技术领域普通技术人员的等同替换或者根据现有技术而做的其他修改，只要没超出本发明技术方案的思路和范围，均应包含在本发明所要求的权利范围之内。

Claims

1.一种基于并行计算的离群数据挖掘方法，其特征在于：包括以下步骤：

S2、以{(obj，LDS(obj))}作为输入，执行MapReduce任务，生成{(obj，}，确定DS中每个数据对象obj对应的稀疏度因子；

S3、以{(obj，}作为输入，执行LSH中的MapReduce任务，生成{(obj，([ZLk]kxd(o)(o∈LDS(obj i))))}，确定DS中每个数据对象obj的LDS(obj)对应的局部稀疏因子矩阵[ZLk]kxd(o)(o∈LDS(obji))；

2.根据权利要求1所述的一种基于并行计算的离群数据挖掘方法，其特征在于：其中，离群因子计算过程为：

(1)采用分布式策略，确定各个数据对象的LDS(obji)；

(2)采用一个Map函数，计算各个数据对象对应的稀疏度因子

(3)采用分布式策略，确定LDS(o)(o∈LDS(obji))对应的局部稀疏因子矩阵：[ZLk]kxd(o)(o∈LDS(obji))；

3.根据权利要求1所述的一种基于并行计算的离群数据挖掘方法，其特征在于：所述数据集DS的属性个数为d。