CN111611293A

CN111611293A - 一种基于特征加权与MapReduce的离群数据挖掘方法

Info

Publication number: CN111611293A
Application number: CN202010330588.2A
Authority: CN
Inventors: 朱晓军; 吕士钦; 娄圣金
Original assignee: Taiyuan Taigong Tianyu Education Technology Co ltd
Current assignee: Taiyuan Taigong Tianyu Education Technology Co ltd
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2020-09-01
Anticipated expiration: 2040-04-24
Also published as: CN111611293B

Abstract

本发明涉及数据挖掘技术领域，尤其涉及一种基于特征加权与MapReduce的离群数据挖掘方法，包括如下步骤，步骤一：基于特征加权子空间，在MapReduce编程模型下将子空间数据分离为聚类中心，聚类簇和候选离群数据集；步骤二：针对步骤一中所述离群数据集计算全局距离，然后定义出离群数据。本发明对离群数据挖掘方法计算量合理，受人为因素小、挖掘效率和精度高等优点，针对高维海量数据，自动寻找和删除高维数据集中无法提供有价值信息的特征维，有效地降低“维灾”的干扰，本发明提供一种体系简单、准确性较高、性能优越的高维海量离群数据挖掘方法技术方案，从而较好地克服离群检测中的效率问题，在信息化大数据领域具有深远的用途和影响。

Description

一种基于特征加权与MapReduce的离群数据挖掘方法

技术领域

本发明涉及数据挖掘技术领域，尤其涉及一种离群数据挖掘方法

背景技术

离群数据(outlier)就是明显偏离其他数据、不满足数据的一般模式或行为、与存在的其他数据不一致的数据，往往蕴含着大量的不易被人们发现却很有价值的信息。离群数据挖掘作为数据挖掘的一个重要分支，已广泛应用于证券市场、天文光谱数据分析、网络入侵、金融诈骗、极端天气分析等领域。在高维海量数据中,由于数据量大和维度高,严重地影响了离群数据挖掘效果和效率,可能无法发现隐藏在子空间中的一些离群数据，以及一些边缘分布局部离群数据。正是由于高维稀疏数据集聚类性特征，离群数据分布往往存在于某个子空间中，而不是整个特征空间，无关的特征反而会使数据的聚簇结构更加模糊不清，如果不能很好地发现数据集中的聚簇结构，那么其中的离群点将更加难以探测，无法实现离群数据挖掘。

另外，近年来，传统的离群数据挖掘算法虽然在各自的领域做了大量的改进，但在高维数据集中确不再适用，且计算量大，挖掘效率和精度较低，因此，如何针对大数据、高维数据、离群数据时实现精准挖掘是当前离群数据挖掘攻克的重大难题。

发明内容

为了解决背景技术中之一问题，本发明提供了一种基于特征加权与MapReduce的离群数据挖掘方法，包括如下步骤：

步骤一：基于特征加权子空间，在编程模型下将子空间数据分离为聚类中心，聚类簇和候选离群数据集；步骤二：针对步骤一中所述离群数据集计算全局距离，然后定义出离群数据。

进一步地、步骤一中，所述特征加权子空间通过定义属性维上的特征加权估计熵后获取，然后在MapReduce编程模型下，采用密度峰值算法快速将子空间数据集分离；步骤二中，所述计算全局距离包括计算其全局Weight_k距离，计算Weight_k距离时还包括对Weight_k距离集合按降序排列，输出TOP-N个数据的过程。

进一步地、所述的特征加权子空间，首先是将属性特征归一化，把各维属性的取值范围放缩到差不多的区间，然后计算各维特征加权估计熵，设定一个特征加权估计熵阈值，将小于阈值的维度删除，仅保留大于阈值的维度，定义为特征加权子空间；

所述的MapReduce编程模型，包括将密度峰值聚类算法并行化计算数据集中每个数据对象的局部密度和距离，分别以这两个参数为横坐标轴和纵坐标轴绘图平面决策图，平面图中被认为是聚类中心，聚类簇和候选离群数据集；

所述Weight_k距离为针对候选离群数据集中的每个对象，计算两两之间的距离，形成距离矩阵D，矩阵中第k行的和，定义为Weigth_k-距离。

进一步地、所述的特征加权子空间计算方法包括如下步骤：

S1、设数据集DS＝{x₁,x₂,x_i,…,x_N}，令每个数据对象x的属性集为S＝{v₁,v₂,v_i,…,v_M}，

表示第i维征属性均值，计算样本特征发生概率，计算公式为：

S2、在步骤S1的基础上，设U是讨论域，V₁，V₂…，V_M是U的一个划分，其上有概率分布

则称

为信息源V的估计熵，其中对数取以2为底，而某个p_i为零时，则理解为0·log0＝0；

S3、在步骤S2的基础上，计算H(V)并且归一化，从而得到各个属性特征加权估计熵w_l，归一化计算方法为：

其中，H(V_l)表示某属性V的信息熵；w_l为特征加权估计熵；令S1＝{v₁,v₂,v_i}，S2＝{v_i+1,v_i+2,v_M}，其中，S1为所寻找出的特征加权估计熵较大的子空间，S2为特征加权估计熵较小的子空间，且S＝S1 U S2，根据算法规则，S2需要被删除。

进一步地、所述MapReduce编程模型分离出聚类中心，聚类簇和候选离群数据时还包括如下步骤：

S1、对于含N个样本集合DB中的每个样本点i,都需要计算每个样本点i与其他样本点j之间的欧式距离dij,并将计算结果按照升序排列。欧式距离及相关定义描述如下：

其中：i＝(x_i1,x_i2,...,x_iM)和j＝(x_j1,x_j2,...,x_jM)是两个M维数据对象，它们之间的相似度可用它们之间的距离d_ij的大小来度量；

S2、对于多有样本点，选取一个阶段距离dc,使得每个数据点的平均邻域个数约为样本数据点总数的1％-2％；

S3、对于样本数据点中的样本点i，都需要计算两个参数，局部密度ρ_i和距离σ_i，

高密度最近邻距离σ_i则定义为x_i到具有更大密度估计值的最近邻样本点的距离，即

显然，具有全局最大密度估计值的样本点不存在高密度最近邻，可简单地令其高密度最近邻距离等于所有样本点间距离的最大值；

计算这两个量都取决于样本的欧式距离d_ij，采用MapReduce编程模型的强大数据处理能力，根据算法处理逻辑，利用map-reduce编程框架，不断的并行处理并生成键值对<key,Value>；

S4、对于样本数据集S中的每个样本点I,计算出样本的(ρ_i，σ_i)之后，分别以这两个参数为横坐标和纵坐标绘制平面图，并计算一个综合变量：局部密度和距离的乘积，γ_i＝ρ_i*σ_i显然，γ_i值越大，越有可能是聚类中心；

S5、计算样本数据集合S中所有样本点的γ_i值，并进行降序排列，输出前K个γ_i，同时，将ρ小，σ大的数据点，定义为候选离群集，集合大小记为L。

S6、对于样本数据集DS中的被定义为候选离群的数据点,应该满足以下条件：局部密度小于局部密度阈值，即ρ_i<ρ_τ而距离大于距离阈值σ_i>σ_τ,计算公式为：

其中，N为数据集大小；

进一步地、针对步骤S6中获取的离群候选集CandidateSet中的每个数据对象，计算两两之间的距离d_ij，形成子空间距离矩阵D：

令

其中，w_k是矩阵D中第k行的和，定义为Weigth_k-距离和；

进一步地、对Weigth_k-距离和降序排列，输出TOP-N个数据，定义为离群数据。

本发明方法的有益效果体现在对离群数据挖掘方法计算量合理，受人为因素小、挖掘效率和精度高等优点，具体的针对高维海量数据，自动寻找和删除高维数据集中无法提供有价值信息的特征维，有效地降低“维灾”的干扰，并在MapReduce编程模型下，将离群数据挖掘方法有效应用于大数据、高维数据。本发明提供一种体系简单、准确性较高、性能优越的高维海量离群数据挖掘方法技术方案，从而较好地克服离群检测中的效率问题，在信息化大数据领域具有深远的用途和影响。

附图说明

图1是三维人工数据集及其在不同特征属性中的聚集性；

图2是一种基于特征加权的离群数据计算过程；

图3是基于map-reduce的并行计算模型图。

具体实施方式

针对高维、海量数据的挖掘，本发明方案提供了如下方法步骤:

优选地，步骤一中，所述特征加权子空间通过定义属性维上的特征加权估计熵后获取，然后在MapReduce编程模型下，采用密度峰值算法快速将子空间数据集分离；步骤二中，所述计算全局距离包括计算其全局Weight_k距离，计算Weight_k距离时还包括对Weight_k距离集合按降序排列，输出TOP-N个数据的过程。进一步地、所述的特征加权子空间，首先是将属性特征归一化，把各维属性的取值范围放缩到差不多的区间，然后计算各维特征加权估计熵，设定一个特征加权估计熵阈值，将小于阈值的维度删除，仅保留大于阈值的维度，定义为特征加权子空间；所述的MapReduce编程模型，包括将密度峰值聚类算法并行化计算数据集中每个数据对象的局部密度和距离，分别以这两个参数为横坐标轴和纵坐标轴绘图平面决策图，平面图中被认为是聚类中心，聚类簇和候选离群数据集；

为了易于理解，下文对本发明的方案进行综合说明：

本发明涉及一种基于特征加权与MapReduce的离群数据挖掘方法，所述的基于特征加权与MapReduce的离群数据挖掘方法，包括基于特征加权子空间和MapReduce编程模型两个部分，其中：所述的特征加权子空间，首先是将属性特征归一化，把各维属性的取值范围放缩到差不多的区间，然后计算各维特征加权估计熵，设定一个特征加权估计熵阈值，将小于阈值的维度删除，仅保留大于阈值的维度，定义为特征加权子空间。

所述的MapReduce编程模型，主要是将密度峰值聚类算法并行化计算数据集中每个数据对象的局部密度和距离，分别以这两个参数为横坐标轴和纵坐标轴绘图平面决策图(如图1)，平面图中被认为是聚类中心，聚类簇和候选离群数据集。

所述的Weigth_k距离和，主要是对候选离群数据集中的每个对象，计算两两之间的距离，形成距离矩阵D，矩阵中第k行的和，定义为-距离和，然后对Weigth_k距离和降序排列，输出TOP-N个数据，定义为离群数据。

为了便于本申请的实施，对特征加权子空间实施做如下步骤说明：

所述的特征加权子空间计算方法如下(本发明中涉及的算法是在计算机参与下进行，并非单纯的运算规则)：

(1)设数据集DS＝{x₁,x₂,x_i,…,x_N}，令每个数据对象x的属性集为S＝{v₁,v₂,v_i,…,v_M}，

(2)在步骤(1)的基础上，设U是讨论域，V₁，V₂…，V_M是U的一个划分，其上有概率分布

则称

(3)在步骤(2)的基础上，计算H(V)并且归一化，从而得到各个属性特征加权估计熵w_l，归一化计算方法为：

其中，H(V_l)表示某属性V的信息熵；w_l为特征加权估计熵。令S1＝{v₁,v₂,v_i}，S2＝{v_i+1,v_i+2,v_M}，其中，S1为所寻找出的特征加权估计熵较大的子空间，S2为特征加权估计熵较小的子空间，且S＝S1 U S2，根据算法规则，S2需要被删除。

为了便于本申请的实施，对MapReduce编程模型实施做如下步骤说明：所述的MapReduce编程模型，主要是将密度峰值聚类算法并行化计算数据集中每个数据对象的局部密度和距离，分别以这两个参数为横坐标轴和纵坐标轴绘图平面决策图，平面图中被认为是聚类中心，聚类簇和候选离群数据，具体实施步骤如下(如图2)：

(1)对于含N个样本集合DB中的每个样本点i,都需要计算每个样本点i与其他样本点j之间的欧式距离dij,并将计算结果按照升序排列。欧式距离及相关定义描述如下

其中：i＝(x_i1,x_i2,...,x_iM)和j＝(x_j1,x_j2,...,x_jM)是两个M维数据对象，它们之间的相似度可用它们之间的距离d_ij的大小来度量。

(2)对于多有样本点，选取一个阶段距离dc,使得每个数据点的平均邻域个数约为样本数据点总数的1％-2％。

(3)对于样本数据点中的样本点i，都需要计算两个参数，局部密度ρ_i和距离σ_i，

显然，具有全局最大密度估计值的样本点不存在高密度最近邻，可简单地令其高密度最近邻距离等于所有样本点间距离的最大值。计算这两个量都取决于样本的欧式距离d_ij，面对数据集DS，时间复杂度为O(|N|×|N|×|M|)，通常N>>10000，因此，本实施步骤采用MapReduce编程模型的强大数据处理能力，根据算法处理逻辑，利用map-reduce编程框架，不断的并行化处理并生成键值对<key,Value>，其并行计算流程见图3。

(4)对于样本数据集S中的每个样本点I,计算出样本的(ρ_i，σ_i)之后，分别以这两个参数为横坐标和纵坐标绘制平面图(如图1)，并计算一个综合权衡变量：局部密度和距离的乘积，即γ_i＝ρ_i*σ_i显然，γ_i值越大，越有可能是聚类中心

(5)计算样本数据集合S中所有样本点的γ_i值，并进行降序排列，输出前K个γ_i，同时，将ρ小，σ大的数据点，定义为候选离群集，集合大小记为L。

(6)对于样本数据集DS中的被定义为候选离群的数据点,应该满足以下条件：局部密度小于局部密度阈值，即ρ_i<ρ_τ而距离大于距离阈值σ_i>σ_τ,计算公式为：

其中，N为数据集大小。

(7)针对步骤(6)中获取的离群候选集CandidateSet中的每个数据对象，计算两两之间的距离d_ij，形成子空间距离矩阵D：

令

其中，Weigth_k是矩阵D中第k行的和，定义为Weigth_k-距离和。

(8)对Weigth_k-距离和降序排列，输出TOP-N个数据，定义为离群数据。

以下通过试验效果来验证说明本发明具有的特征加权子空间有效性与正确性的先进性效果，发明人采用UCI数据集实际验证了特征加权估计熵方法，该数据集是关于酵母菌的生物学统计数据，共有1484个样本数据，每个样本数据有8个属性组成。按照特征加权子空间计算方法，具体得到的计算数据如下表1：

表1酵母菌的生物统计特征加权估计熵获取方法

V	V均值	P(V)	H(V)	归一化	属性特征加权估计熵
						mcg	0.5001	0.4319	0.5231	0.161	0.16
gvh	0.4999	0.4838	0.5068	0.162	0.16
						alm	0.5000	0.5377	0.4813	0.154	0.15
mit	0.2612	0.3646	0.5307	0.170	0.17
						erl	0.5047	0.009	0.0635	0.020	0.02
pox	0.0075	0.0101	0.0670	0.021	0.02
						vac	0.4999	0.6193	0.4281	0.137	0.14
nuc	0.2762	0.2971	0.5202	0.175	0.18

很显然，特征加权子空间S1＝{mcg，gvh，alm，mit，vac，nuc}，S2＝{erl，pox}，通过和数据集对比分析，该数据集在第五个属性维和第六个维度几乎没有发生偏离，分布很均匀，而仅仅是在余下维属性有偏离，这表明表1中所计算的特征加权估计熵获符合客观实际，从而验证了特征加权估计熵方法可自动识别并删除无法提供有价值信息的子空间。

因此，本发明方法体系简单、准确性较高、性能优越的高维海量离群数据挖掘方法技术方案，本发明方法的有益效果体现在对离群数据挖掘方法计算量合理，受人为因素小、挖掘效率和精度高等先进性。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和单元并不一定是本申请所必须的。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为硬盘、ROM、RAM等。以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于特征加权与MapReduce的离群数据挖掘方法，其特征在于：包括如下步骤，步骤一：基于特征加权子空间，在编程模型下将子空间数据分离为聚类中心，聚类簇和候选离群数据集；步骤二：针对步骤一中所述离群数据集计算全局距离，然后定义出离群数据。

2.如权利要求1所述的方法，其特征在于：步骤一中，所述特征加权子空间通过定义属性维上的特征加权估计熵后获取，然后在MapReduce编程模型下，采用密度峰值算法快速将子空间数据集分离；步骤二中，所述计算全局距离包括计算其全局Weight_k距离，计算Weight_k距离时还包括对Weight_k距离集合按降序排列，输出TOP-N个数据的过程。

3.如权利要求2所述的方法，其特征在于：所述的特征加权子空间，首先是将属性特征归一化，把各维属性的取值范围放缩到差不多的区间，然后计算各维特征加权估计熵，设定一个特征加权估计熵阈值，将小于阈值的维度删除，仅保留大于阈值的维度，定义为特征加权子空间；所述的MapReduce编程模型，包括将密度峰值聚类算法并行化计算数据集中每个数据对象的局部密度和距离，分别以这两个参数为横坐标轴和纵坐标轴绘图平面决策图，平面图中被认为是聚类中心，聚类簇和候选离群数据集；所述Weight_k距离为针对候选离群数据集中的每个对象，计算两两之间的距离，形成距离矩阵D，矩阵中第k行的和，定义为Weigth_k-距离。

4.如权利要求3所述的方法，其特征在于：所述的特征加权子空间计算方法包括如下步骤：

则称

5.如权利要求4所述的方法，其特征在于：所述MapReduce编程模型分离出聚类中心，聚类簇和候选离群数据时还包括如下步骤：

其中：i＝(x_i1,x_i2,...,x_iM)和

是两个M维数据对象，它们之间的相似度可用它们之间的距离d_ij的大小来度量；

显然，具有全局最大密度估计值的样本点不存在高密度最近邻，可简单地令其高密度最近邻距离等于所有样本点间距离的最大值；计算这两个量都取决于样本的欧式距离d_ij，采用MapReduce编程模型的强大数据处理能力，根据算法处理逻辑，利用map-reduce编程框架，不断的并行处理并生成键值对<key,Value>；

其中，N为数据集大小；

S7、针对步骤S6中获取的离群候选集CandidateSet中的每个数据对象，计算两两之间的距离d_ij，形成子空间距离矩阵D：

令

其中，w_k是矩阵D中第k行的和，定义为Weigth_k-距离和；

S8、对Weigth_k-距离和降序排列，输出TOP-N个数据，定义为离群数据。