CN104834709B

CN104834709B - 一种基于负载均衡的并行余弦模式挖掘方法

Info

Publication number: CN104834709B
Application number: CN201510214242.5A
Authority: CN
Inventors: 曹杰; 申冬琴; 伍之昂; 刘小惠; 吴明赞; 王有权
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2015-04-29
Filing date: 2015-04-29
Publication date: 2018-07-31
Anticipated expiration: 2035-04-29
Also published as: CN104834709A

Abstract

本发明公开了一种基于负载均衡的并行余弦模式挖掘方法，提出一种并行余弦模式挖掘框架，该方法包括：首先对输入的超大规模事务数据集进行分片；然后使用Lucene索引工具为事务创建索引，并产生全局频繁项目列表FList；接着对FList进行负载均衡划分，即对FList进行分组；在此基础上，实现单个分组的聚集投影，并使用余弦模式挖掘算法获取局部有效信息；最后合并余弦模式产生最终的挖掘结果。该方法的优势如下：通过并行余弦模式挖掘方法挖掘大规模事务数据集，能够较好的实现负载均衡，使资源得到公平合理利用，提高了系统的计算性能。

Description

一种基于负载均衡的并行余弦模式挖掘方法

技术领域

本发明属于数据挖掘领域，涉及一种余弦模式挖掘方法，具体地说是一种基于负载均衡的并行余弦模式挖掘方法。

背景技术

随着信息技术的发展应用的深入，数据正以前所未有的速度剧增，数据类型也变得越来越复杂。海量事务数据集的深度分析和利用，有利于构建企业级智能化应用，提升企业的竞争力。余弦模式挖掘算法是一种有效发现隐藏在数据中重要价值的方法，但是该算法在处理大规模事务数据集上时间复杂度较高，导致计算效率较低，已经不能满足实际的需求，研究高性能的并行挖掘算法显得尤为重要。

对于从大规模事务数据集中并行挖掘有效知识，Agrawal提出了三种并行计算方法，计算候选项集的支持度计数方法各不相同，CD(Count Distribution)算法是Apriori算法的简单并行化，每个节点对分配的数据集进行单独扫描，得到所有候选项集的局部支持度计数，当所有节点的完成扫描以后，交换局部支持度计数，得到全局支持度计数。DD(DataDistribution)算法中每个节点仅对部分候选项集进行计数。CAD(CandidateDistribution)算法每次计算都需要同时对候选项集和数据集进行划分，使每个节点相对独立的工作。IDD(Intelligent Data Distribution)算法是DD算法中候选项集分配进行优化，避免重复计算，但可能出现负载不均的现象。

综上，并行计算方法在数据处理方面至少存在两个问题：(1)可用的物理内存无法满足大规模数据的要求；(2)计算过程中存在负载不均的问题。针对上述问题，本发明融合了HDFS(Hadoop Distributed File System)和BSP(Bulk Synchronous Parallel Model)计算模型，提出了基于负载均衡的并行余弦模式挖掘方法。

发明内容

鉴于并行计算方法存在的问题以及传统余弦模式挖掘处理大规模事务数据集时效低的问题，本发明的目的是提供一种基于负载均衡的并行余弦模式挖掘方法，提出一种并行余弦模式挖掘框架，该方法包括：首先对输入的超大规模事务数据集进行分片；然后使用Lucene索引工具为事务创建索引，并产生全局频繁项目列表FList；接着对FList进行负载均衡划分，即将FList分组；在此基础上，实现单个分组的聚集投影，使用余弦模式挖掘算法获取局部有效信息；最后合并余弦模式产生最终的挖掘结果。

本发明是通过以下技术方案具体实现的：

1)、数据集分片：即物理分区，将事务数据集分成多组称之为分片的小集合，这些分片保持了原数据集的完整性。每个分片大约是64M的HDFS的配置，并且所有的分片都存储在HDFS分布式文件系统中，其存储位置对用户而言也是透明的。

2)、并行计数：主要是获得单个分片的本地邻居数，并为分片的每一行构建Lucene索引。特别是，随着多个后台进程的开始，每个进程需要处理一个或多个分片。后台进程通过扫描分片得到元组(i_p,k({i_p})]，即节点i_p以及第k个分片的本地邻居数。

3)、负载均衡划分：随机或平等分区将导致负载不均衡，导致一些本地任务会降低整体计算性能。为了解决这一问题，采用负载均衡划分，该方法通过在主节点上的计算进程获取分片数据计算时间，并从而产生全局项集FList，并将FList分成K组。

4)、聚类投影：将FList中的项目组被分成K组，即FList＝β₁β₂...β_K，以支持度降序排列的频繁项集列表，每个β_j包含FList中的连续项，j＝1,2,3...,k中的任意一个。

5)、并行余弦模式挖掘：在步骤3的基础上，对K个分组进行聚集投影，然后同时开始K个BSP任务。每个任务首先根据各组的项目集构造事务文件，然后利用数据挖掘算法获取有价值的知识。上述过程中，主节点只需要将同组中的项目集发送至单个BSP任务，从而降低了实际的时间开销。

6)、合并结果：对单个分组的挖掘结果进行合并以获得最终的结果。

本发明的优点：本发明提出的并行余弦模式挖掘框架，基于空间独立、文件系统共享，及主从分布式的计算框架，融合了BSP和HDFS计算模型，包括数据集分片、并行计数、负载均衡划分、并行余弦模式挖掘、合并结果。在负载均衡划分中，即把频繁项目列表FList划分K组β₁,...,β_K。由于每项的支持度是已知的，负载均衡划分只需要扫描一次FList，而不必增加其他额外的计算开销，达到高效计算的目的。

附图说明

图1为本发明的基于负载均衡的并行余弦模式挖掘方法原理框图。

图2为在Amazon数据集上，分别改变从节点数K和共同邻居的阈值τ_F，记录并行余弦模式挖掘方法中4个步骤的执行时间，其中横坐标为K/τ_F，纵坐标为每个步骤的执行时间。

具体实施方式

下面结合附图和具体实施方式对本发明所属方法进一步说明。

本发明基于负载均衡的并行余弦模式挖掘方法包括：首先对输入的超大规模事务数据集进行分片；然后使用Lucene索引工具为事务创建索引，并产生全局频繁项目列表FList；接着对FList进行负载均衡划分，即将FList分组；在此基础上，实现单个分组的聚集投影，并使用余弦模式挖掘算法获取局部有效信息；最后合并余弦模式产生最终的挖掘结果。具体实施方式如下：

将式(1)扩展为多项集的情况，令S为P-项集，如S＝{i₁,...,i_P},P≥2，则：

余弦相似度可能是偶然项集，也就是S中的所有项只在事务t_p中出现一次，但是依然有cos(S)＝1。因此，利用支持度度量s，并要求余弦模式具有足够大的支持度值，从而给出余弦模式的定义：

若cos(S)≥τ_c，s(S)≥τ_s，其中τ_s是余弦相似度cos(S)的阈值，τ_c是支持度s(S)的阈值，τ_s,τ_c∈[0,1]，则称S是与τ_s和τ_c有关的余弦模式。

步骤2、数据集分片。

并行余弦模式挖掘框架的输入是大规模事务数据集D，对于集中式计算D往往太大，所以，需要在保证每个事务的完整性的前提下，平均划分数据集D。

步骤3、并行计算。

局部计数：

1)、对任意事务D_k中的每个事务T_i，为该行创建Lucene索引，更新T_i中每项i_p的支持度的数值σ_k，

2)、输出项集LC_k。

LC_k＝{<i_p,σ_k(i_p)>|i_p∈D_k} (3)

全局聚类：

1)、聚类所有自从节点返回的项集对LC_k，获得频繁项集F；

2)、对频繁项集F按支持度递减序列排序构成频繁项集列表FList。

步骤4、负载均衡划分。

1)、计算FList中的每项i_p的开销C_ip；

2)、计算K组的平均负载C_Avg；

3)、连续检查对FList中的每项i_p，以获得首个使得当前的和大于等于C_Avg的项目i_p；

4)、比较和找到开销之和接近于C_Avg的组β₁,...,β_K。

步骤5、聚集投影。

将FList中的项目组被分成K组，即FList＝β₁β₂...β_K，以支持度降序排列的频繁项集列表。每个β_j包含FList中的连续项，进一步令β_k＝i_k1...i_kr，这样β_k的投影数据就为：

步骤6、并行余弦模式挖掘。

并行余弦模式挖掘算法主要包含两步：一是构建FP树；二是使用CP增长算法挖掘余弦模式。具体如下：

1)、自底向上遍历Tree头表中的每项i_k，生成候选模式S'，S'＝{i_k}∪S；

2)、若余弦上界u_c(S')＜τ_c(若|S'|＝1，u_c(S')＝1)，遍历项i_k+1；

3)、若余弦上界u_c(S')≥τ_c且余弦相似度cos(S')≥τ_c(若|S'|＝1，cos(S')＝1)，余弦模式

4)、为S'构建条件FP树Tree_S'；

5)、递归调用CP增长算法，产生余弦模式

步骤7、合并余弦模式。

合并余弦模式产生最终结果。

有益效果

实验选取Amazon数据集，其特征如表3所示。

TID	项	TID	项
				1	D,E,F,G	5	B,D,E,F,G
2	C,E,F,G	6	E,F,G
				3	A,G	7	C,D,F,G
4	D,F	8	E,F,G

表1事务数据集示例

组	投影事务
		{G,F}	{G,F}(6),{G},{F}
{D,E}	{G,F,E,D}(2),{G,F,E}(3),{G,F,D},{G,F,E}
		{C,B,A}	{G,A},{G,F,E,C},{G,F,E,D,B},{G,F,D,C}

表2聚集投影示例

数据集	\|V\|	\|E\|
			Amazon	403,394	3,387,388

表3Amazon数据集的特征

参数设置：余弦相似度阈值τ_c＝0.6，改变从节点数K和共同邻居数的阈值τ_F，图2描述了分别改变K和τ_F记录并行余弦模式挖掘方法中4个步骤的执行时间，其中“全局划分”包含聚合产生FList以及FList上的负载均衡划分。

图2(a)中，令τ_F＝0，从而获得FList中所有项。图2(b)中，令K＝32。图2(a)中，64个节点同时执行余弦模式挖掘，在τ_F＝0的情况下抽取得到余弦模式只需要300s，结果比较令人满意。从图2中，细看每一步的执行情况：“分片”步骤需要的时间少于10s，速度很快；随着K的增加，“并行计数”所需时间略为降低；尽管增加τ_F，导致F List变短，但是“全局划分”的时间几乎保持恒定；然而，随着K的增加和τ_F的减小，“并行挖掘”的时间逐渐减小。K呈双倍增加时，由于I/O的限制使得“并行挖掘”的时间不可能双倍减少。

Claims

1.一种基于负载均衡的并行余弦模式挖掘方法，其特征在于包括：

1)、数据集分片：对输入的超大规模事务数据集进行分片；

2)、并行计数：获得单个分片的本地邻居数，并为分片的每一行构建Lucene索引，对频繁项集F按支持度递减序列排序构成频繁项集列表FList；

3)、负载均衡划分：通过在主节点上的计算进程获取分片数据计算时间，并从而产生全局频繁项集FList，并将FList分成K组；

4)、聚类投影：将频繁项集FList中的项目组分成K组，即FList＝β₁β₂...β_K，以支持度降序排列的频繁项集列表；

5)、并行余弦模式挖掘：对K个分组进行聚集投影，然后同时开始K个BSP任务，每个任务首先根据各组的项目集构造事务文件，并完成以下两个任务：一是构建FP树；二是使用CP增长算法挖掘余弦模式；

6)、合并结果：合并并行余弦模式挖掘获取的局部有效信息，即产生最终的挖掘结果；

所述步骤2)中获得单个分片的本地邻居数，扫描分片得到元组(i_p,k({i_p})]，即节点i_p以及第k个分片的本地邻居数；

局部计数：

1)、对任意事务D_k中的每个事务T_i，为该行创建Lucene索引，更新T_i中每项i_p的支持度的数值σ_k，σ_k(i_p)++；

2)、输出项集LC_k

LC_k＝{<i_p,σ_k(i_p)>|i_p∈D_k} (3)

全局聚类：

1)、聚类所有自从节点返回的项集对LC_k，获得频繁项集F；

2.根据权利要求1所述的基于负载均衡的并行余弦模式挖掘方法，其特征在于：步骤1)中设所述大规模事务数据集为D，将事务数据集D平均分成多组称之为分片的集合，这些分片保持原数据集的完整性；所有的分片都存储在HDFS分布式文件系统中。

3.根据权利要求1所述的基于负载均衡的并行余弦模式挖掘方法，其特征在于：所述步骤3)中，所述负载均衡划分，即基于数据集产生的K个分片将频繁项目项集FList划分为K个组β₁,...,β_K，

3.1、计算FList中的每项i_p的开销

3.2、计算K组的平均负载C_Avg；

3.3、连续检查对FList中的每项i_p，以获得首个使得当前的和大于等于C_Avg的项目i_p；

3.4、比较和找到开销之和接近于C_Avg的组β₁,...,β_K。

4.根据权利要求1所述的基于负载均衡的并行余弦模式挖掘方法，其特征在于：所述步骤4)中，FList中的项目组被分成K组，即FList＝β₁β₂...β_K，以支持度降序排列的频繁项集列表，每个β_j包含FList中的连续项，j＝1,2,3...,k中的任意一个，进一步令β_k＝i_k1...i_kr，这样β_k的投影数据就为：

5.根据权利要求1所述的基于负载均衡的并行余弦模式挖掘方法，其特征在于：所述步骤5)中，并行余弦模式挖掘算法主要包含两步：一是构建FP树；二是使用CP增长算法挖掘余弦模式，具体如下：

5.1、自底向上遍历Tree头表中的每项i_k，生成候选模式S'，S′＝{i_k}∪S′；

5.2、若余弦上界u_c(S')＜τ_c(若|S'|＝1，u_c(S')＝1)，遍历项ik+1；

5.3、若余弦上界u_c(S')≥τ_c且余弦相似度cos(S')≥τ_c(若|S'|＝1，cos(S')＝1)，余弦模式

5.4、为S'构建条件FP树Tree_S'；

5.5、递归调用CP增长算法，产生余弦模式