CN104881467A

CN104881467A - 基于频繁项集的数据关联性分析和预读取方法

Info

Publication number: CN104881467A
Application number: CN201510275426.2A
Authority: CN
Inventors: 唐飞龙; 张健桐; 栾志坤; 张杨; 王玉凤; 房新宇; 唐灿; 过敏意
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2015-05-26
Filing date: 2015-05-26
Publication date: 2015-09-02
Anticipated expiration: 2035-05-26
Also published as: CN104881467B

Abstract

本发明提供了一种基于频繁项集的数据关联性分析和预读取方法，包括步骤如下：云平台每处理一个作业，将该次作业中每一个子任务处理的数据块作为一条记录存入资料库中；每隔一定时间利用集群的空闲资源对资料库中的频繁项集进行挖掘，找出数据块之间的关联性；在之后作业的执行过程中，根据预测的置信度，结合数据与任务所在节点的位置关系，提前读取所需要的数据块，从而达到提升整个集群吞吐率的目的。

Description

基于频繁项集的数据关联性分析和预读取方法

技术领域

本发明涉及一种分布式系统中数据关联性分析以及数据预读取技术领域，具体的，涉及一种通过挖掘频繁项集找到数据的关联性，提前读取数据，从而提升整个系统的运行速度。

背景技术

在分布式系统中，一个文件通常被分割为多个等大的数据块，分布在集群中的各台机器上，在进行计算时，系统会将一个大的作业拆分为多个子任务，部署到不同的机器上同时运行，每个子任务通常会处理一至多个数据块。在任务执行过程中，需要读取相应的数据块，按照任务所在节点与数据所在节点二者的位置关系，读取方式可以分为三类：

(i)二者在同一节点上，通过本地磁盘I/O读取数据；

(ii)二者不在同一节点但在同一机架上，通过机架内的网络传输数据；

(iii)二者不在同一机架上，通过机架间的网络传输数据。

在数据密集型作业中，数据的读取往往成为系统效率的瓶颈，由于上述三种读取方式的速度依次递减，因此如何降低网络传输所占的比例，将成为提升系统性能的关键所在。

以目前广泛使用的分布式计算平台Hadoop为例，它的文件系统HDFS(HadoopDistributed File System)会将一个文件拆分为多个等大的数据块(Block)分布在集群中的各个节点上，数据块大小通常为64MB。为了保证数据的可用性，在默认情况下每个数据块有三个备份，其中两个在同一机架的不同节点上，第三个在其他机架上，HDFS现有的解决方案是根据磁盘的负载情况选择存放的节点。

然而，这种选择方式并没有考虑到数据之间的关联性，有些数据在逻辑上关系很紧密，在同一个子任务中往往会被一起处理，如果在物理位置上将他们分开存放，在执行过程中需要将数据迁移到子任务所在的节点，从而影响整个系统的吞吐率。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于频繁项集的数据关联性分析和预读取方法。本发明的目的在于克服现有技术中的不足，针对云计算中数据分布的独特性，在频繁项集的基础上，提供一种数据预读取的机制，可以有效解避免数据传输成为计算的瓶颈，从而加快计算的速度。

根据本发明提供的一种基于频繁项集的数据关联性分析和预读取方法，包括如下步骤：

步骤1：对于用户提交到云平台中的第i个作业Job_i，云平台根据作业Job_i中的每个子任务Task_ij涉及到的数据块生成一条记录T_ij，并将记录T_ij存入资料库D中；

其中，Task_ij表示作业Job_i的第j个子任务；i为正整数，j为正整数；所述记录T_ij，是指作业Job_i中的子任务Task_ij涉及到的数据块的集合；

步骤2：每隔时间间隔Interval，对资料库D中的数据进行挖掘，找到频繁项集中所有的关联规则L，关联规则L中大小为m的子规则集合记为L_m，关联子规则集合L_m中的子规则L_mk的支持度定义为Support(L_mk)；

其中，；L_mk表示关联子规则集合L_m中的第k条记录；Support(L_mk)＝|L_mk|/|D|，其中，|L_mk|表示关联规则L中的子规则L_mk出现的次数，|D|表示资料库D中关联规则L的数量；时间间隔Interval根据资料库D的变化速率进行调整，Interval∝|D|/|ΔD|，其中，|ΔD|表示单位时间内关联规则L变化的数量；

步骤3、在作业Job_i的执行过程中，每个子任务Task_ij根据已经处理过的数据块集合A，依照关联规则L，预测在接下来的计算中可能用到的数据块集合B，并提前加载进内存；按照如下方式决定预测是否可信：

预测置信度的计算方式为Confidence(A→B)＝Support(A∪B)/Support(B)

其中，Confidence(A→B)表示处理数据块集合A后，在接下来的计算中会使用到数据块集合B的置信度，Support(B)表示关联规则L中出现数据块集合B的次数，Support(A∪B)表示关联规则L中同时出现数据块集合A和数据块集合B的次数；

设置三个置信度阈值C_sameNode、C_sameRack、C_global，分别表示数据块集合B所在节点Node_B与子任务Task_ij所在节点Node_task两者之间的位置关系为两者在同一节点、两者不在同一节点但在同一机架、两者不在同一机架上时应该选取的置信度阈值，并有C_sameNode<C_sameRack<C_global；

根据节点Node_B与节点Node_task两者之间的位置关系在C_sameNode、C_sameRack以及C_global中选取对应的置信度阈值作为阈值C，当且仅当Confidence(A→B)≥C时，认为该预测有效，并进行数据的预读取。

优选地，所述对资料库D中的数据进行挖掘，采用的如下频繁项集挖掘算法：

步骤A0：设置阈值θ，其中，0<θ<1；设置缓冲区Buffer与关联规则L，并将缓冲区Buffer与关联规则L的初始状态均设置为空集；其中Buffer为一个集合，用于存储最近使用的记录；

对资料库D中的每一条记录T_ij执行如下步骤：

步骤A1：将一记录放入缓冲区Buffer中；

步骤A2：使用该记录更新关联规则L；

将在关联规则L中出现频率高于阈值θ的记录认定为频繁项集；如果关联规则L中涉及到的数据块个数为2的频繁项集的数量大于则进入步骤3，否则返回步骤1对下一条记录进行处理；

步骤A3：令m＝2，对关联规则L进行约简；

步骤A4：设置m初始值为2，反复执行如下步骤A4.1至A4.3，直到L_m为空集时进入步骤A5：

步骤A4.1：将m的值增加1；

步骤A4.2：使用缓冲区Buffer中的每一条记录更新关联规则L；

步骤A4.3：对关联规则L进行约简；

步骤A5：清空缓冲区。

优选地，所述更新关联规则L，具体如下：

对记录T_ij每一个大小为m的子集subset_mT_ij执行如下步骤：

-如果子集subset_mT_ij在关联子规则集合L_m中，则令该子集subset_mT_ij的计数变量countSet的值增加1；其中，记录T_ij的任意子集subsetT_ij包含一个计数变量countSet，计数变量countSet表示子集subsetT_ij在关联规则L中出现的次数；

-如果子集subset_mT_ij不在关联子规则集合L_m中且m≤2，则将该子集subset_mT_ij加入关联子规则集合L_m中；

-如果subset_mT_ij的任意大小为m-1的子集均在关联子规则集合L_m-1中，则将该子集subset_mT_ij加入关联子规则集合L_m中；其中，L_m-1表示表示关联规则L中大小为m-1的子规则集合。

优选地，所述对关联规则L进行约简，具体为：

对关联子规则集合L_m中每一条子规则L_mk执行如下步骤：

令该子规则L_mk的计数变量countRecord的值减1，如果计数变量countRecord归零，则将该子规则L_mk在关联子规则集合L_m中删除；其中，关联子规则集合L_m中的每一个子规则L_mk包含一个计数变量countRecord，计数变量countRecord表示子规则L_mk在关联规则L中出现的次数。

与现有技术相比，本发明具有如下的有益效果：

1、本发明只需对资料库进行一遍扫描，占用额外内存小，避免了影响集群的整体性能。

2、本发明可以方便的找出数据块之间的关联性，提前将逻辑关系比较紧密的数据读取到同一节点中，从而有效减少数据迁移占用的时间，提升整个系统的吞吐率。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明公开一种基于频繁项集的数据关联性分析和预读取方法，包括步骤如下：云平台每处理一个作业，将该次作业中每一个子任务处理的数据块作为一条记录存入资料库中；每隔一定时间利用集群的空闲资源对资料库中的频繁项集进行挖掘，找出数据块之间的关联性；在之后作业的执行过程中，根据预测的置信度，结合数据与任务所在节点的位置关系，提前读取所需要的数据块，从而达到提升整个集群吞吐率的目的。

本发明所提供的方法，具体如下：

步骤1、云平台每处理一个作业Job_i，则根据该次作业Job_i中的每个子任务Task_ij涉及到的数据块生成一条记录T_ij，并将记录T_ij存入资料库D中，其中，Task_ij∈Job_i，T_ij＝{Block_k|Block_k∈Task_ij}，Block_k为数据块在文件系统中的唯一标识符。

所述作业Job_i，是指用户提交到云平台中的第i个特定应用(即作业)，它通常可以分解为一个或多个子任务Task_ij，Task_ij表示作业Job_i的第j个子任务，这些子任务经过调度器的调度后分布在多个节点上并行执行，其中每个子任务负责处理指定的数据块。

所述数据块，是指在云平台的文件系统中，通常把一个大文件拆分成多个等大的数据块，分布的存储在集群中不同节点上，为了提高数据的可用性，每个数据块可以有多个备份。按照子任务所在节点与数据块所在节点的物理位置关系，可以分为三种：

(i)二者在同一节点上，通过本地磁盘I/O读取数据；

(iii)二者不在同一机架上，通过机架间的网络传输数据。

在这三种位置关系中，程序读取数据的速率依次递减。

所述的一条记录T_ij，是指一个子任务涉及到的数据块的集合；资料库为一个二维数据结构，长度为所有子任务数量之和，用来存储产生的所有记录。

步骤2、每隔时间间隔Interval，根据资料库D中的数据使用下面提出的频繁项集挖掘算法进行挖掘，找到频繁项集中所有的关联规则L，每个关联规则L都具有相应的支持度，关联规则L中的子规则L_mk的支持度定义为Support(L_mk)，其中，L_m表示关联规则L中大小为m的关联子规则集合，L_mk表示关联子规则集合L_m中的第k条记录，L_mk∈L_m。Support(L_mk)＝|L_mk|/|D|，其中|L_mk|表示关联规则L中的子规则L_mk出现的次数，|D|表示资料库D中规则的数量。为了不影响云平台的用户体验，这项操作通常在集群中有空闲资源时进行，时间间隔Interval根据资料库的变化速率进行调整，Interval∝|D|/|ΔD|，其中，|ΔD|表示单位时间内规则变化的数量，即资料库变化的越快，进行挖掘的时间间隔越短，避免资料库未更新时进行冗余的计算，同时可以尽快根据资料库的变化调整关联规则。

所述频繁项集，是指在挖掘布尔关联规则的过程中，产生的所有支持度大于最小支持度的项集，它不关心项目的次序，仅考虑项目的组合。

步骤3、在作业的执行过程中，每个子任务根据已经处理过的数据块集合A，依照关联规则L，预测在接下来的计算中可能用到的数据块集合B，并提前加载进内存。按照如下方式决定预测是否可信：

预测置信度的计算方式为Confidence(A→B)＝Support(A∪B)/Support(B)

其中，Confidence(A→B)表示处理数据块A后，在接下来的计算中会使用到数据块B的置信度，Support(B)表示关联规则中出现B的次数，Support(A∪B)表示关联规则中同时出现A和B的次数；

设置三个置信度阈值C_sameNode、C_sameRack和C_global，分别表示数据块集合B所在节点Node_B与子任务所在节点Node_task两者之间，两者为同一节点、两者不在同一节点但在同一机架、两者不在同一机架上时应该选取的置信度阈值，并有C_sameNode<C_sameRack<C_global。

根据节点Node_B与节点Node_task两者位置关系在C_sameNode、C_sameRack和C_global选取合适者作为阈值C，当且仅当Confidence(A→B)≥C时，认为该预测有效，并进行数据的预读取。

所述预测置信度，是指根据频繁项集的结果推导出的关联规则的可信程度，只有在该值高于一定阈值的情况下，才会进行数据的预读取。

本发明采用的频繁项集挖掘算法，具体如下：

输入：资料库D以及阈值θ，其中0<θ<1，出现频率高于阈值θ表示该记录T_ij为频繁项集

输出：关联规则L，其中L_m表示关联规则L中大小为m的子规则集合

数据结构：该频繁项集挖掘算法需要维护两个变量，缓冲区Buffer与关联规则L，其中Buffer为一个集合，存储最近使用的记录

初始状态：Buffer与L均为空集

对资料库中的每一条记录T_ij执行如下步骤：

步骤1：将记录T_ij放入缓冲区Buffer中，Buffer＝Buffer∪{T_ij}

步骤2：使用记录T_ij更新关联规则L，L＝update(T_ij,2)

如果关联规则L中数据块个数为2的频繁项集的数量大于则继续执行步骤3至步骤5，否则返回步骤1对下一条记录进行处理；

步骤3：对关联规则L进行约简，L＝eliminate(2)

步骤4：初始时m＝2，当L_m不为空集时，反复执行如下步骤

步骤4.1：令m的值增加1；

步骤4.2：使用缓冲区Buffer中的每一条记录T_ij更新L，L＝update(T_ij,2)；

步骤4.3：对关联规则L进行约简，L＝eliminate(m)；

步骤5：清空缓冲区Buffer，

上述步骤中提到的更新关联规则L的子程序update具体如下：

输入：一条记录T_ij以及数据块个数m

数据结构：记录T_ij的任意子集subsetT_ij包含一个计数变量countSet，计数变量countSet表示subsetT_ij在关联规则L中出现的次数

对记录T_ij每一个大小为m的子集subset_mT_ij执行如下步骤：

如果subset_mT_ij在关联规则L_m中，那么该子集的计数变量countSet的值增加1；

如果subset_mT_ij不在关联规则L_m中且m≤2，将该子集加入L_m中，L_m＝L_m∪subset_mT_ij

如果subset_mT_ij的任意大小为m-1的子集均在关联规则L_m-1中，那么将该子集加入L_m中，L_m＝L_m∪subset_mT_ij，其中，L_m-1表示表示关联规则L中大小为m-1的子规则集合。

上述步骤中提到的对关联规则L进行约简的子程序eliminate具体如下：

输入：数据块个数m

数据结构：关联子规则集合L_m中的每一个子规则L_mk包含一个计数变量countRecord，计数变量countRecord表示子规则L_mk在关联规则L中出现的次数

对关联子规则集合L_m每一条记录L_mk执行如下步骤：

令该子规则L_mk的计数变量countRecord的值减1，如果计数变量countRecord归零，则将该子规则L_mk在关联子规则集合L_m中删除。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。

Claims

1.一种基于频繁项集的数据关联性分析和预读取方法，其特征在于，包括如下步骤：

其中,L_mk表示关联子规则集合L_m中的第k条记录；Support(L_mk)＝|L_mk|/|D|，|L_mk|表示关联规则L中的子规则L_mk出现的次数，|D|表示资料库D中关联规则L的数量；时间间隔Interval根据资料库D的变化速率进行调整，Interval∝|D|/|ΔD|，其中，|ΔD|表示单位时间内关联规则L变化的数量；

预测置信度的计算方式为Confidence(A→B)＝Support(A∪B)/Support(B)

2.根据权利要求1所述的基于频繁项集的数据关联性分析和预读取方法，其特征在于，所述对资料库D中的数据进行挖掘，采用的如下频繁项集挖掘算法：

对资料库D中的每一条记录T_ij执行如下步骤：

步骤A1：将一记录放入缓冲区Buffer中；

步骤A2：使用该记录更新关联规则L；

将在关联规则L中出现频率高于阈值θ的记录认定为频繁项集；如果关联规则L中涉及到的数据块个数为2的频繁项集的数量大于，则进入步骤3，否则返回步骤1对下一条记录进行处理；

步骤A3：令m＝2，对关联规则L进行约简；

步骤A4.1：将m的值增加1；

步骤A4.2：使用缓冲区Buffer中的每一条记录更新关联规则L；

步骤A4.3：对关联规则L进行约简；

步骤A5：清空缓冲区。

3.根据权利要求2所述的基于频繁项集的数据关联性分析和预读取方法，其特征在于，所述更新关联规则L，具体如下：

对记录T_ij每一个大小为m的子集subset_mT_ij执行如下步骤：

4.根据权利要求2所述的基于频繁项集的数据关联性分析和预读取方法，其特征在于，所述对关联规则L进行约简，具体为：

对关联子规则集合L_m中每一条子规则L_mk执行如下步骤：