CN107102999A

CN107102999A - 关联分析方法和装置

Info

Publication number: CN107102999A
Application number: CN201610096728.8A
Authority: CN
Inventors: 代斌; 杨旭; 姜晓燕; 蔡宁; 王少萌
Original assignee: Alibaba Group Holding Ltd
Current assignee: Zhejiang Tmall Technology Co Ltd
Priority date: 2016-02-22
Filing date: 2016-02-22
Publication date: 2017-08-29
Anticipated expiration: 2036-02-22
Also published as: US20190102383A1; TW201741903A; CN107102999B; US10956395B2; WO2017143908A1; TWI730043B

Abstract

本发明提供了关联分析方法和装置，通过将原始数据库划分为相互之间不贡献频繁项集支持度的各投影数据库，由各节点分别对所对应的投影数据库进行序列模式的关联分析，然后对各节点获得的局部频繁项集以及对应支持度进行汇总。由于所建立的投影数据库相互之间不贡献频繁项集的支持度，可以由不同节点分别对不同的投影数据库进行包括剪枝步骤在内的关联挖掘，各节点所获得的为数据量较小的局部频繁项集，避免现有技术中需要传输各节点未经过剪枝步骤所获得的数据量较大的局部候选频繁项集的情况，从而节省了传输开销，提高了效率。

Description

关联分析方法和装置

技术领域

本发明涉及计算机技术，尤其涉及一种关联分析方法和装置。

背景技术

关联分析是进行数据挖掘中的一种分析技术，主要用于根据大量数据发现项目之间的关联性。关联分析的一个典型应用实例便是购物篮分析：基于购物数据进行关联分析，发现顾客放入购物篮中的不同商品之间的关联性。进而由这种关联分析所获得的关联性体现出顾客的购买习惯，通过了解这些购买习惯可以有利于零售商制定营销策略。

序列模式关联分析不同于其他模式下的关联分析，序列模式还考虑了项目发生的时间，从而使得各项目之间有一定的顺序性。针对序列模式的关联分析，其所进行分析的对象往往是超大规模的数据库，因此，运算量很大不适宜采用单机进行数据处理。现有技术中通常采用对数据库中的数据进行简单分片，将每个分片数据在各节点进行单独的关联分析，获得候选频繁项集及其支持度，然后进行合并获得各候选频繁项集的全局支持度，进而依据预设的筛选条件进行剪枝后获得全局频繁项集。

但是，由于在进行关联分析生成候选频繁项集的过程中存在数据膨胀，导致候选频繁项集的数据量是分片数据的数据量的指数倍，因此，在对各节点生成的候选频繁项集及其支持度进行汇总以便执行合并操作时，传输数据量过大，导致执行效率较低。

发明内容

本发明提供一种关联分析方法和装置，用于解决现有技术中进行并行关联分析时由于汇总数据时数据传输量过大导致执行效率较低的技术问题。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，提供一种关联分析方法，包括：

将原始数据库划分为各投影数据库，所述各投影数据库相互之间不贡献频繁项集的支持度；

由各节点分别对所对应的投影数据库进行序列模式的关联分析，获得局部频繁项集以及对应支持度；

对各节点关联分析所获得的局部频繁项集以及对应支持度进行汇总，获得全局频繁项集以及对应支持度。

第二方面，提供一种关联分析装置，包括：

划分模块，用于将原始数据库划分为各投影数据库，所述各投影数据库相互之间不贡献频繁项集的支持度；

分析模块，用于由各节点分别对所述投影数据库进行序列模式的关联分析，获得局部频繁项集以及对应支持度；

汇总模块，用于对各节点关联分析所获得的局部频繁项集以及对应支持度进行汇总，获得全局频繁项集以及对应支持度。

本发明实施例提供的关联分析方法和装置，通过将原始数据库划分为相互之间不贡献支持度的各投影数据库，由各节点分别对所对应的投影数据库进行序列模式的关联分析，然后对各节点获得的局部频繁项集以及对应支持度进行汇总。由于所建立的投影数据库相互之间不贡献频繁项集的支持度，可以由不同节点分别对不同的投影数据库进行包括剪枝步骤在内的关联挖掘，各节点所获得的为数据量较小的局部频繁项集，避免现有技术中需要传输各节点未经过剪枝步骤所获得的数据量较大的局部候选频繁项集的情况，从而节省了传输开销，提高了效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例一提供的一种关联分析方法的流程示意图；

图2为本发明实施例二提供的一种关联分析方法的流程示意图；

图3为关联分析方法执行过程的示意图；

图4为本发明实施例所提供的一种关联分析装置的结构示意图；

图5为实施例三提供的另一种关联分析装置的结构示意图；

图6为实施例四提供的一种关联分析装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

在待进行关联分析的数据库中，通常记载了各个事务，事务又包括了各个项目，每一个项目包括至少一个元素。其中，一个元素用于指示一个操作对象，项目用于指示由同一用户同时进行操作的各操作对象，而一个用户在不同时刻所进行操作的操作对象可以用一个事务标识。由于序列模式下的关联分析需要考虑时序性，因此，每一个事务所包括的各个项目是具有一定顺序性的，这种具有顺序的各个项目可以称之为一个序列，因此，也可以说事务是由一个序列进行表示的。

比如数据库中的一个事务为序列abc,abc,ac,d,cf，可以用于表示一个用户分别在第一天买了商品a、b和c，第二天又买了商品a、b和c，第三天买了商品a和c。针对每一天买的总商品叫项目，每件商品叫元素。

发明人针对现有技术中的关联分析方法进行分析，发现现有技术中在对各节点生成的候选频繁项集及其支持度进行汇总以便执行合并操作时，传输数据量过大，主要是由于各节点未在本地执行剪枝的步骤。发明人在此基础上，进行了进一步分析，现有技术中对原始数据仅进行了简单分片，各个分片数据对于某个频繁项级都存在贡献支持度的可能，从而无法在本地执行剪枝的步骤，因此，需要将原始数据划分为相互之间不存在支持度的数据库才能够在节点本地进行剪枝，进而避免传输候选频繁项集及其支持度。基于这一思路，发明人提出了本发明所提供的关联分析方法。

为了便于理解本发明所提供的关联分析方法，在描述具体实施例之前，对实施例中所涉及的技术术语进行解释：

序列模式关联分析是指：给定一个数据库，其中，数据库包括了各个事务，每一个事务由一个序列表示，每个序列由相互之间具有一定顺序性的项目组成。序列模式挖掘就是在给定一个支持度阈值的基础上，找出所有满足在数据库中的出现频次不低于该支持度阈值的子序列，将这些子序列作为频繁项集，从数据库中找出这些频繁项集的操作便是序列模式关联分析。

项集是指：数据库针对同一事务中所出现的项目有序排列所构成的集合。

项集的长度是指：用于表示该项集的序列的长度，数值上等于项集所包括的项目个数。

支持度是指：项集在数据库中出现的频次，若一个事务中包含该项集，则记为一次，从而支持度等于数据库中包含某一项集的事务个数。

频繁项集是指：数据库中所有出现频次不小于支持度阈值的项集。

投影数据库是指：针对原始数据库进行投影操作所获得的数据库，具体来说α的投影数据库为S中所有以α为前缀的序列相对于α的后缀。

此处简要解释了技术术语的含义，以上技术术语会在后续结合具体实施例进行进一步地解释。

下面结合附图对本发明实施例提供的关联分析方法和装置进行详细描述。

实施例一

图1为本发明实施例一提供的一种关联分析方法的流程示意图，如图1所示，包括：

步骤101、将原始数据库划分为各投影数据库。

其中，各投影数据库相互之间不贡献频繁项集的支持度。其中，支持度是指在数据库中包含某一项集的事务个数。各投影数据库相互之间不贡献频繁项集的支持度，也就是说基于一投影数据库进行序列模式挖掘所获得的频繁项集未出现在另一投影数据库中，从而另一投影数据库不会增加频繁项集的支持度，因此说另一投影数据库不贡献一投影数据库的频繁项集的支持度。

具体地，首先，获得至少两个初始项集，其中初始项集是对原始数据库进行关联分析所获得的项集，用于构建投影数据库，并且至少两个初始项集中的任意两初始项集之间不存在相互包含关系。具体可以通过针对原始数据库可以采用关联分析算法进行计算，获得前述的至少两项集，这两项集可以是相同长度也可以是不同长度，可以是执行过剪枝步骤获得的频繁项集也可以是未执行过剪枝步骤获得的候选频繁项集，本实施例中对此不做限定。

进而，将各初始项集作为前缀，建立各前缀的投影数据库。具体可以通过将初始项集作为前缀，在原始数据库的各事务中查询前缀所对应的后缀，进而将各事务的后缀进行汇总，形成前缀的投影数据库。其中，后缀是通过在每一条事务中查询该前缀首次出现的位置之后的序列，若前缀的最后一个元素与所查找到的序列的第一个元素的时序相同，则将“_”和所查找到的序列作为后缀，否则，直接将所查找到的序列作为后缀。

由于初始项集两两之间的不存在包含关系，所以据此所建立的投影数据库相互之间不贡献频繁项集的支持度，可以由不同节点分别对不同的投影数据库进行包括剪枝步骤在内的关联挖掘，各节点所获得的为数据量较小的局部频繁项集，避免现有技术中需要传输各节点未经过剪枝步骤所获得的数据量较大的局部候选频繁项集的情况，从而节省了传输开销，提高了效率。

需要说明的是，这里定义的包含关系是前缀的包含关系，也就说一个初始项集是否为另一初始项集的前缀，若是，则存在包含关系，例如：

针对<a，b>和<a，c，b>，<a，b>不是<a，c，b>的前缀，因此<a，b>和<a，c，b>两者之间不存在包含关系；

针对<a，b>和<a>，<a>是<a，b>的前缀，因此<a，b>和<a>属于包含关系。

作为一种可能的实现方式，可以计算原始数据库的K_频繁项集，也就是项集中包含K个项目的频繁项集，其中K为正整数，且1≤K＜N，N为原始数据库中所包含的元素数，将K_频繁项集作为初始项集。

作为另一种可能的实现方式，还可以计算原始数据库的K_频繁项集之后，根据预设的支持度阈值，对K_频繁项集进行筛选，保留支持度大于支持度阈值的K_频繁项集，将筛选后的K_频繁项集作为初始项集。经过筛选步骤之后，合理减小了后续进行处理的数据量，减轻了节点构建投影数据库以及基于投影数据库进行关联分析的运算压力，同时，也减少了后续对节点关联分析所获得的局部频繁项集进行汇总时的数据传输总量。

步骤102、由各节点分别对所对应的投影数据库进行序列模式的关联分析，获得局部频繁项集以及对应支持度。

具体的，为每一投影数据库分配节点，例如：可以为各投影数据库分配负载能力与所述投影数据库的数据量相匹配的节点。然后由各节点采用预设关联分析算法并行进行序列模式的关联分析，如广义序贯模式(Generalized Sequential Pattern，GSP)算法，具体来说，各节点对投影数据库执行扫描、合并和剪枝的步骤，获得频繁项集以及对应支持度。每个节点仅能够获得原始数据库的各频繁项集中的一部分频繁项集，为了与原始数据库的全部频繁项集进行区分，将每个节点所获得的频繁项集称为局部频繁项集，将原始数据库的全部频繁项集称为全局频繁项集。另外需要说明的是，这里所说的节点运行在一个单机上，单机可以是物理机也可以是虚拟机本实施例中对此不做限定。

通过为各投影数据库分配负载能力与所述投影数据库的数据量相匹配的节点，避免出现有些节点负载过重而另一些节点空闲的情况出现，从而更加合理和高效地利用现有节点，加快关联分析速度，提高关联分析的效率。

步骤103、对各节点关联分析所获得的局部频繁项集以及对应支持度进行汇总，获得全局频繁项集以及对应支持度。

具体地，将各节点关联分析所获得的局部频繁项集以及对应支持度汇总到一个文件既可，从而该文件中记录的为全局频繁项集以及对应支持度，而无需执行合并和剪枝的步骤。

本实施例中，通过将原始数据库划分为相互之间不贡献支持度的各投影数据库，由各节点分别对所对应的投影数据库进行序列模式的关联分析，然后对各节点获得的局部频繁项集以及对应支持度进行汇总。由于所建立的投影数据库相互之间不贡献频繁项集的支持度，可以由不同节点分别对不同的投影数据库进行包括剪枝步骤在内的关联挖掘，各节点所获得的为数据量较小的局部频繁项集，避免现有技术中需要传输各节点未经过剪枝步骤所获得的数据量较大的局部候选频繁项集的情况，从而节省了传输开销，提高了效率。

实施例二

图2为本发明实施例二提供的一种关联分析方法的流程示意图，本实施例所提供的关联分析方法可以由软件执行，该软件可以运行在大数据计算服务(Open Data Processing Service,简称ODPS)平台上，本实施例所提供的方法可以运行在映射规约(MapReduce)软件框架下由多个节点执行，在MapReduce软件框架下包括一个主节点(master)，和多个从节点(workers)，主节点可以对各从节点分配映射(Map)作业(用来把一组键值对映射成一组新的键值对)或者规约(Reduce)作业(用来保证所有映射的键值对中的每一个共享相同的键组)，分配到Map作业的从节点又可以称为Map节点，分配到Reduce作业的从节点又可以称为Reduce节点。每一个节点可以运行在一个物理机或者虚拟机上，本实施例中对此不做限定。如图2所示，方法包括：

步骤201、主节点对从节点进行调度以使从节点进行数据预处理。

具体地，主节点将数据预处理作为一项MapReduce任务，调度从节点执行该任务，从而针对原始数据进行数据序列化操作。具体通过根据映射表将原始数据中所记载的各用户执行操作的不同的操作对象分别用数字或者字母序列进行标识，并针对同一用户执行操作的操作对象按照操作时间进行排序。

步骤202、从节点在主节点调度下基于原始数据库D计算K_频繁项集，将每一个K_频繁项集分配至一个Map节点进行处理。

需要说明的是，1≤K＜N，N为原始数据库中所包含的元素数。

步骤203、各Map节点根据每一个K_频繁项集遍历原始数据库D中的一个分片数据，获得每一个K_频繁项集的投影数据库D’的一部分。

具体地，每一个Map节点均根据各K_频繁项集将原始数据库D的一个分片数据中的数据划分为前缀和后缀两部分，由全部Map节点所获得的对应某一个K_频繁项集的后缀部分所构成的投影数据库D’即为该K_频繁项集的投影数据库D’。具体来说，在各事务中，将该K_频繁项集作为前缀，查询该前缀首次出现的位置之后的序列，若前缀的最后一个元素与所查找到的序列的第一个元素的时序相同，则将“_”和所查找到的序列作为后缀，否则，直接将所查找到的序列作为后缀。构建由各事务中的后缀所构成的该K_频繁项集的投影数据库D’。

Map节点的个数可以为多个，各Map节点获取到原始数据库D中的一个分片数据，这里的分片是简单的数据分片，每一个Map节点将各K_频繁项集作为键，遍历分片数据中的各事务，获得各个键或者说各个K_频繁项集对应的键值，将所获得的键值输出至该K_频繁项集对应的Reduce节点，从而该K_频繁项集对应的Reduce节点从全部Map节点所接收到的数据构成了该K_频繁项集的投影数据库D’。例如：若存在m个K_频繁项集，3个分片数据时，Map节点1基于m个K_频繁项集将原始数据库D的第一个分片数据划分为前缀和后缀两部分，Map节点2基于m个K_频繁项集将原始数据库D的第二个分片数据划分为前缀和后缀两部分，Map节点3基于m个K_频繁项集将原始数据库D的第三个分片数据划分为前缀和后缀两部分。

需要说明的是，投影数据库D’中“_”用于表示前缀自身，且该前缀为后缀中第一个项目的元素，该第一个项目除了该前缀外还有其他元素。

对于相同前缀的各事务，可以看出其生成的频繁项集也具有相同的前缀，因此将各事务中同一前缀首次出现的位置之后的序列合并为投影数据库，不同投影数据库所关联分析获得的频繁项集不会出现重复的情况，因而也就互不贡献支持度。从而不同的Reduce节点可以针对不同的投影数据库独立的进行关联分析挖掘，包括对候选频繁项集剪枝获得频繁项集的过程也在本地Reduce节点，避免了汇总候选频繁项集及其本地支持度。

可见，本实施例中所提供的方法不同于目前不同的Reduce节点关联分析获得的候选频繁项集会出现重复的情况，因而不需要汇总Reduce节点所关联分析获得的候选频繁项集其本地支持度之后，才能够进行合并和剪枝，最终获得全局频繁项集。因此，本实施例中的方法，能够有效避免汇总候选频繁项集及其本地支持度，而各Reduce节点候选频繁项集的往往是该Reduce节点的分片数据的数据量的指数倍，因此，本实施例中的方法极大减少了进行数据传输的数据量。

步骤204、各Reduce节点从全部Map节点接收所对应的K_频繁项集的投影数据库D’的一部分，获得所对应的K_频繁项集的投影数据库D’，对投影数据库D’进行并行关联分析处理。

具体的，MapReduce软件框架包括多个Reduce节点，每一个Reduce节点对应一个K_频繁项集。每一个Reduce节点从全部Map节点接收所对应的K_频繁项集的投影数据库D’的一部分，从而获得所对应的K_频繁项集的投影数据库D’，进而对该K_频繁项集的投影数据库D’进行关联分析处理，获得频繁项集及其支持度。

例如：Reduce节点1基于投影数据库D’₁进行关联分析处理，Reduce节点2基于投影数据库D’₂进行关联分析处理，……Reduce节点m基于投影数据库D’_m进行关联分析处理。

其中，各Reduce节点可以采用GSP算法进行关联分析处理从而获得前述的频繁项集及其支持度，也可以采用其他关联分析算法而不会影响本实施例所提供的方法的使用效果，本实施例中GSP算法仅作为示例说明本实施例所提供的方法。GSP算法是通过扫描投影数据库D’得到长度为i的序列作为初始序列，然后根据长度为i的初始序列，经过合并和剪枝的操作，生成长度为i+1的序列，并将生成的序列作为新的初始序列，重复迭代执行扫描、合并和剪枝的操作，直至不再生成新的序列，用所获得的序列表示候选频繁项集。基于投影数据库D’计算候选频繁项集的支持度，然后根据预设的筛选条件进行筛选，获得频繁项集。

需要说明的是，i的初始取值应当等于作为前缀的频繁项集的序列长度。

具体可以采用如下所示的GSP算法伪代码：

Algorihm GSP(S)

1 C₁←init-pass(S)；

2 F₁←{<{f}>|f∈C₁，f.count/n≥minsup}；

3 for(k＝2；k++)do

4 C_k←candidate-gen-SPM(F_k-1)；

5 for each data sequence s∈S do

6 for each candidate c∈C_k do

7 if c is contained in s then

8 c.count++

9 end

10 end

11 F_k←{c∈C_k|c.count/n≥minsup}

12 end

13 return∪_k F_k；

其中，candidate-gen-SPM(F_k-1)的算法流程如下：

1、合并：对所生成的k-1_候选频繁项集F_k-1进行合并，生成k_候选频繁项集F_k。

具体地，当k＝2时，对于两个1_候选项集F₁的序列s₁和s₂，需要将s₂的项目要以s₁的项目中的一部分和以一个单独的项目两种方式合并到s₁。即合并<a>和<b>，生成的候选频繁项级有<(a，b)>、<a，a>、<a，b>、<b，a>和<b，b>。

需要说明的是，<(a，b)>表示a，b同时发生，<a，b>表示先发生a，后发生b。

当k取大于2的正整数时，对于两个序列s₁和s₂，如果将s₁的第1个项目去掉后得到的余串和将s₂的最后一个项目去掉后得到的余串相同，则可以将s₁和s₂合并。所得的候选序列是将s₂的最后一个项目添加到s₁末尾，这里针对两种不同情况有两种添加方式：

如果s₂最后一个项目是一个单独的元素，则这个项目将以一个单独项目的形式加到s₁的末尾，否则，s₂最后一个项目将作为s₁的最后一个项目中的一个部分合并入s₁。

2、剪枝：对合并所获得的k_候选频繁项集F_k进行剪枝，获得k_频繁项集F_k。

具体地，剪枝是指如果一个k_候选频繁项集F_k的任何一个子集是非频繁的，则这个k_候选频繁项集F_k将被去除。

Reduce节点基于前述扫描、合并和剪枝的步骤以及筛选的步骤，获得关联分析处理结果，即频繁项集及其支持度。

步骤205、各Reduce节点对关联分析处理结果输出。

具体的，各节点可以直接输出关联分析处理结果，还可以在输出之前，根据映射表对结果进行反序列化处理，从而输出反序列化处理后的关联分析处理结果。

步骤206、对各Reduce节点输出的关联分析处理结果进行汇总。

具体的，可以主节点调度从节点直接合并各Reduce节点输出的结果，汇总为一个文件既可。由于各K_频繁项集的投影数据库D’相互之间不贡献支持度，可以由不同节点分别对不同的投影数据库进行包括剪枝步骤在内的关联挖掘，各节点所输出的关联分析处理结果为数据量较小的局部频繁项集，避免现有技术中需要传输各节点未经过剪枝步骤所获得的数据量较大的局部候选频繁项集的情况，从而节省了传输开销，提高了效率。

为了清楚说明本实施例，本实施例提供了一个具体的实例以对本实施例所提供的方法进行详细说明。

例如：

图3为关联分析方法执行过程的示意图，如图3所示，针对表1中的原始数据进行序列化。在表1中，原始数据的每一行对应一个用户，列向量从左至右依次为用户标识和操作对象以及对该操作对象执行操作的操作时间。

甲用户

苹果梨桃

2月1日

苹果梨桃

2月2日

苹果桃

2月3日

乙用户

梨桃

2月3日

苹果

2月4日

苹果梨

2月5日

丙用户

苹果

2月6日

梨

2月7日

香蕉

2月8日

表1原始数据的记录表

表1中的原始数据记录到了甲、乙、丙用户分别于不同日期执行了三次购买操作，根据如下映射表：

苹果→a

梨→b

桃→c

香蕉→d

执行数据序列化操作，获得原始数据库D。在原始数据库D中所记载的内容如下所示：

abc,abc,ac；

bc,a,ab；

a,b,d。

需要说明的是，每一行代表一个事务，在每一个事务中，用逗号分隔各个项目。

基于前述原始数据库D，进行序列模式的关联分析，计算1_候选频繁项集及其支持度，如下表所示。

候选频繁项集	支持度
		<a>	3
<b>	3
		<c>	2
<d>	1

表2 1_候选频繁项集及其支持度

若预先设置了以支持度2作为最小支持度阈值，也就是说支持度小于2的候选频繁项集将会被过滤掉，从而获得1_频繁项集<a>，<b>，<c>。

在每一个Map节点中构建各1_频繁项集的投影数据库的一部分，Reduce节点从每个Map节点接收对应1_频繁项集的投影数据库一部分，汇总获得该1_频繁项集的投影数据库，进行关联分析处理。

将1_频繁项集<a>作为前缀a，构建前缀a的投影数据D’_a，所构建的前缀a的投影数据库D’_a如下所示：

_bc,abc,ac

ab

b,d。

将1_频繁项集<b>作为前缀b，构建前缀b的投影数据D’_b，所构建的前缀b对应的投影数据库D’_b如下所示：

_c,abc,ac

_c,a,ab

d。

将1_频繁项集<c>作为前缀c，构建前缀c的投影数据D’_c，所构建的前缀c对应的投影数据库D’_c如下所示：

abc,ac

a,ab

在前面的步骤中已获得1_频繁项集<a>，<b>，<c>。根据1_频繁项集所获得的2_候选频繁项集如下所示：

<(a，b)>，<(a，c)>，<(b，c)>，<a，a>，<a，b>，<a，c>，<b，a>，<b，b>，<b，c>，<c，a>，<c，b>，<c，c>。

数据库D已被划分为前缀a的投影数据库D’_a，前缀b的投影数据库D’_b，前缀c的投影数据库D’_c，并分别由不同Reduce节点进行关联分析处理，如在Reduce节点1中，对于<(a，b)>，<(a，c)>，<a，a>，<a，b>，<a，c>只需要基于投影数据库D’_a计算支持度。

频繁项集	支持度
		<(a，b)>	2
<(a，c)>	1
		<a，a>	2
<a，b>	3
		<a，c>	1

表3 Reduce节点1的支持度计算结果

同理，Reduce节点2对于<(b，c)>，<b，a>，<b，b>，<b，c>只需要基于投影数据库D’_b计算支持度。

频繁项集	支持度
		<(b，c)>	2
<b，a>	2
		<b，b>	2
<b，c>	1

表4 Reduce节点2的支持度计算结果

Reduce节点3对于<c，a>，<c，b>，<c，c>只需要基于投影数据库D’_c计算支持度。

频繁项集	支持度
		<c，a>	2
<c，b>	2
		<c，c>	1

表5 Reduce节点3的支持度计算结果

可以针对各个Reduce节点设置相同的支持度阈值作为筛选条件，当频繁项集的支持度大于该支持度阈值时，筛选通过并保留，否则筛选掉而不进行保留。当支持度阈值为1时，各Reduce节点分别保留如下频繁项集：

频繁项集	支持度
		<(a，b)>	2
<a，a>	2
		<a，b>	3

表6 Reduce节点1的筛选结果

频繁项集	支持度
		<(b，c)>	2
<b，a>	2
		<b，b>	2

表7 Reduce节点2的筛选结果

频繁项集	支持度
		<c，a>	2
<c，b>	2

表8 Reduce节点3的筛选结果

各个Reduce节点对筛选后的频繁项集，根据映射表进行反序列化处理，进而各个Reduce节点输出反序列化处理后的关联分析处理结果，下表为各Reduce节点输出的反序列化处理后的关联分析处理结果示意。

表9各Reduce节点输出的结果

对各Reduce节点输出的结果进行汇总，汇总获得的文件内容如下所示

频繁项集	支持度
		<(苹果，梨)>	2
<苹果，苹果>	3
		<苹果，梨>	3
<(梨，桃)>	2
		<梨，苹果>	2
<梨，梨>	2
		<桃，苹果>	2
<桃，梨>	2

表10汇总结果

本实施例中，通过对原始数据库进行关联分析计算，获得至少两个初始项集之后，将各初始项集作为前缀，建立各前缀的投影数据库，由各节点分别对所对应的投影数据库进行序列模式的关联分析，然后对各节点获得的局部频繁项集以及对应支持度进行汇总。由于至少两个初始项集之间不存在相互包含关系，所以据此所建立的投影数据库相互之间不贡献频繁项集的支持度，可以由不同节点分别对不同的投影数据库进行包括剪枝步骤在内的关联挖掘，各节点所获得的为数据量较小的局部频繁项集，避免现有技术中需要传输各节点未经过剪枝步骤所获得的数据量较大的局部候选频繁项集的情况，从而节省了传输开销，提高了效率。

实施例三

图4为本发明实施例所提供的一种关联分析装置的结构示意图，如图4所示，包括：划分模块42、分析模块43和汇总模块44。

划分模块42，用于将原始数据库划分为各投影数据库，所述各投影数据库相互之间不贡献频繁项集的支持度。

分析模块43，用于由各节点分别对所述投影数据库进行序列模式的关联分析，获得局部频繁项集以及对应支持度。

具体地，分析模块43具体用于采用预设关联分析算法，由节点对所述投影数据库执行扫描、合并和剪枝的步骤，获得局部频繁项集以及对应支持度。其中，关联分析算法包括GSP算法。

汇总模块44，用于对各节点关联分析所获得的局部频繁项集以及对应支持度进行汇总，获得全局频繁项集以及对应支持度。

进一步，本实施例还提供了一种关联分析装置的结构示意图，图5为实施例三提供的另一种关联分析装置的结构示意图，如图5所示，划分模块42，包括：获得单元421、建立单元422。

获得单元421，用于对原始数据库进行序列模式的关联分析，获得至少两个初始项集。

其中，所述至少两个初始项集之间不存在相互包含关系。

建立单元422，用于将各初始项集作为前缀，建立各前缀的投影数据库。

进一步，获得单元421，包括：计算子单元4211、确定子单元4212筛选子单元4213。

计算子单元4211，用于计算原始数据库的k_频繁项集。

其中k为正整数，且1≤k＜N，N为原始数据库中所包含的元素数。

确定子单元4212，用于将所述k_频繁项集作为所述初始项集。

筛选子单元4213，用于根据预设的支持度阈值，对k_频繁项集进行筛选，保留支持度大于所述支持度阈值的k_频繁项集。

进一步，建立单元422，包括：查询子单元4221和建立子单元4222。

查询子单元4221，用于将所述初始项集作为前缀，在所述原始数据库的各事务中查询所述前缀所对应的后缀；

建立子单元4222，用于将各事务的后缀进行汇总形成所述前缀的投影数据库。

本实施例中，通过对原始数据库进行关联分析计算，获得至少两个初始项集之后，将各初始项集作为前缀，建立各前缀的投影数据库，由各节点分别对所对应的投影数据库进行序列模式的关联分析。由于至少两个初始项集之间不存在相互包含关系，所以据此所建立的投影数据库相互之间不贡献频繁项集的支持度，可以由不同节点分别对不同的投影数据库进行包括剪枝步骤在内的关联挖掘，各节点所获得的为数据量较小的局部频繁项集，避免现有技术中需要传输各节点未经过剪枝步骤所获得的数据量较大的局部候选频繁项集的情况，从而节省了传输开销，提高了效率。

实施例四

图6为实施例四提供的一种关联分析装置的结构示意图，在上一实施例的基础上，本实施例中的装置，还包括：分配模块61。

分配模块61，用于为各投影数据库分配负载能力与所述投影数据库的数据量相匹配的节点。

进一步，关联分析装置还包括：序列化模块62和反序列化模块63。

序列化模块62，用于根据映射表，对原始数据进行序列化获得原始数据库。

反序列化模块63，用于对各节点关联分析所获得的局部频繁项集以及对应支持度进行汇总之前，对所述局部频繁项集进行反序列化；或者，获得全局频繁项集以及对应支持度之后，对所述全局频繁项集进行反序列化。

本实施例中，通过对原始数据库进行关联分析计算，获得至少两个初始项集之后，将各初始项集作为前缀，建立各前缀的投影数据库，由各节点分别对所对应的投影数据库进行序列模式的关联分析。由于至少两个初始项集之间不存在相互包含关系，所以据此所建立的投影数据库相互之间不贡献频繁项集的支持度，可以由不同节点分别对不同的投影数据库进行包括剪枝步骤在内的关联挖掘，各节点所获得的为数据量较小的局部频繁项集，避免现有技术中需要传输各节点未经过剪枝步骤所获得的数据量较大的局部候选频繁项集的情况，从而节省了传输开销，提高了效率。另外，针对各投影数据库可能具有不同的规模的特点，为各投影数据库分配负载能力与所述投影数据库的数据量相匹配的节点，避免出现有些节点较为空闲，而另外一些节点过载的情况发生从而进一步提高关联分析的效率

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种关联分析方法，其特征在于，包括：

2.根据权利要求1所述的关联分析方法，其特征在于，所述将原始数据库划分为各投影数据库，包括：

对所述原始数据库进行序列模式的关联分析，获得至少两个初始项集；其中，各初始项集之间不存在相互包含关系；

将各初始项集作为前缀，建立各前缀的投影数据库。

3.根据权利要求2所述的关联分析方法，其特征在于，所述对原始数据库进行关联分析计算，获得至少两个初始项集，包括：

计算原始数据库的K_频繁项集；其中K为正整数，且1≤K＜N，N为原始数据库中所包含的元素数；

将所述K_频繁项集作为所述初始项集。

4.根据权利要求3所述的关联分析方法，其特征在于，所述将K_频繁项集作为所述初始项集之前，还包括：

根据预设的支持度阈值，对K_频繁项集进行筛选，保留支持度大于所述支持度阈值的K_频繁项集。

5.根据权利要求2所述的关联分析方法，其特征在于，所述将各初始项集作为前缀，建立各前缀的投影数据库，包括：

将所述初始项集作为前缀，在所述原始数据库的各事务中查询所述前缀所对应的后缀；

将各事务的后缀进行汇总形成所述前缀的投影数据库。

6.根据权利要求1所述的关联分析方法，其特征在于，所述由各节点分别对所对应的投影数据库进行序列模式的关联分析之前，包括：

为各投影数据库分配负载能力与所述投影数据库的数据量相匹配的节点。

7.根据权利要求1所述的关联分析方法，其特征在于，所述由各节点分别对所对应的投影数据库进行序列模式的关联分析，获得局部频繁项集以及对应支持度，包括：

采用预设关联分析算法，由所述节点对所述投影数据库执行扫描、合并和剪枝的步骤，获得局部频繁项集以及对应支持度。

8.根据权利要求7所述的关联分析方法，其特征在于，所述关联分析算法包括GSP算法。

9.根据权利要求1-8任一项所述的关联分析方法，其特征在于，所述对原始数据库进行关联分析计算，获得至少两个初始项集之前，还包括：

根据映射表，对原始数据进行序列化获得原始数据库。

10.根据权利要求9所述的关联分析方法，其特征在于，

所述对各节点关联分析所获得的局部频繁项集以及对应支持度进行汇总之前，对所述局部频繁项集进行反序列化；

或者，获得全局频繁项集以及对应支持度之后，对所述全局频繁项集进行反序列化。

11.一种关联分析装置，其特征在于，包括：

12.根据权利要求11所述的关联分析装置，其特征在于，所述划分模块，包括：

获得单元，用于对原始数据库进行序列模式的关联分析，获得至少两个初始项集；其中，各初始项集之间不存在相互包含关系；

建立单元，用于将各初始项集作为前缀，建立各前缀的投影数据库。

13.根据权利要求12所述的关联分析装置，其特征在于，所述获得单元，包括：

计算子单元，用于计算原始数据库的K_频繁项集；其中K为正整数，且1≤K＜N，N为原始数据库中所包含的元素数；

确定子单元，用于将所述K_频繁项集作为所述初始项集。

14.根据权利要求13所述的关联分析装置，其特征在于，所述获得单元，还包括：

筛选子单元，用于根据预设的支持度阈值，对K_频繁项集进行筛选，保留支持度大于所述支持度阈值的K_频繁项集。

15.根据权利要求12所述的关联分析装置，其特征在于，所述建立单元，包括：

查询子单元，用于将所述初始项集作为前缀，在所述原始数据库的各事务中查询所述前缀所对应的后缀；

建立子单元，用于将各事务的后缀进行汇总形成所述前缀的投影数据库。

16.根据权利要求11所述的关联分析装置，其特征在于，所述装置，还包括：

分配模块，用于为各投影数据库分配负载能力与所述投影数据库的数据量相匹配的节点。

17.根据权利要求11所述的关联分析装置，其特征在于，

所述分析模块，具体用于采用预设关联分析算法，由节点对所述投影数据库执行扫描、合并和剪枝的步骤，获得局部频繁项集以及对应支持度。

18.根据权利要求17所述的关联分析装置，其特征在于，所述关联分析算法包括GSP算法。

19.根据权利要求11-18任一项所述的关联分析方法，其特征在于，所述装置，还包括：

序列化模块，用于根据映射表，对原始数据进行序列化获得原始数据库。

20.根据权利要求19所述的关联分析装置，其特征在于，所述装置，还包括：

反序列化模块，用于对各节点关联分析所获得的局部频繁项集以及对应支持度进行汇总之前，对所述局部频繁项集进行反序列化；或者，获得全局频繁项集以及对应支持度之后，对所述全局频繁项集进行反序列化。