CN111858530B

CN111858530B - 一种基于海量日志的实时关联分析方法及系统

Info

Publication number: CN111858530B
Application number: CN202010637310.XA
Authority: CN
Inventors: 徐海青; 周刚; 陈是同; 周晟; 吴树霖; 张江龙; 陶俊; 吴小华; 高扬; 毛舒乐; 梁翀; 浦正国; 胡心颖; 郭庆
Original assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; State Grid Fujian Electric Power Co Ltd; Anhui Jiyuan Software Co Ltd; Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; State Grid Fujian Electric Power Co Ltd; Anhui Jiyuan Software Co Ltd; Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2022-08-16
Anticipated expiration: 2040-07-03
Also published as: CN111858530A

Abstract

本发明公开了一种基于海量日志的实时关联分析方法及系统，通过改进的Storm实时计算系统，对实时增加的海量日志数据进行实时的关联规则挖掘，针对电力信息系统中产生的海量日志数据，通过Storm实时计算系统和关联规则挖掘相关技术结合实现面对实时新增的日志数据进行即时的关联规则挖掘，对信息系统多个指标日志数据进行关联分析，针对系统故障可进行迅速定位，方便查到系统故障根因，提升信息系统运维效率。

Description

一种基于海量日志的实时关联分析方法及系统

技术领域

本发明涉及数据挖掘技术领域，具体涉及一种基于海量日志的实时关联分析方法及系统。

背景技术

关联规则挖掘是数据挖掘中的一种十分重要的方法，它的作用在于找到数据之间的相关性。随着我国信息技术的蓬勃发展，在各个领域中，数据的数量都变得越来越多，推动着我们进入了大数据的时代，因此利用关联规则来挖掘的对象常常是庞大的集中式或分布式数据库，其中当然也包括电力信息系统日志数据。一方面，为了在存储的能力、挖掘的能力方面适应大数据挖掘的要求，提出了并行方法处理海量数据的方法。另一方面，在包含海量日志数据挖掘之内的很多数据挖掘应用中，数据库都需要不断地更新，因此存在着增量更新的问题，需要在挖掘原始数据库的基础上，再对新增数据库进行挖掘。

Storm是一个分布式流式计算框架，具有数据计算延迟低、吞吐高、计算逻辑表达能力灵活的优点，但是Storm计算框架中间不会有数据合并和收集的过程，这导致在数据聚集处理的场景中比如关联规则挖掘中需要自行处理相关逻辑，为此本发明对原有的流处理框架Storm进行改进，实现关联规则挖掘处理过程的低延迟和实时性。

发明内容

针对上述现有技术存在的问题，本发明提供了一种基于海量日志的实时关联分析方法及系统，针对电力信息系统中产生的海量日志数据进行实时的关联规则挖掘，通过改进的Storm实时计算系统和关联规则挖掘相关技术结合实现面对实时新增的日志数据进行即时的关联规则挖掘，对信息系统多个指标日志数据进行关联分析，具体的，本发明的一种基于海量日志的实时关联分析方法，包括：

获取原有日志事务数据DB的所有关联分析数据，所述关联分析数据包括数据DB中的不频繁项、频繁项和关联规则；

获取实时采集的日志数据db；

基于改进的Storm实时计算系统进行海量日志的实时关联分析，分析过程包括：

第一级节点启动，用于追踪流数据处理过程所有节点的任务完成情况，同时第二级节点启动，用于控制所有节点的工作顺序；

第二级节点向第三级节点发送日志数据db的标识字段；

第三级节点根据接收的标识字段读取数据库中对应的日志数据，并将读取数据发送到第四级节点；当第三级节点读取完成后，向所有第四级节点发送完成标志信息，同时将读取完的数据归入数据DB中；

第四级节点接收到数据后，统计所在节点上的所有事务中的项t_ij及每项频数，并转换成键值形式直接发送到第五级节点，第四级节点接收到所有第三级节点发送的完成标志信息后，向所有第五级节点发送完成标志信息；

第五级节点接收到所有第四级节点发送的完成标志信息后，对所在节点接收的所有键值对中相同的键进行合并，合并后发送到第六级节点；

第六级节点，接收所有第五级节点发送的键值对，进行键值对合并，获取日志数据db中的所有项t_ij及对应频数SUP_k-itemset-l，获得日志数据db增加到DB中后新增的所有频繁项，形成待分析频繁项集合Glist；

第四级节点获取日志数据db和DB中所有与Glist中的项有关联的事务，并将所有与Glist中的项有关联的事务分组，每组事务传送到相同的第五级节点；

第五级节点对所在节点上接收的每组事务进行关联规则挖掘，并发送到第六级节点；

第六级节点接收所有第五级节点的关联规则，并与原有日志事务数据DB的关联规则融合，获取面向实时更新的数据DB和db的实时关联规则更新结果。

作为上述方案的进一步优化，所述第四级节点获取日志数据db和DB中所有与Glist中的项有关联的事务，具体为：根据待分析频繁项集合Glist中的所有项，将日志数据db和DB中所有事务中的非Glist集合项删除，并合并相同的事务。

作为上述方案的进一步优化，所述将所有与Glist中的项有关联的事务分组，具体为：

第六级节点形成待分析频繁项集合Glist后，根据预设分组组数，将Glist中的项分组，并分配对应分组号；

第四级节点利用其键值映射建立功能，建立频繁项集合Glist中的每一项和每一事务的一一映射关系，对应的，Glist中的每一项的分组号分享给与其映射的事务，获的同一分组号下的事务集合。

作为上述方案的进一步优化，所述原有日志事务数据DB和实时采集的日志数据db中，对于每一项是否为频繁项的判断基于预设的加权支持度区间(SUP_L，SUP_U)获取，对于SUP_k-itemset-l<SUP_L的项t_ij存储在不频繁项候选集合PF_Z1′中，SUP_L<SUP_k-itemset-l<SUP_U的项t_ij存储在弱频繁项候选集合PF₁′中，SUP_k-itemset-l>SUP_U的项t_ij存储在强频繁项候选集合P₁′中。

作为上述方案的进一步优化，所述加权支持度区间(SUP_L，SUP_U)中，SUP_L和SUP_U的参数大小的设置方法为：

基于层次分析法对日志数据中的所有项进行权重分配；

获取所有项的加权数值，并进行排序；

对排序后的加权数值项，为SUP_L和SUP_U分配两个数值实现将所有加权数值项划分不同区间。

作为上述方案的进一步优化，所述原有日志事务数据DB的所有关联分析数据采用所述基于改进的Storm实时计算系统获取。

作为上述方案的进一步优化，原有日志事务数据DB的所有关联分析数据的获取过程包括：

第四级节点接收到数据DB中的流数据后，由第四级节点、第五级节点和第六级节点依次处理后获取数据DB中的不频繁项、频繁项和准频繁项；

返回第四级节点，第四级节点根据获取的频繁项和准频繁项，将日志事务数据DB中的事务进行分组，每组事务传送到相同的第五级节点进行关联规则挖掘，并发送到第六级节点，进行所有第五级节点的关联规则融合。

作为上述方案的进一步优化，所述第六级节点获取日志数据db中的所有项t_ij及对应频数SUP_k-itemset-l，获得日志数据db增加到DB中后新增的所有频繁项，具体的步骤包括：

(81)先基于原有日志事务数据DB和实时采集的日志数据db各自的准频繁项、频繁项和不频繁项进行直接判断：

(811)若日志数据db中的项t_ij，在日志数据db中是准频繁项或者频繁项同时在日志事务数据DB中是准频繁项或者频繁项，则项t_ij确定为原有频繁项，不进行相关的关联规则挖掘；

(812)若日志数据db中的项t_ij，在日志数据db中是不频繁项同时在日志事务数据DB中是不频繁项，则项t_ij确定为不频繁项，不进行相关的关联规则挖掘；

(82)若日志数据db中的项t_ij，在日志数据db中为不频繁项，在DB中为频繁项或者准频繁项，或者日志数据db中为频繁项或者准频繁项，在DB中为不频繁项，则进行进一步判断：

(821)获取项t_ij在原有数据DB中出现的次数SDB_Ji以及在日志数据db中出现的次数Sdb_Ji，获取数据DB中的项目总数D以及数据db中的项目总数d，

(822)若

则项t_ij确定为不频繁项；

(823)若

则项t_ij确定为新增的频繁项；

由步骤(833)获得日志数据db增加到DB中后新增的所有频繁项。

作为上述方案的进一步优化，所述第五级节点对所在节点上接收的每组事务进行关联规则挖掘的方法为频繁项超度量树算法。

本发明的一种基于海量日志的实时关联分析系统，包括：

原有日志事务数据DB的关联分析数据获取模块，用于获取原有日志事务数据DB的所有关联分析数据，所述关联分析数据包括数据DB中的不频繁项、频繁项和关联规则；

实时采集日志获取模块，用于获取实时采集的日志数据db；

海量日志实时关联分析模块，用于基于改进的Storm实时计算系统进行海量日志的实时关联分析，所述改进的Storm实时计算系统包括：

第一级节点，用于追踪流数据处理过程所有节点的任务完成情况；

第二级节点，用于控制所有节点的工作顺序；

第三级节点，用于接收第二级节点发送的日志数据db的标识字段，读取数据库中对应的日志数据，并将读取数据发送到第四级节点；同时，第三级节点读取完成后，向所有第四级节点发送完成标志信息，同时将读取完的数据归入数据DB中；

第四级节点，用于统计所在节点上的所有事务中的项t_ij及每项频数，并转换成键值形式直接发送到第五级节点，同时第四级节点接收到所有第三级节点发送的完成标志信息后，向所有第五级节点发送完成标志信息；还用于根据第六季节点形成的待分析频繁项集合Glist，获取日志数据db和DB中所有与Glist中的项有关联的事务，并将所有与Glist中的项有关联的事务分组，每组事务传送到相同的第五级节点；

第五级节点，用于在接收到所有第四级节点发送的完成标志信息后，对所在节点接收的所有键值对中相同的键进行合并，合并后发送到第六级节点；还用于对所在节点上接收的每组事务进行关联规则挖掘，并发送到第六级节点；

第六级节点，用于对所有第五级节点发送的键值对，进行键值对合并，获取日志数据db中的所有项t_ij及对应频数SUP_k-itemset-l，获得日志数据db增加到DB中后新增的所有频繁项，形成待分析频繁项集合Glist；还用于接收所有第五级节点的关联规则，并与原有日志事务数据DB的关联规则融合，获取面向实时更新的数据DB和db的实时关联规则更新结果。

本发明的一种基于海量日志的实时关联分析方法，具备如下有益效果：

1.本发明通过改进的Storm实时计算系统，对实时增加的海量日志数据进行实时的关联规则挖掘，针对电力信息系统中产生的海量日志数据，通过Storm实时计算系统和关联规则挖掘相关技术结合实现面对实时新增的日志数据进行即时的关联规则挖掘，对信息系统多个指标日志数据进行关联分析，针对系统故障可进行迅速定位，方便查到系统故障根因，提升信息系统运维效率。

2.本发明改进的Storm实时计算系统，第三级节点、第四级节点、第五级节点的任务完成后，向下一级发送任务完成标志信息，实现消息追踪机制，保证处理过程每个节点任务处理情况的确认。

3.本发明通过单独判断新增日志数据db中的频繁项和不频繁项，结合获取原有日志事务数据DB中的频繁项和不频繁项，通过直接判断和进一步判断两个过程，快速获取新增日志数据db中对原有数据DB的关联规则有影响的分析频繁项集合Glist，并针对Glist进行分析获取日志事务数据DB在增加日志数据db后的总数据库中的关联规则，实现在原始数据库挖掘的基础上，只需要对新增数据库再次挖掘，分析新增数据库的项增加到原有数据DB中后，新增的频繁项，针对新增的频繁项进行多项关联分析，不用再次扫描全部数据库，提高效率。

附图说明

图1为本发明的一种基于海量日志的实时关联分析方法中改进的Storm实时计算系统结构框图；

图2为本发明的一种基于海量日志的实时关联分析方法的整体流程框图；

图3为本发明的一种基于海量日志的实时关联分析系统的结构框图。

具体实施方式

下面结合具体实施例和附图对本发明的技术方案进一步说明。

本发明公开了一种基于海量日志的实时关联分析方法，包括：

获取实时采集的日志数据db；

第二级节点向第三级节点发送日志数据db的标识字段；

可以理解的是，Storm实时计算系统作为分布式并行计算系统，本实施例中对其改进后，依然是分布式并行计算系统，具体的实际处理日志数据流的第四级节点、第五级节点和第六级节点均为多个，实现分布式并行计算处理过程，提高计算速度。

具体的形成待分析频繁项集合Glist的步骤包括：

(822)若

则项t_ij确定为不频繁项；

(823)若

则项t_ij确定为新增的频繁项；

由步骤(833)获得日志数据db增加到DB中后新增的所有频繁项。

本实施例中，原有日志事务数据DB和实时采集的日志数据db中，对于每一项是否为频繁项的判断基于预设的加权支持度区间(SUP_L，SUP_U)获取，对于SUP_k-itemset-l<SUP_L的项t_ij存储在不频繁项候选集合PF_Z1′中，SUP_L<SUP_k-itemset-l<SUP_U的项t_ij存储在弱频繁项候选集合PF₁′中，SUP_k-itemset-l>SUP_U的项t_ij存储在强频繁项候选集合P₁′中。

另外加权支持度区间(SUP_L，SUP_U)中，SUP_L和SUP_U的参数大小的设置方法为：

基于层次分析法对日志数据中的所有项进行权重分配；

获取所有项的加权数值，并进行排序；

对排序后的加权数值项序列，为SUP_L和SUP_U分配两个数值实现将加权数值项序列划分不同区间。

第四级节点基于获取的Glist集合，获取日志数据db和DB中所有与Glist中的项有关联的事务，并将所有与Glist中的项有关联的事务分组，每组事务传送到相同的第五级节点；

具体的，第四级节点获取日志数据db和DB中所有与Glist中的项有关联的事务，具体为：根据待分析频繁项集合Glist中的所有项，将日志数据db和DB中所有事务中的非Glist集合项删除，并合并相同的事务。

具体的，将所有与Glist中的项有关联的事务分组，具体为：

第四级节点利用其键值转换功能，建立频繁项集合Glist中的每一项和每一事务的一一映射关系，对应的，Glist中的每一项的分组号分享给与其映射的事务，获的同一分组号下的事务集合。

将所有与Glist中的项有关联的事务分组，以供下一步各个节点分别处理不同分组的频繁项。这样不同分组的项分别由不同的节点处理，不同节点之间不会有信息的交换，在保证带宽的情况下实现关联规则挖掘过程的并行处理。

第五级节点对所在节点上接收的每组事务进行关联规则挖掘，并发送到第六级节点；本实施例中，关联规则挖掘的方法采用频繁项超度量树算法。

本发明的技术方案对实时增加的海量日志数据进行实时的关联规则挖掘，以电力信息系统为例，针对电力信息系统的数据库、系统运行、程序运行、网络设备等产生的海量日志数据，通过Storm实时计算系统和关联规则挖掘相关技术结合实现面对实时新增的日志数据进行关联规则挖掘，对系信息系统多个指标日志数据进行关联分析，针对系统故障可进行迅速定位，方便查到系统故障根因，提升信息系统运维效率。

另外，基于本实施例应用于电力信息系统的海量日志采集和分析，需要对电力信息系统实时监测以及隐患和故障实时预警，所以本实施例采用处理计算的时效性非常高的Storm实时计算系统进行日志数据流的实时处理分析，但是考虑到对日志数据的关联规则挖掘，需要对之前已有的日志数据进行增量更新分析，所以对Storm实时计算系统进行改进，将Storm实时计算系统框架中的原有的Nimbus、Supervisor、Spout、Bolt等节点形成的数据处理流程进行改进，本实施例中以Storm作为底层引擎，分别设置第一级节点到第六级节点进行数据处理计算过程，其中，第一级节点可以采用Storm中原有的Acker Bolt节点，第四级节点和第五级节点可以利用MapReduce编程模型实现，待读取的日志数据和已经处理分析得到的关联分析数据可以存储在HDFS文件系统中。

当然，原有日志事务数据DB的所有关联分析数据也可以采用所述基于改进的Storm实时计算系统获取。原有日志事务数据DB的所有关联分析数据的获取过程与新增实时采集的日志数据db后处理的流程类似，具体包括：第四级节点接收到数据DB中的流数据后，由第四级节点、第五级节点和第六级节点依次处理后获取数据DB中的不频繁项、频繁项和准频繁项；

具体的，第四级节点读取单位为HDFS分片的数据分片Split并将其映射为键值形式。假设DB＝{T₁,T₂,...,T_n}，每个第四级节点上的数据都包含了多个事务T_i，其中t_ij是T_i中的一个项目。J＝{J₁,J₂,...,J_m}为数据库里所有项的集合。

利用第四级节点对数据进行处理：Map(offset,T_i)→(t_ij,1)，offset为事务T_i在该分片的偏移量，值为T_i；输出的键为t_ij，值为1，将相同的项聚集起来，通过Hash的方式发送到相应的第五级节点；

利用第五级节点对数据进行处理：

Reduce(t_ij,{1,1...,1})→(k-itemset_l,sup)，其中键中k为各组所有相同的项目t_ij的个数，itemset_l为第l个所有相同的项目t_ij的集合,sup为对应键的支持度计数；

第六级节点接收并保存从第五级节点送来的键值对，并将各个第六级节点输出结果合并得到DB的项统计结果，包括所有的项t_ij和对应的频次数值SUP_k-itemset-l，然后对原有日志事务数据DB中的每一项判断是否为频繁项以及频繁程度，采用基于预设的加权支持度区间(SUP_L，SUP_U)获取，具体为对于SUP_k-itemset-l<SUP_L的项t_ij存储在不频繁项候选集合PF_Z1′中，SUP_L<SUP_k-itemset-l<SUP_U的项t_ij存储在弱频繁项候选集合PF₁′中，SUP_k-itemset-l>SUP_U的项t_ij存储在强频繁项候选集合P₁′中。

然后基于强频繁项P₁、弱频繁项PF₁形成的频繁项集合Glist，将频繁项集合Glist中的所有项分成n组，并分配对应分组号；

返回到第四级节点进行第二次数据处理过程，第四级节点利用其键值转换功能，建立频繁项集合Glist中的每一项和每一事务的一一映射关系，对应的，Glist中的每一项的分组号分享给与其映射的事务，获的同一分组号下的事务集合。

然后第五级节点对所在节点上接收的每组事务进行关联规则挖掘，并发送到第六级节点；其中，关联规则挖掘的方法采用频繁项超度量树算法。

第六级节点接收所有第五级节点的关联规则，即各第五级节点将获得的强关联规则集F_JB和弱关联规则集F_ZJB发送到对应的第六级节点，第六级节点函数合并各第六级节点的关联规则集F_JB和F_ZJB，得到整个数据库DB的强关联规则集PF和弱关联规则集PF_Z。

上述日志数据中的所有项的权重分配，采用层次分析法，具体的在数据挖掘的实际应用中，涉及到的项目往往有上百条，如果要使用者手工为每个项目指定相对于其它项目的重要程度的值(1至9之间的数)往往是很不方便的，并且很难满足约束条件。因此在本实施例中，将各个项目的重要程度从高到低分为5个等级将各个项目的重要程度从高到低分为若干个等级，设level(I)∈{1,2,...,n}，数据库中的两个项目I_i，I_j的重要level值分别表示为level(I_i)和level(I_j)，则项目I_i相对于I_j的重要程度b_i,j可表示为:

b_i,j＝2(level(I_j)-leve(I_i))+1，(1)

项目I_j相对于I_i的重要程度b_j,i可表示为:

b_j,i＝1/b_i,j，(2)

基于上述，计算日志数据中的每个项目的权重w_i:

1.建立判断矩阵。设在n个项目的数据库中，将每个项目I_i(i∈{1,2,...,n})按照指定的重要level(记为L(I_i)归类，带入公式(1)(2)中，得到判断矩阵如下表1所示，其中(b_j,i＝1/b_i,j，b_i,i＝1，i,j＝1,2,...,n)。

B	L(I<sub>1</sub>)	L(I<sub>2</sub>)	...	L(I<sub>n</sub>)
					L(I<sub>1</sub>)	b<sub>11</sub>	b<sub>12</sub>	...	b<sub>1n</sub>
L(I<sub>2</sub>)	b<sub>21</sub>	b<sub>22</sub>	...	b<sub>2n</sub>
					...	...	...	...
L(I<sub>n</sub>)	b<sub>n1</sub>	b<sub>n2</sub>	...	b<sub>nn</sub>

表1判断矩阵

2.计算每一行的积M_i(i＝1,2,...,n)

3.计算M_i的n次方根

4.对向量

正规化(i＝1,2,...,n)：

则

即为所求特征向量，W_i(i＝1,2,...,n)即为项目I_i所对应的权值。

在算法实际的应用中，将每个Item的初始等级值默认为中等重要(即level值为3)，这样使用时只需对那些重要程度不同的Item值进行相应的调整，从而简化了调整操作过程。

本发明还提供了一种基于海量日志的实时关联分析系统，包括：

实时采集日志获取模块，用于获取实时采集的日志数据db；

第二级节点，用于控制所有节点的工作顺序；

本实施例中，一种基于海量日志的实时关联分析系统中，第一级节点、第二级节点和第三级节点组成任务处理流程管理单元，其中，第三级节点负责维护任务的开始，第四级节点、第五级节点、第六级节点负责实现待分析频繁项集合Glist生成单元和实时关联规则更新单元的功能，在关联规则更新过程中，第四级节点、第五级节点、第六级节点第一次依次执行任务处理的过程作为待分析频繁项集合Glist生成单元，第四级节点、第五级节点、第六级节点第二次依次执行任务处理的过程作为实时关联规则更新单元，实现了两次扫描数据库对动态更新的数据库实时关联规则分析。

采用本实施例的一种基于海量日志的实时关联分析系统，根据设置的第四级节点、第五级节点、第六级节点以及其对应的功能，实现了频繁项超度量树算法的两次数据库扫描过程进行关联规则的分析挖掘，同时基于Storm实时计算系统，实现了海量日志动态更新的日志数据库的关联规则分析，提高了关联规则分析的效率。

本发明不局限于上述具体的实施方式，本领域的普通技术人员从上述构思出发，不经过创造性的劳动，所做出的种种变换，均落在本发明的保护范围之内。

Claims

1.一种基于海量日志的实时关联分析方法，其特征在于：包括：

获取实时采集的日志数据db；

第二级节点向第三级节点发送日志数据db的标识字段；

2.根据权利要求1所述的一种基于海量日志的实时关联分析方法，其特征在于：所述第四级节点获取日志数据db和DB中所有与Glist中的项有关联的事务，具体为：根据待分析频繁项集合Glist中的所有项，将日志数据db和DB中所有事务中的非Glist集合项删除，并合并相同的事务。

3.根据权利要求1所述的一种基于海量日志的实时关联分析方法，其特征在于：所述将所有与Glist中的项有关联的事务分组，具体为：

第四级节点利用其键值映射建立功能，建立频繁项集合Glist中的每一项和每一事务的一一映射关系，对应的，Glist中的每一项的分组号分享给与其映射的事务，获得同一分组号下的事务集合。

4.根据权利要求1所述的一种基于海量日志的实时关联分析方法，其特征在于：所述原有日志事务数据DB和实时采集的日志数据db中，对于每一项是否为频繁项的判断基于预设的加权支持度区间(SUP_L，SUP_U)获取，对于SUP_k-itemset-l<SUP_L的项t_ij存储在不频繁项候选集合PF_Z1′中，SUP_L<SUP_k-itemset-l<SUP_U的项t_ij存储在弱频繁项候选集合PF₁′中，SUP_k-itemset-l>SUP_U的项t_ij存储在强频繁项候选集合P₁′中。

5.根据权利要求4所述的一种基于海量日志的实时关联分析方法，其特征在于：所述加权支持度区间(SUP_L，SUP_U)中，SUP_L和SUP_U的参数大小的设置方法为：

基于层次分析法对日志数据中的所有项进行权重分配；

获取所有项的加权数值，并进行排序；

6.根据权利要求1所述的一种基于海量日志的实时关联分析方法，其特征在于：所述原有日志事务数据DB的所有关联分析数据采用所述基于改进的Storm实时计算系统获取。

7.根据权利要求2所述的一种基于海量日志的实时关联分析方法，其特征在于：原有日志事务数据DB的所有关联分析数据的获取过程包括：

8.根据权利要求1所述的一种基于海量日志的实时关联分析方法，其特征在于：所述第六级节点获取日志数据db中的所有项t_ij及对应频数SUP_k-itemset-l，获得日志数据db增加到DB中后新增的所有频繁项，具体的步骤包括：

(822)若

则项t_ij确定为不频繁项；

(823)若

则项t_ij确定为新增的频繁项；

由步骤(833)获得日志数据db增加到DB中后新增的所有频繁项。

9.根据权利要求1所述的一种基于海量日志的实时关联分析方法，其特征在于：所述第五级节点对所在节点上接收的每组事务进行关联规则挖掘的方法为频繁项超度量树算法。

10.一种基于海量日志的实时关联分析系统，其特征在于：包括：

实时采集日志获取模块，用于获取实时采集的日志数据db；

第二级节点，用于控制所有节点的工作顺序；