CN103995828A

CN103995828A - 一种云存储日志数据分析方法

Info

Publication number: CN103995828A
Application number: CN201410145688.2A
Authority: CN
Inventors: 樊凯; 李晖; 郝延静
Original assignee: XIDIAN-NINGBO INFORMATION TECHNOLOGY INSTITUTE
Current assignee: XIDIAN-NINGBO INFORMATION TECHNOLOGY INSTITUTE
Priority date: 2014-04-11
Filing date: 2014-04-11
Publication date: 2014-08-20
Anticipated expiration: 2034-04-11
Also published as: CN103995828B

Abstract

本发明涉及一种云存储日志数据分析方法，步骤1、对云存储日志的数据进行预分析；步骤2、对预分析后的云存储日志数据进行计算，得到生成关联准则需要的频繁项集；步骤3、根据步骤2得到的频繁项集生成云存储日志的关联准则;步骤4、输出步骤3得到的关联规则.本发明通过对频繁项集矩阵的化简来减小生成的候选项集矩阵的规模，有效的减少了后续迭代计算过程中生成的候选项集的数量；另外，在进一步改进技术方案中，发明通过自定义的矩阵运算计算候选项集矩阵，整个计算过程比较简单，能够减少数据分析过程中的运算量，缩短挖掘时间。

Description

一种云存储日志数据分析方法

技术领域

本发明属于数据分析技术领域，特别涉及一种云存储日志数据分析方法，可用于云存储系统日志的数据分析。

背景技术

云存储系统在运行的过程中，会产生大量的日志文件。这些日志文件记录了系统管理员对系统的操作情况，用户对系统的访问情况以及系统服务器接收、分析请求、运行时错误等各种原始信息。对系统管理员操作日志进行数据分析，可以规范管理员的操作；对用户访问情况日志进行数据分析，可以发现用户的行为习惯，有利于查询、分析各用户操作，提升用户满意度；对云存储服务器日志进行数据分析，可以检测系统状态，排除网络故障，实现入侵检测，还能够发现云存储系统自身的设计缺陷、性能瓶颈以及需要优化配置的模块。

由于云存储系统所产生的日志数据量非常庞大，因而如何从大量的数据中，快速并有效地提取出有价值的信息，发现这些信息之间的相互关系，成为云存储日志数据分析中首要解决的问题。目前针对云存储系统日志的数据分析的研究较少。关联准则是数据分析过程的重要组成部分，通过关联准则可以发现大量数据之间的内在关系和有价值的联系。对云存储日志进行数据分析，生成关联准则，就可以有效利用云存储日志文件。

目前，现有的云存储日志的数据分析的流程参见附图1所示，其主要包括：对云存储日志文件预处理，准则生成和对生成的准则输出进行分析利用这几个步骤。其中准则生成这一步，主要涉及寻找频繁项集和生成关联准则两个方面。其中寻找频繁项集的方法主要有Apriori算法和基于矩阵的Apriori算法。Apriori算法是一种经典的寻找频繁项集算法，该算法使用逐层搜索的迭代方法，利用前一项的计算结果得到后一项。Apriori算法被广泛的研究和改进，其中一种改进是基于矩阵的Apriori算法。这个改进是将矩阵的思想应用到该算法中，把被分析的数据库表示成矩阵的形式。通过这种方法可以将数据库的扫描次数减少为两次，缩短数据分析时间，提高算法性能。

然而，现有基于矩阵的Apriori算法存在以下问题：首先该算法的计算量比较大，当被分析的数据库中包含的数据项目较多时，该算法耗费的时间会呈指数增长，所以在对大量数据进行分析时，会耗费更多的时间；其次，该算法在进行迭代的过程中会产生过多的候选项集，存储这些候选项集会占用内存空间，并且在进行后续的迭代计算时增加计算量。这些缺点不利于从云存储日志中快速的提取关联准则，导致整个云存储日志的数据分析过程需要很长的时间，效率不高，不能及时反映云存储系统的运行状态情况，不利于对系统进行优化和性能提升。

发明内容

本发明所要解决的技术问题是针对上述现有技术提供一种云存储日志数据分析方法，该方法能减少计算量和迭代过程中生成的候选项集数据，能大大提高数据分析的效果。

本发明解决上述技术问题所采用的技术方案为：一种云存储日志数据分析方法，其包括如下步骤：

步骤1、对云存储日志的数据进行预分析，即删除日志数据中的重复数据，补齐日志数据中的缺失数据；

步骤2、对预分析后的云存储日志数据进行计算，得到生成关联准则需要的频繁项集；

步骤3、根据步骤2得到的频繁项集生成云存储日志的关联准则；

步骤4、输出步骤3得到的关联规则；

其特征在于：所述步骤2中，通过以下步骤得到生成关联准则需要的频繁项集：

步骤2a、利用预分析后的云存储日志数据生成候选1项集矩阵C₁：

候选1项集矩阵该矩阵是m行n列矩阵，c_ij是该矩阵的第i行第j列的元素，i和j是候选1项集矩阵C₁的位置索引，其中1≤i≤m，1≤j≤n，I_j为云存储日志数据库中记录的第j个事件，I_j∈{I₁,I₂,...,I_N}，1、2、……N表示云存储日志数据库中包含的事件的标号，N为事件的总数；T_i为云存储日志据库中的第i条日志，T_j∈{T₁,T₂,...,T_M}，1、2、……M表示云存储日志据库中记录的日志的标号，M为日志的总数；c_ij是一个布尔值，只能取0或者1，即如果云存储日志文件记录的第i条日志T_i包含第j个事件I_j，则c_ij取0，否则c_ij取1；

步骤2b、利用给定的最小支持度S_c和候选1项集矩阵C₁，计算频繁1项集矩阵L₁，对该矩阵进行化简，得到化简后的频繁1项集矩阵L₁'，其中最小支持度S_c等于常数x乘以N，常数x的取值范围为0～1；

步骤2c、设k为迭代计算的次数，令k的初始值为2，利用k的值求得（k-1）的值，确定出计算候选k项集矩阵C_k时需要的频繁（k-1）项集矩阵L_k-1'，并根据该频繁（k-1）项集矩阵L_k-1'得到候选k项集矩阵C_k：

步骤2d、利用最小支持度S_c与候选k项集矩阵C_k，计算频繁k项集矩阵L_k，并对该频繁k项集矩阵L_k进行化简，得到化简后的频繁k项集矩阵L_k'；

步骤2e、判断化简后的频繁k项集矩阵L_k'是否为空矩阵，若该矩阵为空矩阵，则结束计算，否则令k自增1，重复步骤2c至步骤2d。

作为改进，所述步骤2b对频繁1项集矩阵L₁化简，得到化简后的频繁1项集矩阵L₁'，其具体通过如下步骤实现：

步骤2b-1、计算候选1项集矩阵C₁各列的列和，依次将每个列和与最小支持度S_c比较，若列和小于最小支持度S_c，则删除该列，反之则保留该列，得到第一中间矩阵；

步骤2b-2、计算第一中间矩阵每一行的行和，若行和小于2，则将该行删除行，否则保留该行，得到第二中间矩阵；

步骤2b-3、计算第二中间矩阵各列的列和，依次将每个列和与最小支持度S_c比较，若列和小于最小支持度S_c，则删除该列，反之则保留该列，生成新的频繁1项集矩阵L₁'。

再改进，所述步骤2c中候选k项集矩阵C_k由下述方式计算得到：

设其中u，v分别表为频繁（k-1）项集矩阵L_k-1'的位置索引，并根据该频繁（k-1）项集矩阵L_k-1'得到候选k项集矩阵C_k：

其中“∧”表示与运算符。

再改进，所述步骤2d中对频繁k项集矩阵L_k进行化简，得到化简后的频繁k项集矩阵L_k'，包括如下步骤：

步骤2d-1、计算候选2项集矩阵C₂中各列的列和，依次将每列列和与最小支持度S_c比较，若列小于最小支持度S_c，则删除该列，反之则保留该列，得到第三中间矩阵；

步骤2d-2、根据迭代计算次数k的值求出k+1的值，计算第三中间矩阵每一行的行和，若行和小于k+1，则将对应的行删除行，否则保留该行，得到第四中间矩阵；

步骤2d-3、再次计算第四中间矩阵各列的列和，依次将每个列和与最小支持度S_c比较，若列和小于最小支持度S_c，则删除该列，反之则保留该列，生成化简后的频繁k项集矩阵L_k'。

再改进，所述步骤3通过如下步骤得到关联准则：

步骤3a、给定最小置信度S_z，最小置信度S_z的取值范围为0～1；

步骤3b、对于化简后的频繁k项集矩阵L_k'，将L_k'的每一列组成一个单列矩阵l，l∈L_k'，产生单列矩阵l的所有非空子集r；

步骤3c、对于每个非空子集r，如果S其中S_r是非空子集r的计数，S_l是单列矩阵l的列和，则得到关联准则“”。

与现有技术相比，本发明的优点在于：本发明通过对频繁项集矩阵的化简来减小生成的候选项集矩阵的规模，有效的减少了后续迭代计算过程中生成的候选项集的数量；另外，在进一步改进技术方案中，发明通过自定义的矩阵运算计算候选项集矩阵，整个计算过程比较简单，能够减少数据分析过程中的运算量，缩短挖掘时间。

附图说明

图1为现有技术中云存储日志的数据分析方法流程图；

图2为本发明实施例中步骤2得到频繁项集的流程图；

图3为采用本发明实施例中的生成频繁项集方法与现有方法中生成频繁项集方法的效果对比图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

如图2所示的云存储日志数据分析方法，其包括如下步骤：

步骤2、对预分析后的云存储日志数据进行计算，得到生成关联准则需要的频繁项集,本步骤2又是通过以下步骤得到生成关联准则需要的频繁项集：

步骤2b、利用给定的最小支持度S_c和候选1项集矩阵C₁，计算频繁1项集矩阵L₁，对该矩阵进行化简，得到化简后的频繁1项集矩阵L₁'，步骤2b对频繁1项集矩阵L₁化简，得到化简后的频繁1项集矩阵L₁'，其中最小支持度S_c等于常数x乘以N，常数x的取值范围为0～1；其具体通过如下步骤实现：

步骤2b-1、计算候选1项集矩阵C₁各列的列和，依次将每个列和与最小支持度S_c比较，若列和小于最小支持度S_c，则删除该列，反之则保留该列，得到第一中间矩阵；其中最小支持度S_c等于常数x乘以N，常数x的取值范围为0～1；

步骤2b-3、计算第二中间矩阵各列的列和，依次将每个列和与最小支持度S_c比较，若列和小于最小支持度S_c，则删除该列，反之则保留该列，生成新的频繁1项集矩阵L₁'；

步骤2c、设k为迭代计算的次数，令k的初始值为2，利用k的值求得（k-1）的值，确定出计算候选k项集矩阵C_k时需要的频繁（k-1）项集矩阵L_k-1'，并根据该频繁（k-1）项集矩阵L_k-1'得到候选k项集矩阵C_k，这里步骤2c中候选k项集矩阵C_k由下述方式计算得到：

其中“∧”表示与运算符；

步骤2d、利用最小支持度S_c与候选k项集矩阵C_k，计算频繁k项集矩阵L_k，并对该频繁k项集矩阵L_k进行化简，得到化简后的频繁k项集矩阵L_k'，这里步骤2d中对频繁k项集矩阵L_k进行化简，得到化简后的频繁k项集矩阵L_k'，包括如下步骤：

步骤2d-3、再次计算第四中间矩阵各列的列和，依次将每个列和与最小支持度S_c比较，若列和小于最小支持度S_c，则删除该列，反之则保留该列，生成化简后的频繁k项集矩阵L_k'；

步骤2e、判断化简后的频繁k项集矩阵L_k'是否为空矩阵，若该矩阵为空矩阵，则结束计算，否则令k自增1，重复步骤2c至步骤2d；

步骤3、根据步骤2得到的化简后的频繁项集生成云存储日志的关联准则，具体包括：

步骤3a、给定最小置信度S_z；

步骤3c、对于每个非空子集r，如果其中S_r是非空子集r的计数，S_l是单列矩阵l的列和，则得到关联准则“”。

步骤4、输出步骤3得到的关联规则。

本发明效果可以通过以下仿真进一步说明：

1.仿真条件

本发明的仿真是在主频2.5GHz intel(R)Core(TM)i5CPU的硬件环境以及MATLABR2009b，Window7的软件环境下进行的。

2.仿真内容与结果分析

采用本发明中的生成频繁项集方法与现有方法中生成频繁项集方法，结果如图3所示。

从图3可见，两种方法的运行时间都随着最小支持度(从图3中看出，最小支持度为小数，而将列合和最小支持度为小数进行比较时，列合一般为自然数，这样化简删除的列数，应该很少阿？是我理解不对吗？)的增加而减少，但本发明的运行时间明显低于现有方法，即本发明在生成频繁项集时效率明显高于现有方法。这是由于本发明在生成候选项集时计算量小，需要的时间少，而且对频繁项集进行了化简，使生成的候选项集数量明显减少。

仿真结果表明：本发明由于采用了自定义的矩阵运算来生成候选项集，减少了生成候选项集的计算量，并通过频繁项集进行化简减少了生成的候选项集的数量，加快了云存储日志数据分析的效率。

Claims

1.一种云存储日志数据分析方法，其包括如下步骤：

步骤4、输出步骤3得到的关联规则；

步骤2b、利用给定的最小支持度S_c和候选1项集矩阵C₁，计算频繁1项集矩阵L₁，对该矩阵进行化简，得到化简后的频繁1项集矩阵L₁'其中最小支持度S_c等于常数x乘以N，常数x的取值范围为0～1；

步骤2c、设k为迭代计算的次数，令k的初始值为2，利用k的值求得（k-1）的值，确定出计算候选k项集矩阵C_k时需要的频繁（k-1）项集矩阵L_k-1'，并根据该频繁（k-1）项集矩阵L_k-1'得到候选k项集矩阵C_k；

2.根据权利要求1所述的云存储日志数据分析方法，其特征在于：所述步骤2b对频繁1项集矩阵L₁化简，得到化简后的频繁1项集矩阵L₁'，其具体通过如下步骤实现：

3.根据权利要求1所述的云存储日志数据分析方法，其特征在于：所述步骤2c中候选k项集矩阵C_k由下述方式计算得到：

其中“∧”表示与运算符。

4.根据权利要求1所述的云存储日志数据分析方法，其特征在于：所述步骤2d中对频繁k项集矩阵L_k进行化简，得到化简后的频繁k项集矩阵L_k'，包括如下步骤：

5.根据权利要求1所述的云存储日志数据分析方法，其特征在于：所述步骤3通过如下步骤得到关联准则：