CN103995828A - 一种云存储日志数据分析方法 - Google Patents
一种云存储日志数据分析方法 Download PDFInfo
- Publication number
- CN103995828A CN103995828A CN201410145688.2A CN201410145688A CN103995828A CN 103995828 A CN103995828 A CN 103995828A CN 201410145688 A CN201410145688 A CN 201410145688A CN 103995828 A CN103995828 A CN 103995828A
- Authority
- CN
- China
- Prior art keywords
- row
- matrix
- frequent
- daily record
- collection matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1748—De-duplication implemented within the file system, e.g. based on file segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种云存储日志数据分析方法,步骤1、对云存储日志的数据进行预分析;步骤2、对预分析后的云存储日志数据进行计算,得到生成关联准则需要的频繁项集;步骤3、根据步骤2得到的频繁项集生成云存储日志的关联准则;步骤4、输出步骤3得到的关联规则.本发明通过对频繁项集矩阵的化简来减小生成的候选项集矩阵的规模,有效的减少了后续迭代计算过程中生成的候选项集的数量;另外,在进一步改进技术方案中,发明通过自定义的矩阵运算计算候选项集矩阵,整个计算过程比较简单,能够减少数据分析过程中的运算量,缩短挖掘时间。
Description
技术领域
本发明属于数据分析技术领域,特别涉及一种云存储日志数据分析方法,可用于云存储系统日志的数据分析。
背景技术
云存储系统在运行的过程中,会产生大量的日志文件。这些日志文件记录了系统管理员对系统的操作情况,用户对系统的访问情况以及系统服务器接收、分析请求、运行时错误等各种原始信息。对系统管理员操作日志进行数据分析,可以规范管理员的操作;对用户访问情况日志进行数据分析,可以发现用户的行为习惯,有利于查询、分析各用户操作,提升用户满意度;对云存储服务器日志进行数据分析,可以检测系统状态,排除网络故障,实现入侵检测,还能够发现云存储系统自身的设计缺陷、性能瓶颈以及需要优化配置的模块。
由于云存储系统所产生的日志数据量非常庞大,因而如何从大量的数据中,快速并有效地提取出有价值的信息,发现这些信息之间的相互关系,成为云存储日志数据分析中首要解决的问题。目前针对云存储系统日志的数据分析的研究较少。关联准则是数据分析过程的重要组成部分,通过关联准则可以发现大量数据之间的内在关系和有价值的联系。对云存储日志进行数据分析,生成关联准则,就可以有效利用云存储日志文件。
目前,现有的云存储日志的数据分析的流程参见附图1所示,其主要包括:对云存储日志文件预处理,准则生成和对生成的准则输出进行分析利用这几个步骤。其中准则生成这一步,主要涉及寻找频繁项集和生成关联准则两个方面。其中寻找频繁项集的方法主要有Apriori算法和基于矩阵的Apriori算法。Apriori算法是一种经典的寻找频繁项集算法,该算法使用逐层搜索的迭代方法,利用前一项的计算结果得到后一项。Apriori算法被广泛的研究和改进,其中一种改进是基于矩阵的Apriori算法。这个改进是将矩阵的思想应用到该算法中,把被分析的数据库表示成矩阵的形式。通过这种方法可以将数据库的扫描次数减少为两次,缩短数据分析时间,提高算法性能。
然而,现有基于矩阵的Apriori算法存在以下问题:首先该算法的计算量比较大,当被分析的数据库中包含的数据项目较多时,该算法耗费的时间会呈指数增长,所以在对大量数据进行分析时,会耗费更多的时间;其次,该算法在进行迭代的过程中会产生过多的候选项集,存储这些候选项集会占用内存空间,并且在进行后续的迭代计算时增加计算量。这些缺点不利于从云存储日志中快速的提取关联准则,导致整个云存储日志的数据分析过程需要很长的时间,效率不高,不能及时反映云存储系统的运行状态情况,不利于对系统进行优化和性能提升。
发明内容
本发明所要解决的技术问题是针对上述现有技术提供一种云存储日志数据分析方法,该方法能减少计算量和迭代过程中生成的候选项集数据,能大大提高数据分析的效果。
本发明解决上述技术问题所采用的技术方案为:一种云存储日志数据分析方法,其包括如下步骤:
步骤1、对云存储日志的数据进行预分析,即删除日志数据中的重复数据,补齐日志数据中的缺失数据;
步骤2、对预分析后的云存储日志数据进行计算,得到生成关联准则需要的频繁项集;
步骤3、根据步骤2得到的频繁项集生成云存储日志的关联准则;
步骤4、输出步骤3得到的关联规则;
其特征在于:所述步骤2中,通过以下步骤得到生成关联准则需要的频繁项集:
步骤2a、利用预分析后的云存储日志数据生成候选1项集矩阵C1:
候选1项集矩阵该矩阵是m行n列矩阵,cij是该矩阵的第i行第j列的元素,i和j是候选1项集矩阵C1的位置索引,其中1≤i≤m,1≤j≤n,Ij为云存储日志数据库中记录的第j个事件,Ij∈{I1,I2,...,IN},1、2、……N表示云存储日志数据库中包含的事件的标号,N为事件的总数;Ti为云存储日志据库中的第i条日志,Tj∈{T1,T2,...,TM},1、2、……M表示云存储日志据库中记录的日志的标号,M为日志的总数;cij是一个布尔值,只能取0或者1,即如果云存储日志文件记录的第i条日志Ti包含第j个事件Ij,则cij取0,否则cij取1;
步骤2b、利用给定的最小支持度Sc和候选1项集矩阵C1,计算频繁1项集矩阵L1,对该矩阵进行化简,得到化简后的频繁1项集矩阵L1',其中最小支持度Sc等于常数x乘以N,常数x的取值范围为0~1;
步骤2c、设k为迭代计算的次数,令k的初始值为2,利用k的值求得(k-1)的值,确定出计算候选k项集矩阵Ck时需要的频繁(k-1)项集矩阵Lk-1',并根据该频繁(k-1)项集矩阵Lk-1'得到候选k项集矩阵Ck:
步骤2d、利用最小支持度Sc与候选k项集矩阵Ck,计算频繁k项集矩阵Lk,并对该频繁k项集矩阵Lk进行化简,得到化简后的频繁k项集矩阵Lk';
步骤2e、判断化简后的频繁k项集矩阵Lk'是否为空矩阵,若该矩阵为空矩阵,则结束计算,否则令k自增1,重复步骤2c至步骤2d。
作为改进,所述步骤2b对频繁1项集矩阵L1化简,得到化简后的频繁1项集矩阵L1',其具体通过如下步骤实现:
步骤2b-1、计算候选1项集矩阵C1各列的列和,依次将每个列和与最小支持度Sc比较,若列和小于最小支持度Sc,则删除该列,反之则保留该列,得到第一中间矩阵;
步骤2b-2、计算第一中间矩阵每一行的行和,若行和小于2,则将该行删除行,否则保留该行,得到第二中间矩阵;
步骤2b-3、计算第二中间矩阵各列的列和,依次将每个列和与最小支持度Sc比较,若列和小于最小支持度Sc,则删除该列,反之则保留该列,生成新的频繁1项集矩阵L1'。
再改进,所述步骤2c中候选k项集矩阵Ck由下述方式计算得到:
设其中u,v分别表为频繁(k-1)项集矩阵Lk-1'的位置索引,并根据该频繁(k-1)项集矩阵Lk-1'得到候选k项集矩阵Ck:
其中“∧”表示与运算符。
再改进,所述步骤2d中对频繁k项集矩阵Lk进行化简,得到化简后的频繁k项集矩阵Lk',包括如下步骤:
步骤2d-1、计算候选2项集矩阵C2中各列的列和,依次将每列列和与最小支持度Sc比较,若列小于最小支持度Sc,则删除该列,反之则保留该列,得到第三中间矩阵;
步骤2d-2、根据迭代计算次数k的值求出k+1的值,计算第三中间矩阵每一行的行和,若行和小于k+1,则将对应的行删除行,否则保留该行,得到第四中间矩阵;
步骤2d-3、再次计算第四中间矩阵各列的列和,依次将每个列和与最小支持度Sc比较,若列和小于最小支持度Sc,则删除该列,反之则保留该列,生成化简后的频繁k项集矩阵Lk'。
再改进,所述步骤3通过如下步骤得到关联准则:
步骤3a、给定最小置信度Sz,最小置信度Sz的取值范围为0~1;
步骤3b、对于化简后的频繁k项集矩阵Lk',将Lk'的每一列组成一个单列矩阵l,l∈Lk',产生单列矩阵l的所有非空子集r;
步骤3c、对于每个非空子集r,如果S其中Sr是非空子集r的计数,Sl是单列矩阵l的列和,则得到关联准则“”。
与现有技术相比,本发明的优点在于:本发明通过对频繁项集矩阵的化简来减小生成的候选项集矩阵的规模,有效的减少了后续迭代计算过程中生成的候选项集的数量;另外,在进一步改进技术方案中,发明通过自定义的矩阵运算计算候选项集矩阵,整个计算过程比较简单,能够减少数据分析过程中的运算量,缩短挖掘时间。
附图说明
图1为现有技术中云存储日志的数据分析方法流程图;
图2为本发明实施例中步骤2得到频繁项集的流程图;
图3为采用本发明实施例中的生成频繁项集方法与现有方法中生成频繁项集方法的效果对比图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
如图2所示的云存储日志数据分析方法,其包括如下步骤:
步骤1、对云存储日志的数据进行预分析,即删除日志数据中的重复数据,补齐日志数据中的缺失数据;
步骤2、对预分析后的云存储日志数据进行计算,得到生成关联准则需要的频繁项集,本步骤2又是通过以下步骤得到生成关联准则需要的频繁项集:
步骤2a、利用预分析后的云存储日志数据生成候选1项集矩阵C1:
候选1项集矩阵该矩阵是m行n列矩阵,cij是该矩阵的第i行第j列的元素,i和j是候选1项集矩阵C1的位置索引,其中1≤i≤m,1≤j≤n,Ij为云存储日志数据库中记录的第j个事件,Ij∈{I1,I2,...,IN},1、2、……N表示云存储日志数据库中包含的事件的标号,N为事件的总数;Ti为云存储日志据库中的第i条日志,Tj∈{T1,T2,...,TM},1、2、……M表示云存储日志据库中记录的日志的标号,M为日志的总数;cij是一个布尔值,只能取0或者1,即如果云存储日志文件记录的第i条日志Ti包含第j个事件Ij,则cij取0,否则cij取1;
步骤2b、利用给定的最小支持度Sc和候选1项集矩阵C1,计算频繁1项集矩阵L1,对该矩阵进行化简,得到化简后的频繁1项集矩阵L1',步骤2b对频繁1项集矩阵L1化简,得到化简后的频繁1项集矩阵L1',其中最小支持度Sc等于常数x乘以N,常数x的取值范围为0~1;其具体通过如下步骤实现:
步骤2b-1、计算候选1项集矩阵C1各列的列和,依次将每个列和与最小支持度Sc比较,若列和小于最小支持度Sc,则删除该列,反之则保留该列,得到第一中间矩阵;其中最小支持度Sc等于常数x乘以N,常数x的取值范围为0~1;
步骤2b-2、计算第一中间矩阵每一行的行和,若行和小于2,则将该行删除行,否则保留该行,得到第二中间矩阵;
步骤2b-3、计算第二中间矩阵各列的列和,依次将每个列和与最小支持度Sc比较,若列和小于最小支持度Sc,则删除该列,反之则保留该列,生成新的频繁1项集矩阵L1';
步骤2c、设k为迭代计算的次数,令k的初始值为2,利用k的值求得(k-1)的值,确定出计算候选k项集矩阵Ck时需要的频繁(k-1)项集矩阵Lk-1',并根据该频繁(k-1)项集矩阵Lk-1'得到候选k项集矩阵Ck,这里步骤2c中候选k项集矩阵Ck由下述方式计算得到:
设其中u,v分别表为频繁(k-1)项集矩阵Lk-1'的位置索引,并根据该频繁(k-1)项集矩阵Lk-1'得到候选k项集矩阵Ck:
其中“∧”表示与运算符;
步骤2d、利用最小支持度Sc与候选k项集矩阵Ck,计算频繁k项集矩阵Lk,并对该频繁k项集矩阵Lk进行化简,得到化简后的频繁k项集矩阵Lk',这里步骤2d中对频繁k项集矩阵Lk进行化简,得到化简后的频繁k项集矩阵Lk',包括如下步骤:
步骤2d-1、计算候选2项集矩阵C2中各列的列和,依次将每列列和与最小支持度Sc比较,若列小于最小支持度Sc,则删除该列,反之则保留该列,得到第三中间矩阵;
步骤2d-2、根据迭代计算次数k的值求出k+1的值,计算第三中间矩阵每一行的行和,若行和小于k+1,则将对应的行删除行,否则保留该行,得到第四中间矩阵;
步骤2d-3、再次计算第四中间矩阵各列的列和,依次将每个列和与最小支持度Sc比较,若列和小于最小支持度Sc,则删除该列,反之则保留该列,生成化简后的频繁k项集矩阵Lk';
步骤2e、判断化简后的频繁k项集矩阵Lk'是否为空矩阵,若该矩阵为空矩阵,则结束计算,否则令k自增1,重复步骤2c至步骤2d;
步骤3、根据步骤2得到的化简后的频繁项集生成云存储日志的关联准则,具体包括:
步骤3a、给定最小置信度Sz;
步骤3a、给定最小置信度Sz,最小置信度Sz的取值范围为0~1;
步骤3b、对于化简后的频繁k项集矩阵Lk',将Lk'的每一列组成一个单列矩阵l,l∈Lk',产生单列矩阵l的所有非空子集r;
步骤3c、对于每个非空子集r,如果其中Sr是非空子集r的计数,Sl是单列矩阵l的列和,则得到关联准则“”。
步骤4、输出步骤3得到的关联规则。
本发明效果可以通过以下仿真进一步说明:
1.仿真条件
本发明的仿真是在主频2.5GHz intel(R)Core(TM)i5CPU的硬件环境以及MATLABR2009b,Window7的软件环境下进行的。
2.仿真内容与结果分析
采用本发明中的生成频繁项集方法与现有方法中生成频繁项集方法,结果如图3所示。
从图3可见,两种方法的运行时间都随着最小支持度(从图3中看出,最小支持度为小数,而将列合和最小支持度为小数进行比较时,列合一般为自然数,这样化简删除的列数,应该很少阿?是我理解不对吗?)的增加而减少,但本发明的运行时间明显低于现有方法,即本发明在生成频繁项集时效率明显高于现有方法。这是由于本发明在生成候选项集时计算量小,需要的时间少,而且对频繁项集进行了化简,使生成的候选项集数量明显减少。
仿真结果表明:本发明由于采用了自定义的矩阵运算来生成候选项集,减少了生成候选项集的计算量,并通过频繁项集进行化简减少了生成的候选项集的数量,加快了云存储日志数据分析的效率。
Claims (5)
1.一种云存储日志数据分析方法,其包括如下步骤:
步骤1、对云存储日志的数据进行预分析,即删除日志数据中的重复数据,补齐日志数据中的缺失数据;
步骤2、对预分析后的云存储日志数据进行计算,得到生成关联准则需要的频繁项集;
步骤3、根据步骤2得到的频繁项集生成云存储日志的关联准则;
步骤4、输出步骤3得到的关联规则;
其特征在于:所述步骤2中,通过以下步骤得到生成关联准则需要的频繁项集:
步骤2a、利用预分析后的云存储日志数据生成候选1项集矩阵C1:
候选1项集矩阵该矩阵是m行n列矩阵,cij是该矩阵的第i行第j列的元素,i和j是候选1项集矩阵C1的位置索引,其中1≤i≤m,1≤j≤n,Ij为云存储日志数据库中记录的第j个事件,Ij∈{I1,I2,...,IN},1、2、……N表示云存储日志数据库中包含的事件的标号,N为事件的总数;Ti为云存储日志据库中的第i条日志,Tj∈{T1,T2,...,TM},1、2、……M表示云存储日志据库中记录的日志的标号,M为日志的总数;cij是一个布尔值,只能取0或者1,即如果云存储日志文件记录的第i条日志Ti包含第j个事件Ij,则cij取0,否则cij取1;
步骤2b、利用给定的最小支持度Sc和候选1项集矩阵C1,计算频繁1项集矩阵L1,对该矩阵进行化简,得到化简后的频繁1项集矩阵L1'其中最小支持度Sc等于常数x乘以N,常数x的取值范围为0~1;
步骤2c、设k为迭代计算的次数,令k的初始值为2,利用k的值求得(k-1)的值,确定出计算候选k项集矩阵Ck时需要的频繁(k-1)项集矩阵Lk-1',并根据该频繁(k-1)项集矩阵Lk-1'得到候选k项集矩阵Ck;
步骤2d、利用最小支持度Sc与候选k项集矩阵Ck,计算频繁k项集矩阵Lk,并对该频繁k项集矩阵Lk进行化简,得到化简后的频繁k项集矩阵Lk';
步骤2e、判断化简后的频繁k项集矩阵Lk'是否为空矩阵,若该矩阵为空矩阵,则结束计算,否则令k自增1,重复步骤2c至步骤2d。
2.根据权利要求1所述的云存储日志数据分析方法,其特征在于:所述步骤2b对频繁1项集矩阵L1化简,得到化简后的频繁1项集矩阵L1',其具体通过如下步骤实现:
步骤2b-1、计算候选1项集矩阵C1各列的列和,依次将每个列和与最小支持度Sc比较,若列和小于最小支持度Sc,则删除该列,反之则保留该列,得到第一中间矩阵;
步骤2b-2、计算第一中间矩阵每一行的行和,若行和小于2,则将该行删除行,否则保留该行,得到第二中间矩阵;
步骤2b-3、计算第二中间矩阵各列的列和,依次将每个列和与最小支持度Sc比较,若列和小于最小支持度Sc,则删除该列,反之则保留该列,生成新的频繁1项集矩阵L1'。
3.根据权利要求1所述的云存储日志数据分析方法,其特征在于:所述步骤2c中候选k项集矩阵Ck由下述方式计算得到:
设其中u,v分别表为频繁(k-1)项集矩阵Lk-1'的位置索引,并根据该频繁(k-1)项集矩阵Lk-1'得到候选k项集矩阵Ck:
其中“∧”表示与运算符。
4.根据权利要求1所述的云存储日志数据分析方法,其特征在于:所述步骤2d中对频繁k项集矩阵Lk进行化简,得到化简后的频繁k项集矩阵Lk',包括如下步骤:
步骤2d-1、计算候选2项集矩阵C2中各列的列和,依次将每列列和与最小支持度Sc比较,若列小于最小支持度Sc,则删除该列,反之则保留该列,得到第三中间矩阵;
步骤2d-2、根据迭代计算次数k的值求出k+1的值,计算第三中间矩阵每一行的行和,若行和小于k+1,则将对应的行删除行,否则保留该行,得到第四中间矩阵;
步骤2d-3、再次计算第四中间矩阵各列的列和,依次将每个列和与最小支持度Sc比较,若列和小于最小支持度Sc,则删除该列,反之则保留该列,生成化简后的频繁k项集矩阵Lk'。
5.根据权利要求1所述的云存储日志数据分析方法,其特征在于:所述步骤3通过如下步骤得到关联准则:
步骤3a、给定最小置信度Sz,最小置信度Sz的取值范围为0~1;
步骤3b、对于化简后的频繁k项集矩阵Lk',将Lk'的每一列组成一个单列矩阵l,l∈Lk',产生单列矩阵l的所有非空子集r;
步骤3c、对于每个非空子集r,如果其中Sr是非空子集r的计数,Sl是单列矩阵l的列和,则得到关联准则“”。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410145688.2A CN103995828B (zh) | 2014-04-11 | 2014-04-11 | 一种云存储日志数据分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410145688.2A CN103995828B (zh) | 2014-04-11 | 2014-04-11 | 一种云存储日志数据分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103995828A true CN103995828A (zh) | 2014-08-20 |
CN103995828B CN103995828B (zh) | 2017-06-13 |
Family
ID=51309993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410145688.2A Expired - Fee Related CN103995828B (zh) | 2014-04-11 | 2014-04-11 | 一种云存储日志数据分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103995828B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104881467A (zh) * | 2015-05-26 | 2015-09-02 | 上海交通大学 | 基于频繁项集的数据关联性分析和预读取方法 |
CN106991141A (zh) * | 2017-03-21 | 2017-07-28 | 北京邮电大学 | 一种基于深度剪枝策略的关联规则挖掘方法 |
CN108830655A (zh) * | 2018-06-19 | 2018-11-16 | 郑州云海信息技术有限公司 | 一种用户操作关系获取方法及相关装置 |
CN109359126A (zh) * | 2018-04-13 | 2019-02-19 | 国家计算机网络与信息安全管理中心 | 基于业务用户习惯的智能学习查询模型的构建方法及系统 |
CN109947728A (zh) * | 2019-03-11 | 2019-06-28 | 中国银联股份有限公司 | 一种日志文件的处理方法及装置 |
CN111125183A (zh) * | 2019-11-07 | 2020-05-08 | 北京科技大学 | 一种雾环境下基于CFI-Apriori算法的元组度量方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7370033B1 (en) * | 2002-05-17 | 2008-05-06 | Oracle International Corporation | Method for extracting association rules from transactions in a database |
CN103020256A (zh) * | 2012-12-21 | 2013-04-03 | 电子科技大学 | 一种大规模数据的关联规则挖掘方法 |
CN103279570A (zh) * | 2013-06-19 | 2013-09-04 | 广西教育学院 | 一种面向文本数据库的矩阵加权负模式挖掘方法 |
-
2014
- 2014-04-11 CN CN201410145688.2A patent/CN103995828B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7370033B1 (en) * | 2002-05-17 | 2008-05-06 | Oracle International Corporation | Method for extracting association rules from transactions in a database |
CN103020256A (zh) * | 2012-12-21 | 2013-04-03 | 电子科技大学 | 一种大规模数据的关联规则挖掘方法 |
CN103279570A (zh) * | 2013-06-19 | 2013-09-04 | 广西教育学院 | 一种面向文本数据库的矩阵加权负模式挖掘方法 |
Non-Patent Citations (3)
Title |
---|
张云涛等: "关联规则中频繁项集高效挖掘的研究", 《计算机工程与应用》 * |
张敏等: "基于向量和矩阵的频繁项集挖掘算法研究", 《计算机工程与设计》 * |
陈富赞等: "基于项目集格及位图索引的频繁项目集发现算法", 《系统工程理论与实践》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104881467A (zh) * | 2015-05-26 | 2015-09-02 | 上海交通大学 | 基于频繁项集的数据关联性分析和预读取方法 |
CN104881467B (zh) * | 2015-05-26 | 2018-08-31 | 上海交通大学 | 基于频繁项集的数据关联性分析和预读取方法 |
CN106991141A (zh) * | 2017-03-21 | 2017-07-28 | 北京邮电大学 | 一种基于深度剪枝策略的关联规则挖掘方法 |
CN106991141B (zh) * | 2017-03-21 | 2020-12-11 | 北京邮电大学 | 一种基于深度剪枝策略的关联规则挖掘方法 |
CN109359126A (zh) * | 2018-04-13 | 2019-02-19 | 国家计算机网络与信息安全管理中心 | 基于业务用户习惯的智能学习查询模型的构建方法及系统 |
CN108830655A (zh) * | 2018-06-19 | 2018-11-16 | 郑州云海信息技术有限公司 | 一种用户操作关系获取方法及相关装置 |
CN109947728A (zh) * | 2019-03-11 | 2019-06-28 | 中国银联股份有限公司 | 一种日志文件的处理方法及装置 |
CN109947728B (zh) * | 2019-03-11 | 2023-09-05 | 中国银联股份有限公司 | 一种日志文件的处理方法及装置 |
CN111125183A (zh) * | 2019-11-07 | 2020-05-08 | 北京科技大学 | 一种雾环境下基于CFI-Apriori算法的元组度量方法及系统 |
CN111125183B (zh) * | 2019-11-07 | 2023-06-23 | 北京科技大学 | 一种雾环境下基于CFI-Apriori算法的元组度量方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103995828B (zh) | 2017-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105069703B (zh) | 一种电网海量数据管理方法 | |
Mueen et al. | Fast approximate correlation for massive time-series data | |
CN104881424B (zh) | 一种基于正则表达式的电力大数据采集、存储及分析方法 | |
Aggarwal et al. | A framework for clustering uncertain data streams | |
CN103995828A (zh) | 一种云存储日志数据分析方法 | |
Kohlwey et al. | Leveraging the cloud for big data biometrics: Meeting the performance requirements of the next generation biometric systems | |
CN113424173B (zh) | 用于有效图分析的物化图视图 | |
CN104462253A (zh) | 一种面向网络文本大数据的话题检测或跟踪方法 | |
Kyrola | Drunkardmob: billions of random walks on just a pc | |
Jeong et al. | Anomaly teletraffic intrusion detection systems on hadoop-based platforms: A survey of some problems and solutions | |
Anitha | A new web usage mining approach for next page access prediction | |
Yang et al. | A scalable data chunk similarity based compression approach for efficient big sensing data processing on cloud | |
Tseng et al. | Mining temporal mobile sequential patterns in location-based service environments | |
CN104317794A (zh) | 基于动态项权值的中文特征词关联模式挖掘方法及其系统 | |
CN110968564A (zh) | 一种数据处理方法及数据状态预测模型的训练方法 | |
CN111459900A (zh) | 大数据生命周期设置方法、装置、存储介质及服务器 | |
Wang et al. | Edge-based local push for personalized PageRank | |
CN116738009B (zh) | 一种对数据进行归档回溯的方法 | |
Lee et al. | Detecting anomaly teletraffic using stochastic self-similarity based on Hadoop | |
Rozier et al. | Building intelligence for software defined data centers: modeling usage patterns | |
Mathai et al. | An efficient approach for item set mining using both utility and frequency based methods | |
Zhang et al. | A learning-based framework for improving querying on web interfaces of curated knowledge bases | |
Chen et al. | Efficient and scalable graph similarity joins in mapreduce | |
Chen et al. | Active re-identification attacks on periodically released dynamic social graphs | |
CN114064791B (zh) | 一种基于时空网络的关联挖掘方法、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170613 |
|
CF01 | Termination of patent right due to non-payment of annual fee |