CN111858530B - 一种基于海量日志的实时关联分析方法及系统 - Google Patents

一种基于海量日志的实时关联分析方法及系统 Download PDF

Info

Publication number
CN111858530B
CN111858530B CN202010637310.XA CN202010637310A CN111858530B CN 111858530 B CN111858530 B CN 111858530B CN 202010637310 A CN202010637310 A CN 202010637310A CN 111858530 B CN111858530 B CN 111858530B
Authority
CN
China
Prior art keywords
data
items
level node
real
frequent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010637310.XA
Other languages
English (en)
Other versions
CN111858530A (zh
Inventor
徐海青
周刚
陈是同
周晟
吴树霖
张江龙
陶俊
吴小华
高扬
毛舒乐
梁翀
浦正国
胡心颖
郭庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
State Grid Fujian Electric Power Co Ltd
Anhui Jiyuan Software Co Ltd
Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
State Grid Fujian Electric Power Co Ltd
Anhui Jiyuan Software Co Ltd
Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Information and Telecommunication Co Ltd, State Grid Fujian Electric Power Co Ltd, Anhui Jiyuan Software Co Ltd, Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202010637310.XA priority Critical patent/CN111858530B/zh
Publication of CN111858530A publication Critical patent/CN111858530A/zh
Application granted granted Critical
Publication of CN111858530B publication Critical patent/CN111858530B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于海量日志的实时关联分析方法及系统,通过改进的Storm实时计算系统,对实时增加的海量日志数据进行实时的关联规则挖掘,针对电力信息系统中产生的海量日志数据,通过Storm实时计算系统和关联规则挖掘相关技术结合实现面对实时新增的日志数据进行即时的关联规则挖掘,对信息系统多个指标日志数据进行关联分析,针对系统故障可进行迅速定位,方便查到系统故障根因,提升信息系统运维效率。

Description

一种基于海量日志的实时关联分析方法及系统
技术领域
本发明涉及数据挖掘技术领域,具体涉及一种基于海量日志的实时关联分析方法及系统。
背景技术
关联规则挖掘是数据挖掘中的一种十分重要的方法,它的作用在于找到数据之间的相关性。随着我国信息技术的蓬勃发展,在各个领域中,数据的数量都变得越来越多,推动着我们进入了大数据的时代,因此利用关联规则来挖掘的对象常常是庞大的集中式或分布式数据库,其中当然也包括电力信息系统日志数据。一方面,为了在存储的能力、挖掘的能力方面适应大数据挖掘的要求,提出了并行方法处理海量数据的方法。另一方面,在包含海量日志数据挖掘之内的很多数据挖掘应用中,数据库都需要不断地更新,因此存在着增量更新的问题,需要在挖掘原始数据库的基础上,再对新增数据库进行挖掘。
Storm是一个分布式流式计算框架,具有数据计算延迟低、吞吐高、计算逻辑表达能力灵活的优点,但是Storm计算框架中间不会有数据合并和收集的过程,这导致在数据聚集处理的场景中比如关联规则挖掘中需要自行处理相关逻辑,为此本发明对原有的流处理框架Storm进行改进,实现关联规则挖掘处理过程的低延迟和实时性。
发明内容
针对上述现有技术存在的问题,本发明提供了一种基于海量日志的实时关联分析方法及系统,针对电力信息系统中产生的海量日志数据进行实时的关联规则挖掘,通过改进的Storm实时计算系统和关联规则挖掘相关技术结合实现面对实时新增的日志数据进行即时的关联规则挖掘,对信息系统多个指标日志数据进行关联分析,具体的,本发明的一种基于海量日志的实时关联分析方法,包括:
获取原有日志事务数据DB的所有关联分析数据,所述关联分析数据包括数据DB中的不频繁项、频繁项和关联规则;
获取实时采集的日志数据db;
基于改进的Storm实时计算系统进行海量日志的实时关联分析,分析过程包括:
第一级节点启动,用于追踪流数据处理过程所有节点的任务完成情况,同时第二级节点启动,用于控制所有节点的工作顺序;
第二级节点向第三级节点发送日志数据db的标识字段;
第三级节点根据接收的标识字段读取数据库中对应的日志数据,并将读取数据发送到第四级节点;当第三级节点读取完成后,向所有第四级节点发送完成标志信息,同时将读取完的数据归入数据DB中;
第四级节点接收到数据后,统计所在节点上的所有事务中的项tij及每项频数,并转换成键值形式直接发送到第五级节点,第四级节点接收到所有第三级节点发送的完成标志信息后,向所有第五级节点发送完成标志信息;
第五级节点接收到所有第四级节点发送的完成标志信息后,对所在节点接收的所有键值对中相同的键进行合并,合并后发送到第六级节点;
第六级节点,接收所有第五级节点发送的键值对,进行键值对合并,获取日志数据db中的所有项tij及对应频数SUPk-itemset-l,获得日志数据db增加到DB中后新增的所有频繁项,形成待分析频繁项集合Glist;
第四级节点获取日志数据db和DB中所有与Glist中的项有关联的事务,并将所有与Glist中的项有关联的事务分组,每组事务传送到相同的第五级节点;
第五级节点对所在节点上接收的每组事务进行关联规则挖掘,并发送到第六级节点;
第六级节点接收所有第五级节点的关联规则,并与原有日志事务数据DB的关联规则融合,获取面向实时更新的数据DB和db的实时关联规则更新结果。
作为上述方案的进一步优化,所述第四级节点获取日志数据db和DB中所有与Glist中的项有关联的事务,具体为:根据待分析频繁项集合Glist中的所有项,将日志数据db和DB中所有事务中的非Glist集合项删除,并合并相同的事务。
作为上述方案的进一步优化,所述将所有与Glist中的项有关联的事务分组,具体为:
第六级节点形成待分析频繁项集合Glist后,根据预设分组组数,将Glist中的项分组,并分配对应分组号;
第四级节点利用其键值映射建立功能,建立频繁项集合Glist中的每一项和每一事务的一一映射关系,对应的,Glist中的每一项的分组号分享给与其映射的事务,获的同一分组号下的事务集合。
作为上述方案的进一步优化,所述原有日志事务数据DB和实时采集的日志数据db中,对于每一项是否为频繁项的判断基于预设的加权支持度区间(SUPL,SUPU)获取,对于SUPk-itemset-l<SUPL的项tij存储在不频繁项候选集合PFZ1′中,SUPL<SUPk-itemset-l<SUPU的项tij存储在弱频繁项候选集合PF1′中,SUPk-itemset-l>SUPU的项tij存储在强频繁项候选集合P1′中。
作为上述方案的进一步优化,所述加权支持度区间(SUPL,SUPU)中,SUPL和SUPU的参数大小的设置方法为:
基于层次分析法对日志数据中的所有项进行权重分配;
获取所有项的加权数值,并进行排序;
对排序后的加权数值项,为SUPL和SUPU分配两个数值实现将所有加权数值项划分不同区间。
作为上述方案的进一步优化,所述原有日志事务数据DB的所有关联分析数据采用所述基于改进的Storm实时计算系统获取。
作为上述方案的进一步优化,原有日志事务数据DB的所有关联分析数据的获取过程包括:
第四级节点接收到数据DB中的流数据后,由第四级节点、第五级节点和第六级节点依次处理后获取数据DB中的不频繁项、频繁项和准频繁项;
返回第四级节点,第四级节点根据获取的频繁项和准频繁项,将日志事务数据DB中的事务进行分组,每组事务传送到相同的第五级节点进行关联规则挖掘,并发送到第六级节点,进行所有第五级节点的关联规则融合。
作为上述方案的进一步优化,所述第六级节点获取日志数据db中的所有项tij及对应频数SUPk-itemset-l,获得日志数据db增加到DB中后新增的所有频繁项,具体的步骤包括:
(81)先基于原有日志事务数据DB和实时采集的日志数据db各自的准频繁项、频繁项和不频繁项进行直接判断:
(811)若日志数据db中的项tij,在日志数据db中是准频繁项或者频繁项同时在日志事务数据DB中是准频繁项或者频繁项,则项tij确定为原有频繁项,不进行相关的关联规则挖掘;
(812)若日志数据db中的项tij,在日志数据db中是不频繁项同时在日志事务数据DB中是不频繁项,则项tij确定为不频繁项,不进行相关的关联规则挖掘;
(82)若日志数据db中的项tij,在日志数据db中为不频繁项,在DB中为频繁项或者准频繁项,或者日志数据db中为频繁项或者准频繁项,在DB中为不频繁项,则进行进一步判断:
(821)获取项tij在原有数据DB中出现的次数SDBJi以及在日志数据db中出现的次数SdbJi,获取数据DB中的项目总数D以及数据db中的项目总数d,
(822)若
Figure BDA0002568044330000041
则项tij确定为不频繁项;
(823)若
Figure BDA0002568044330000042
则项tij确定为新增的频繁项;
由步骤(833)获得日志数据db增加到DB中后新增的所有频繁项。
作为上述方案的进一步优化,所述第五级节点对所在节点上接收的每组事务进行关联规则挖掘的方法为频繁项超度量树算法。
本发明的一种基于海量日志的实时关联分析系统,包括:
原有日志事务数据DB的关联分析数据获取模块,用于获取原有日志事务数据DB的所有关联分析数据,所述关联分析数据包括数据DB中的不频繁项、频繁项和关联规则;
实时采集日志获取模块,用于获取实时采集的日志数据db;
海量日志实时关联分析模块,用于基于改进的Storm实时计算系统进行海量日志的实时关联分析,所述改进的Storm实时计算系统包括:
第一级节点,用于追踪流数据处理过程所有节点的任务完成情况;
第二级节点,用于控制所有节点的工作顺序;
第三级节点,用于接收第二级节点发送的日志数据db的标识字段,读取数据库中对应的日志数据,并将读取数据发送到第四级节点;同时,第三级节点读取完成后,向所有第四级节点发送完成标志信息,同时将读取完的数据归入数据DB中;
第四级节点,用于统计所在节点上的所有事务中的项tij及每项频数,并转换成键值形式直接发送到第五级节点,同时第四级节点接收到所有第三级节点发送的完成标志信息后,向所有第五级节点发送完成标志信息;还用于根据第六季节点形成的待分析频繁项集合Glist,获取日志数据db和DB中所有与Glist中的项有关联的事务,并将所有与Glist中的项有关联的事务分组,每组事务传送到相同的第五级节点;
第五级节点,用于在接收到所有第四级节点发送的完成标志信息后,对所在节点接收的所有键值对中相同的键进行合并,合并后发送到第六级节点;还用于对所在节点上接收的每组事务进行关联规则挖掘,并发送到第六级节点;
第六级节点,用于对所有第五级节点发送的键值对,进行键值对合并,获取日志数据db中的所有项tij及对应频数SUPk-itemset-l,获得日志数据db增加到DB中后新增的所有频繁项,形成待分析频繁项集合Glist;还用于接收所有第五级节点的关联规则,并与原有日志事务数据DB的关联规则融合,获取面向实时更新的数据DB和db的实时关联规则更新结果。
本发明的一种基于海量日志的实时关联分析方法,具备如下有益效果:
1.本发明通过改进的Storm实时计算系统,对实时增加的海量日志数据进行实时的关联规则挖掘,针对电力信息系统中产生的海量日志数据,通过Storm实时计算系统和关联规则挖掘相关技术结合实现面对实时新增的日志数据进行即时的关联规则挖掘,对信息系统多个指标日志数据进行关联分析,针对系统故障可进行迅速定位,方便查到系统故障根因,提升信息系统运维效率。
2.本发明改进的Storm实时计算系统,第三级节点、第四级节点、第五级节点的任务完成后,向下一级发送任务完成标志信息,实现消息追踪机制,保证处理过程每个节点任务处理情况的确认。
3.本发明通过单独判断新增日志数据db中的频繁项和不频繁项,结合获取原有日志事务数据DB中的频繁项和不频繁项,通过直接判断和进一步判断两个过程,快速获取新增日志数据db中对原有数据DB的关联规则有影响的分析频繁项集合Glist,并针对Glist进行分析获取日志事务数据DB在增加日志数据db后的总数据库中的关联规则,实现在原始数据库挖掘的基础上,只需要对新增数据库再次挖掘,分析新增数据库的项增加到原有数据DB中后,新增的频繁项,针对新增的频繁项进行多项关联分析,不用再次扫描全部数据库,提高效率。
附图说明
图1为本发明的一种基于海量日志的实时关联分析方法中改进的Storm实时计算系统结构框图;
图2为本发明的一种基于海量日志的实时关联分析方法的整体流程框图;
图3为本发明的一种基于海量日志的实时关联分析系统的结构框图。
具体实施方式
下面结合具体实施例和附图对本发明的技术方案进一步说明。
本发明公开了一种基于海量日志的实时关联分析方法,包括:
获取原有日志事务数据DB的所有关联分析数据,所述关联分析数据包括数据DB中的不频繁项、频繁项和关联规则;
获取实时采集的日志数据db;
基于改进的Storm实时计算系统进行海量日志的实时关联分析,分析过程包括:
第一级节点启动,用于追踪流数据处理过程所有节点的任务完成情况,同时第二级节点启动,用于控制所有节点的工作顺序;
第二级节点向第三级节点发送日志数据db的标识字段;
第三级节点根据接收的标识字段读取数据库中对应的日志数据,并将读取数据发送到第四级节点;当第三级节点读取完成后,向所有第四级节点发送完成标志信息,同时将读取完的数据归入数据DB中;
第四级节点接收到数据后,统计所在节点上的所有事务中的项tij及每项频数,并转换成键值形式直接发送到第五级节点,第四级节点接收到所有第三级节点发送的完成标志信息后,向所有第五级节点发送完成标志信息;
第五级节点接收到所有第四级节点发送的完成标志信息后,对所在节点接收的所有键值对中相同的键进行合并,合并后发送到第六级节点;
第六级节点,接收所有第五级节点发送的键值对,进行键值对合并,获取日志数据db中的所有项tij及对应频数SUPk-itemset-l,获得日志数据db增加到DB中后新增的所有频繁项,形成待分析频繁项集合Glist;
可以理解的是,Storm实时计算系统作为分布式并行计算系统,本实施例中对其改进后,依然是分布式并行计算系统,具体的实际处理日志数据流的第四级节点、第五级节点和第六级节点均为多个,实现分布式并行计算处理过程,提高计算速度。
具体的形成待分析频繁项集合Glist的步骤包括:
(81)先基于原有日志事务数据DB和实时采集的日志数据db各自的准频繁项、频繁项和不频繁项进行直接判断:
(811)若日志数据db中的项tij,在日志数据db中是准频繁项或者频繁项同时在日志事务数据DB中是准频繁项或者频繁项,则项tij确定为原有频繁项,不进行相关的关联规则挖掘;
(812)若日志数据db中的项tij,在日志数据db中是不频繁项同时在日志事务数据DB中是不频繁项,则项tij确定为不频繁项,不进行相关的关联规则挖掘;
(82)若日志数据db中的项tij,在日志数据db中为不频繁项,在DB中为频繁项或者准频繁项,或者日志数据db中为频繁项或者准频繁项,在DB中为不频繁项,则进行进一步判断:
(821)获取项tij在原有数据DB中出现的次数SDBJi以及在日志数据db中出现的次数SdbJi,获取数据DB中的项目总数D以及数据db中的项目总数d,
(822)若
Figure BDA0002568044330000071
则项tij确定为不频繁项;
(823)若
Figure BDA0002568044330000072
则项tij确定为新增的频繁项;
由步骤(833)获得日志数据db增加到DB中后新增的所有频繁项。
本实施例中,原有日志事务数据DB和实时采集的日志数据db中,对于每一项是否为频繁项的判断基于预设的加权支持度区间(SUPL,SUPU)获取,对于SUPk-itemset-l<SUPL的项tij存储在不频繁项候选集合PFZ1′中,SUPL<SUPk-itemset-l<SUPU的项tij存储在弱频繁项候选集合PF1′中,SUPk-itemset-l>SUPU的项tij存储在强频繁项候选集合P1′中。
另外加权支持度区间(SUPL,SUPU)中,SUPL和SUPU的参数大小的设置方法为:
基于层次分析法对日志数据中的所有项进行权重分配;
获取所有项的加权数值,并进行排序;
对排序后的加权数值项序列,为SUPL和SUPU分配两个数值实现将加权数值项序列划分不同区间。
第四级节点基于获取的Glist集合,获取日志数据db和DB中所有与Glist中的项有关联的事务,并将所有与Glist中的项有关联的事务分组,每组事务传送到相同的第五级节点;
具体的,第四级节点获取日志数据db和DB中所有与Glist中的项有关联的事务,具体为:根据待分析频繁项集合Glist中的所有项,将日志数据db和DB中所有事务中的非Glist集合项删除,并合并相同的事务。
具体的,将所有与Glist中的项有关联的事务分组,具体为:
第六级节点形成待分析频繁项集合Glist后,根据预设分组组数,将Glist中的项分组,并分配对应分组号;
第四级节点利用其键值转换功能,建立频繁项集合Glist中的每一项和每一事务的一一映射关系,对应的,Glist中的每一项的分组号分享给与其映射的事务,获的同一分组号下的事务集合。
将所有与Glist中的项有关联的事务分组,以供下一步各个节点分别处理不同分组的频繁项。这样不同分组的项分别由不同的节点处理,不同节点之间不会有信息的交换,在保证带宽的情况下实现关联规则挖掘过程的并行处理。
第五级节点对所在节点上接收的每组事务进行关联规则挖掘,并发送到第六级节点;本实施例中,关联规则挖掘的方法采用频繁项超度量树算法。
第六级节点接收所有第五级节点的关联规则,并与原有日志事务数据DB的关联规则融合,获取面向实时更新的数据DB和db的实时关联规则更新结果。
本发明的技术方案对实时增加的海量日志数据进行实时的关联规则挖掘,以电力信息系统为例,针对电力信息系统的数据库、系统运行、程序运行、网络设备等产生的海量日志数据,通过Storm实时计算系统和关联规则挖掘相关技术结合实现面对实时新增的日志数据进行关联规则挖掘,对系信息系统多个指标日志数据进行关联分析,针对系统故障可进行迅速定位,方便查到系统故障根因,提升信息系统运维效率。
另外,基于本实施例应用于电力信息系统的海量日志采集和分析,需要对电力信息系统实时监测以及隐患和故障实时预警,所以本实施例采用处理计算的时效性非常高的Storm实时计算系统进行日志数据流的实时处理分析,但是考虑到对日志数据的关联规则挖掘,需要对之前已有的日志数据进行增量更新分析,所以对Storm实时计算系统进行改进,将Storm实时计算系统框架中的原有的Nimbus、Supervisor、Spout、Bolt等节点形成的数据处理流程进行改进,本实施例中以Storm作为底层引擎,分别设置第一级节点到第六级节点进行数据处理计算过程,其中,第一级节点可以采用Storm中原有的Acker Bolt节点,第四级节点和第五级节点可以利用MapReduce编程模型实现,待读取的日志数据和已经处理分析得到的关联分析数据可以存储在HDFS文件系统中。
当然,原有日志事务数据DB的所有关联分析数据也可以采用所述基于改进的Storm实时计算系统获取。原有日志事务数据DB的所有关联分析数据的获取过程与新增实时采集的日志数据db后处理的流程类似,具体包括:第四级节点接收到数据DB中的流数据后,由第四级节点、第五级节点和第六级节点依次处理后获取数据DB中的不频繁项、频繁项和准频繁项;
返回第四级节点,第四级节点根据获取的频繁项和准频繁项,将日志事务数据DB中的事务进行分组,每组事务传送到相同的第五级节点进行关联规则挖掘,并发送到第六级节点,进行所有第五级节点的关联规则融合。
具体的,第四级节点读取单位为HDFS分片的数据分片Split并将其映射为键值形式。假设DB={T1,T2,...,Tn},每个第四级节点上的数据都包含了多个事务Ti,其中tij是Ti中的一个项目。J={J1,J2,...,Jm}为数据库里所有项的集合。
利用第四级节点对数据进行处理:Map(offset,Ti)→(tij,1),offset为事务Ti在该分片的偏移量,值为Ti;输出的键为tij,值为1,将相同的项聚集起来,通过Hash的方式发送到相应的第五级节点;
利用第五级节点对数据进行处理:
Reduce(tij,{1,1...,1})→(k-itemsetl,sup),其中键中k为各组所有相同的项目tij的个数,itemsetl为第l个所有相同的项目tij的集合,sup为对应键的支持度计数;
第六级节点接收并保存从第五级节点送来的键值对,并将各个第六级节点输出结果合并得到DB的项统计结果,包括所有的项tij和对应的频次数值SUPk-itemset-l,然后对原有日志事务数据DB中的每一项判断是否为频繁项以及频繁程度,采用基于预设的加权支持度区间(SUPL,SUPU)获取,具体为对于SUPk-itemset-l<SUPL的项tij存储在不频繁项候选集合PFZ1′中,SUPL<SUPk-itemset-l<SUPU的项tij存储在弱频繁项候选集合PF1′中,SUPk-itemset-l>SUPU的项tij存储在强频繁项候选集合P1′中。
然后基于强频繁项P1、弱频繁项PF1形成的频繁项集合Glist,将频繁项集合Glist中的所有项分成n组,并分配对应分组号;
返回到第四级节点进行第二次数据处理过程,第四级节点利用其键值转换功能,建立频繁项集合Glist中的每一项和每一事务的一一映射关系,对应的,Glist中的每一项的分组号分享给与其映射的事务,获的同一分组号下的事务集合。
然后第五级节点对所在节点上接收的每组事务进行关联规则挖掘,并发送到第六级节点;其中,关联规则挖掘的方法采用频繁项超度量树算法。
第六级节点接收所有第五级节点的关联规则,即各第五级节点将获得的强关联规则集FJB和弱关联规则集FZJB发送到对应的第六级节点,第六级节点函数合并各第六级节点的关联规则集FJB和FZJB,得到整个数据库DB的强关联规则集PF和弱关联规则集PFZ
上述日志数据中的所有项的权重分配,采用层次分析法,具体的在数据挖掘的实际应用中,涉及到的项目往往有上百条,如果要使用者手工为每个项目指定相对于其它项目的重要程度的值(1至9之间的数)往往是很不方便的,并且很难满足约束条件。因此在本实施例中,将各个项目的重要程度从高到低分为5个等级将各个项目的重要程度从高到低分为若干个等级,设level(I)∈{1,2,...,n},数据库中的两个项目Ii,Ij的重要level值分别表示为level(Ii)和level(Ij),则项目Ii相对于Ij的重要程度bi,j可表示为:
bi,j=2(level(Ij)-leve(Ii))+1,(1)
项目Ij相对于Ii的重要程度bj,i可表示为:
bj,i=1/bi,j,(2)
基于上述,计算日志数据中的每个项目的权重wi:
1.建立判断矩阵。设在n个项目的数据库中,将每个项目Ii(i∈{1,2,...,n})按照指定的重要level(记为L(Ii)归类,带入公式(1)(2)中,得到判断矩阵如下表1所示,其中(bj,i=1/bi,j,bi,i=1,i,j=1,2,...,n)。
B L(I<sub>1</sub>) L(I<sub>2</sub>) ... L(I<sub>n</sub>)
L(I<sub>1</sub>) b<sub>11</sub> b<sub>12</sub> ... b<sub>1n</sub>
L(I<sub>2</sub>) b<sub>21</sub> b<sub>22</sub> ... b<sub>2n</sub>
... ... ... ...
L(I<sub>n</sub>) b<sub>n1</sub> b<sub>n2</sub> ... b<sub>nn</sub>
表1判断矩阵
2.计算每一行的积Mi(i=1,2,...,n)
Figure BDA0002568044330000111
3.计算Mi的n次方根
Figure BDA0002568044330000112
Figure BDA0002568044330000113
4.对向量
Figure BDA0002568044330000114
正规化(i=1,2,...,n):
Figure BDA0002568044330000115
Figure BDA0002568044330000116
即为所求特征向量,Wi(i=1,2,...,n)即为项目Ii所对应的权值。
在算法实际的应用中,将每个Item的初始等级值默认为中等重要(即level值为3),这样使用时只需对那些重要程度不同的Item值进行相应的调整,从而简化了调整操作过程。
本发明还提供了一种基于海量日志的实时关联分析系统,包括:
原有日志事务数据DB的关联分析数据获取模块,用于获取原有日志事务数据DB的所有关联分析数据,所述关联分析数据包括数据DB中的不频繁项、频繁项和关联规则;
实时采集日志获取模块,用于获取实时采集的日志数据db;
海量日志实时关联分析模块,用于基于改进的Storm实时计算系统进行海量日志的实时关联分析,所述改进的Storm实时计算系统包括:
第一级节点,用于追踪流数据处理过程所有节点的任务完成情况;
第二级节点,用于控制所有节点的工作顺序;
第三级节点,用于接收第二级节点发送的日志数据db的标识字段,读取数据库中对应的日志数据,并将读取数据发送到第四级节点;同时,第三级节点读取完成后,向所有第四级节点发送完成标志信息,同时将读取完的数据归入数据DB中;
第四级节点,用于统计所在节点上的所有事务中的项tij及每项频数,并转换成键值形式直接发送到第五级节点,同时第四级节点接收到所有第三级节点发送的完成标志信息后,向所有第五级节点发送完成标志信息;还用于根据第六季节点形成的待分析频繁项集合Glist,获取日志数据db和DB中所有与Glist中的项有关联的事务,并将所有与Glist中的项有关联的事务分组,每组事务传送到相同的第五级节点;
第五级节点,用于在接收到所有第四级节点发送的完成标志信息后,对所在节点接收的所有键值对中相同的键进行合并,合并后发送到第六级节点;还用于对所在节点上接收的每组事务进行关联规则挖掘,并发送到第六级节点;
第六级节点,用于对所有第五级节点发送的键值对,进行键值对合并,获取日志数据db中的所有项tij及对应频数SUPk-itemset-l,获得日志数据db增加到DB中后新增的所有频繁项,形成待分析频繁项集合Glist;还用于接收所有第五级节点的关联规则,并与原有日志事务数据DB的关联规则融合,获取面向实时更新的数据DB和db的实时关联规则更新结果。
本实施例中,一种基于海量日志的实时关联分析系统中,第一级节点、第二级节点和第三级节点组成任务处理流程管理单元,其中,第三级节点负责维护任务的开始,第四级节点、第五级节点、第六级节点负责实现待分析频繁项集合Glist生成单元和实时关联规则更新单元的功能,在关联规则更新过程中,第四级节点、第五级节点、第六级节点第一次依次执行任务处理的过程作为待分析频繁项集合Glist生成单元,第四级节点、第五级节点、第六级节点第二次依次执行任务处理的过程作为实时关联规则更新单元,实现了两次扫描数据库对动态更新的数据库实时关联规则分析。
采用本实施例的一种基于海量日志的实时关联分析系统,根据设置的第四级节点、第五级节点、第六级节点以及其对应的功能,实现了频繁项超度量树算法的两次数据库扫描过程进行关联规则的分析挖掘,同时基于Storm实时计算系统,实现了海量日志动态更新的日志数据库的关联规则分析,提高了关联规则分析的效率。
本发明不局限于上述具体的实施方式,本领域的普通技术人员从上述构思出发,不经过创造性的劳动,所做出的种种变换,均落在本发明的保护范围之内。

Claims (10)

1.一种基于海量日志的实时关联分析方法,其特征在于:包括:
获取原有日志事务数据DB的所有关联分析数据,所述关联分析数据包括数据DB中的不频繁项、频繁项和关联规则;
获取实时采集的日志数据db;
基于改进的Storm实时计算系统进行海量日志的实时关联分析,分析过程包括:
第一级节点启动,用于追踪流数据处理过程所有节点的任务完成情况,同时第二级节点启动,用于控制所有节点的工作顺序;
第二级节点向第三级节点发送日志数据db的标识字段;
第三级节点根据接收的标识字段读取数据库中对应的日志数据,并将读取数据发送到第四级节点;当第三级节点读取完成后,向所有第四级节点发送完成标志信息,同时将读取完的数据归入数据DB中;
第四级节点接收到数据后,统计所在节点上的所有事务中的项tij及每项频数,并转换成键值形式直接发送到第五级节点,第四级节点接收到所有第三级节点发送的完成标志信息后,向所有第五级节点发送完成标志信息;
第五级节点接收到所有第四级节点发送的完成标志信息后,对所在节点接收的所有键值对中相同的键进行合并,合并后发送到第六级节点;
第六级节点,接收所有第五级节点发送的键值对,进行键值对合并,获取日志数据db中的所有项tij及对应频数SUPk-itemset-l,获得日志数据db增加到DB中后新增的所有频繁项,形成待分析频繁项集合Glist;
第四级节点获取日志数据db和DB中所有与Glist中的项有关联的事务,并将所有与Glist中的项有关联的事务分组,每组事务传送到相同的第五级节点;
第五级节点对所在节点上接收的每组事务进行关联规则挖掘,并发送到第六级节点;
第六级节点接收所有第五级节点的关联规则,并与原有日志事务数据DB的关联规则融合,获取面向实时更新的数据DB和db的实时关联规则更新结果。
2.根据权利要求1所述的一种基于海量日志的实时关联分析方法,其特征在于:所述第四级节点获取日志数据db和DB中所有与Glist中的项有关联的事务,具体为:根据待分析频繁项集合Glist中的所有项,将日志数据db和DB中所有事务中的非Glist集合项删除,并合并相同的事务。
3.根据权利要求1所述的一种基于海量日志的实时关联分析方法,其特征在于:所述将所有与Glist中的项有关联的事务分组,具体为:
第六级节点形成待分析频繁项集合Glist后,根据预设分组组数,将Glist中的项分组,并分配对应分组号;
第四级节点利用其键值映射建立功能,建立频繁项集合Glist中的每一项和每一事务的一一映射关系,对应的,Glist中的每一项的分组号分享给与其映射的事务,获得 同一分组号下的事务集合。
4.根据权利要求1所述的一种基于海量日志的实时关联分析方法,其特征在于:所述原有日志事务数据DB和实时采集的日志数据db中,对于每一项是否为频繁项的判断基于预设的加权支持度区间(SUPL,SUPU)获取,对于SUPk-itemset-l<SUPL的项tij存储在不频繁项候选集合PFZ1′中,SUPL<SUPk-itemset-l<SUPU的项tij存储在弱频繁项候选集合PF1′中,SUPk-itemset-l>SUPU的项tij存储在强频繁项候选集合P1′中。
5.根据权利要求4所述的一种基于海量日志的实时关联分析方法,其特征在于:所述加权支持度区间(SUPL,SUPU)中,SUPL和SUPU的参数大小的设置方法为:
基于层次分析法对日志数据中的所有项进行权重分配;
获取所有项的加权数值,并进行排序;
对排序后的加权数值项,为SUPL和SUPU分配两个数值实现将所有加权数值项划分不同区间。
6.根据权利要求1所述的一种基于海量日志的实时关联分析方法,其特征在于:所述原有日志事务数据DB的所有关联分析数据采用所述基于改进的Storm实时计算系统获取。
7.根据权利要求2所述的一种基于海量日志的实时关联分析方法,其特征在于:原有日志事务数据DB的所有关联分析数据的获取过程包括:
第四级节点接收到数据DB中的流数据后,由第四级节点、第五级节点和第六级节点依次处理后获取数据DB中的不频繁项、频繁项和准频繁项;
返回第四级节点,第四级节点根据获取的频繁项和准频繁项,将日志事务数据DB中的事务进行分组,每组事务传送到相同的第五级节点进行关联规则挖掘,并发送到第六级节点,进行所有第五级节点的关联规则融合。
8.根据权利要求1所述的一种基于海量日志的实时关联分析方法,其特征在于:所述第六级节点获取日志数据db中的所有项tij及对应频数SUPk-itemset-l,获得日志数据db增加到DB中后新增的所有频繁项,具体的步骤包括:
(81)先基于原有日志事务数据DB和实时采集的日志数据db各自的准频繁项、频繁项和不频繁项进行直接判断:
(811)若日志数据db中的项tij,在日志数据db中是准频繁项或者频繁项同时在日志事务数据DB中是准频繁项或者频繁项,则项tij确定为原有频繁项,不进行相关的关联规则挖掘;
(812)若日志数据db中的项tij,在日志数据db中是不频繁项同时在日志事务数据DB中是不频繁项,则项tij确定为不频繁项,不进行相关的关联规则挖掘;
(82)若日志数据db中的项tij,在日志数据db中为不频繁项,在DB中为频繁项或者准频繁项,或者日志数据db中为频繁项或者准频繁项,在DB中为不频繁项,则进行进一步判断:
(821)获取项tij在原有数据DB中出现的次数SDBJi以及在日志数据db中出现的次数SdbJi,获取数据DB中的项目总数D以及数据db中的项目总数d,
(822)若
Figure FDA0002568044320000031
则项tij确定为不频繁项;
(823)若
Figure FDA0002568044320000032
则项tij确定为新增的频繁项;
由步骤(833)获得日志数据db增加到DB中后新增的所有频繁项。
9.根据权利要求1所述的一种基于海量日志的实时关联分析方法,其特征在于:所述第五级节点对所在节点上接收的每组事务进行关联规则挖掘的方法为频繁项超度量树算法。
10.一种基于海量日志的实时关联分析系统,其特征在于:包括:
原有日志事务数据DB的关联分析数据获取模块,用于获取原有日志事务数据DB的所有关联分析数据,所述关联分析数据包括数据DB中的不频繁项、频繁项和关联规则;
实时采集日志获取模块,用于获取实时采集的日志数据db;
海量日志实时关联分析模块,用于基于改进的Storm实时计算系统进行海量日志的实时关联分析,所述改进的Storm实时计算系统包括:
第一级节点,用于追踪流数据处理过程所有节点的任务完成情况;
第二级节点,用于控制所有节点的工作顺序;
第三级节点,用于接收第二级节点发送的日志数据db的标识字段,读取数据库中对应的日志数据,并将读取数据发送到第四级节点;同时,第三级节点读取完成后,向所有第四级节点发送完成标志信息,同时将读取完的数据归入数据DB中;
第四级节点,用于统计所在节点上的所有事务中的项tij及每项频数,并转换成键值形式直接发送到第五级节点,同时第四级节点接收到所有第三级节点发送的完成标志信息后,向所有第五级节点发送完成标志信息;还用于根据第六季节点形成的待分析频繁项集合Glist,获取日志数据db和DB中所有与Glist中的项有关联的事务,并将所有与Glist中的项有关联的事务分组,每组事务传送到相同的第五级节点;
第五级节点,用于在接收到所有第四级节点发送的完成标志信息后,对所在节点接收的所有键值对中相同的键进行合并,合并后发送到第六级节点;还用于对所在节点上接收的每组事务进行关联规则挖掘,并发送到第六级节点;
第六级节点,用于对所有第五级节点发送的键值对,进行键值对合并,获取日志数据db中的所有项tij及对应频数SUPk-itemset-l,获得日志数据db增加到DB中后新增的所有频繁项,形成待分析频繁项集合Glist;还用于接收所有第五级节点的关联规则,并与原有日志事务数据DB的关联规则融合,获取面向实时更新的数据DB和db的实时关联规则更新结果。
CN202010637310.XA 2020-07-03 2020-07-03 一种基于海量日志的实时关联分析方法及系统 Active CN111858530B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010637310.XA CN111858530B (zh) 2020-07-03 2020-07-03 一种基于海量日志的实时关联分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010637310.XA CN111858530B (zh) 2020-07-03 2020-07-03 一种基于海量日志的实时关联分析方法及系统

Publications (2)

Publication Number Publication Date
CN111858530A CN111858530A (zh) 2020-10-30
CN111858530B true CN111858530B (zh) 2022-08-16

Family

ID=73151869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010637310.XA Active CN111858530B (zh) 2020-07-03 2020-07-03 一种基于海量日志的实时关联分析方法及系统

Country Status (1)

Country Link
CN (1) CN111858530B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI801287B (zh) * 2021-07-20 2023-05-01 奧義智慧科技股份有限公司 用於產生階層式有向無環圖的事件視覺化裝置與相關的電腦程式產品
CN114385448A (zh) * 2021-12-31 2022-04-22 未名环境分子诊断(常熟)有限公司 采样器运行测试方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015149830A1 (en) * 2014-03-31 2015-10-08 Huawei Technologies Co., Ltd. Event processing system
WO2016045367A1 (zh) * 2014-09-24 2016-03-31 中兴通讯股份有限公司 一种多数据源数据融合的方法及装置
CN107704545A (zh) * 2017-11-08 2018-02-16 华东交通大学 基于Storm与Kafka消息通信的铁路配电网海量信息流处理方法
CN107766442A (zh) * 2017-09-21 2018-03-06 深圳金融电子结算中心有限公司 一种海量数据关联规则挖掘方法及系统
CN111209314A (zh) * 2020-01-13 2020-05-29 国网浙江省电力有限公司信息通信分公司 一种电力信息系统海量日志数据实时处理系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110307106A1 (en) * 2010-06-14 2011-12-15 Kevin Charles Dutt Methods and Systems for Monitoring, Controlling, and Recording Performance of a Storm Water Runoff Network

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015149830A1 (en) * 2014-03-31 2015-10-08 Huawei Technologies Co., Ltd. Event processing system
WO2016045367A1 (zh) * 2014-09-24 2016-03-31 中兴通讯股份有限公司 一种多数据源数据融合的方法及装置
CN105512130A (zh) * 2014-09-24 2016-04-20 中兴通讯股份有限公司 数据源融合的方法和装置
CN107766442A (zh) * 2017-09-21 2018-03-06 深圳金融电子结算中心有限公司 一种海量数据关联规则挖掘方法及系统
CN107704545A (zh) * 2017-11-08 2018-02-16 华东交通大学 基于Storm与Kafka消息通信的铁路配电网海量信息流处理方法
CN111209314A (zh) * 2020-01-13 2020-05-29 国网浙江省电力有限公司信息通信分公司 一种电力信息系统海量日志数据实时处理系统

Also Published As

Publication number Publication date
CN111858530A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN103336790B (zh) 基于Hadoop的邻域粗糙集快速属性约简方法
CN106547882A (zh) 一种智能电网中营销大数据的实时处理方法及系统
WO2016101628A1 (zh) 一种数据建模中的数据处理方法及装置
CN105956015A (zh) 一种基于大数据的服务平台整合方法
CN104820708B (zh) 一种基于云计算平台的大数据聚类方法和装置
CN104809244B (zh) 一种大数据环境下的数据挖掘方法和装置
CN111143428B (zh) 一种基于关联分析法的保护异常告警处理方法
CN111858530B (zh) 一种基于海量日志的实时关联分析方法及系统
CN104834557B (zh) 一种基于Hadoop的数据分析方法
Chen et al. A survey of approximate quantile computation on large-scale data
CN111241129B (zh) 一种工业生产企业指标数据采集与计算的系统
CN114416855A (zh) 一种基于电力大数据的可视化平台及方法
CN108268656A (zh) 一种大数据智能云审计方法及系统
CN103336791A (zh) 基于Hadoop的粗糙集快速属性约简方法
CN104486116A (zh) 多维度查询流量数据的方法及系统
CN112558869B (zh) 基于大数据遥感影像缓存方法
CN106599190A (zh) 基于云计算的动态Skyline查询方法
CN106250457A (zh) 大数据平台物化视图的查询处理方法及系统
CN105045806A (zh) 一种面向分位数查询的概要数据动态分裂与维护方法
WO2024103436A1 (zh) 设备缺陷数据规则库构建方法及设备缺陷关联性分析方法
CN115689191A (zh) 一种面向指标体系筛选优化的智能电网安全性评估方法
CN118037000A (zh) 基于数字经济的城市资源动态调度方法及系统
CN117851490A (zh) 基于大数据的数据分析处理系统
CN111628888B (zh) 一种故障诊断方法、装置、设备及计算机存储介质
CN117290405A (zh) 一种大规模设备数据快速查询的物联网系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant