CN111159127A - 一种基于Apriori算法的日志分析的方法及装置 - Google Patents
一种基于Apriori算法的日志分析的方法及装置 Download PDFInfo
- Publication number
- CN111159127A CN111159127A CN201811320085.6A CN201811320085A CN111159127A CN 111159127 A CN111159127 A CN 111159127A CN 201811320085 A CN201811320085 A CN 201811320085A CN 111159127 A CN111159127 A CN 111159127A
- Authority
- CN
- China
- Prior art keywords
- abnormal
- log
- time
- subset
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 19
- 238000004458 analytical method Methods 0.000 title claims abstract description 15
- 230000002159 abnormal effect Effects 0.000 claims abstract description 130
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims description 23
- 230000011218 segmentation Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 abstract description 11
- 238000004364 calculation method Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种基于Apriori算法的日志分析的方法及装置,该方法包括:当服务器检测到警告信息时,采集预设时间窗口内的异常日志,其中,所述异常日志是指包括预设异常关键词的日志,将所述异常日志进行预处理得到异常日志的集合,从所述集合中所包含的频繁项集中确定置信度和支持度都大于预设阈值的子集,并利用所述子集形成关联事件。解决了现有技术中系统在日志关联关系的计算过程中负荷较大的技术问题。
Description
技术领域
本申请涉及大数据技术领域,尤其涉及一种基于Apriori算法的日志分析的方法及装置。
背景技术
大数据系统在运行的过程中每天都会生成大量的日志信息,这些日志信息记录了系统不同时刻的运行状况,充分的分析和挖掘这些日志信息,可以帮助运维人员掌握大数据集群的状态,更好的维护大数据系统的稳定性。因此,为了便于运维人员掌握大数据集群的状态,目前,大数据管理系统主要在开源搜索引擎ELK(ElasticSearch+Logstash+Kibana)架构的基础上,利用关联规则算法Apriori来确定不同日志信息之间的关联关系。
通常原生的Apriori算法判断日志信息之间的关联关系,是通过对全部的日志信息进行分析,计算不同日志信息之间的支持度和置信度来判断日志信息之间是否存在关联规则,进而确定日志信息之间的关联关系,由于利用原生的Apriori算法判断日志信息之间的关系,需要对所有的日志文件进行遍历,并且在日志信息关联规则计算的过程中需要对所有满足支持度和置信度的日志信息进行关联计算,系统计算的工作量较大,导致系统在计算过程中负荷较大。
发明内容
本申请提供一种基于Apriori算法的日志分析的方法及装置,用以解决现有技术中系统在日志关联关系的计算过程中负荷较大的技术问题。
第一方面,本申请提供一种基于Apriori算法的日志分析的方法,该方法包括:当服务器检测到警告信息时,采集预设时间窗口内的异常日志,其中,所述异常日志是指包括预设异常关键词的日志,然后,将所述异常日志进行预处理得到异常日志的集合,再从所述集合中所包含的频繁项集中确定置信度和支持度都大于预设阈值的子集,并利用所述子集形成关联事件。
本申请提供的实施例中,服务器采集预设时间窗口内的异常日志信息,并通过对异常日志信息进行预处理得到异常日志的集合,再根据支持度和信任度从所述集合中所包含的频繁项集中确定出具有关联关系的子集,并形成关联事件。因此,服务器通过分析异常日志信息确定具有关联关系的日志信息,避免了对所有的日志信息都进行采集、存储和分析,减少了系统在分析过程中的工作量,不仅降低了系统的负荷,还提高了系统对日志信息分析的效率。
可选地,所述预设时间窗口以生成所述警告信息的时间点为基准时间,并为可调整长度的时间窗口。
本申请提供的实施例中,服务器中预设时间窗口以警告信息的时间点为基准,采集所述警告信息前后的日志信息,并且所述时间窗口为可调整长度的时间窗口,可适应不同需求,提高系统的适用性。
可选地,服务器将所述异常日志进行预处理得到异常日志的集合,包括:
提取所述异常日志中message字段的字符串和生成的时间信息,并将所述字符串进行分词处理得到不同的词组;
若确定所述词组与所述预设异常关键词相同,则所述词组为异常日志关键词,基于生成所述异常日志的时间在所述词组中添加时间戳;
基于所述异常日志关键词生成所述异常日志关键词集合,并基于所述异常日志关键词的集合生成所述异常日志的集合。
可选地,服务器基于所述异常日志关键词的集合生成所述异常日志的集合,包括:
以当前系统时间为基准,采集N个所述异常日志关键词的集合,其中,所述N为不小于2的正整数;
基于所述N个所述异常日志关键词的集合生成所述异常日志的集合。
本申请提供的实施例中,服务器以当前系统时间为基准,采集N个异常日志关键词的集合,并生成的异常日志的集合,基于对所述异常日志的集合的分析确定出日志信息关联的关系。因此,服务器能够对当前系统对应的实时的日志信息进行分析、确定出日志信息之间的关联关系,避免服务器基于全部的历史数据进行分析,导致日志信息的关联关系不能准确实时的反映系统集群的状态。
可选地,服务器将所述子集形成关联事件包括:
基于所述时间戳确定所述子集的时间;
基于预设的强关联规则,利用所述子集形成关联事件;其中,所述强关联规则是指时间在前的子集推出时间在后的子集。
本申请提供的实施例中,服务器通过在提取的异常关键词上加入时间戳,基于所述时间戳确定频繁项集中包含的子集的时间,基于所述时间的先后顺序,生成强关联规则,排除了不符合时间顺序的关联组合,避免了在关联规则计算过程中对不符合时间维度上关联规则的组合也进行计算,不仅降低了系统在计算过程中的负荷,还提高了系统计算的效率。
第二方面,本申请提供一种基于Apriori算法的日志分析的装置,包括:
采集模块,用于当检测到警告信息时,采集预设时间窗口内的异常日志,其中,所述异常日志是指包括预设异常关键词的日志;
处理模块,用于将所述异常日志进行预处理得到异常日志的集合;
确定模块,用于从所述集合中所包含的频繁项集中确定置信度和支持度都大于预设阈值的子集,并利用所述子集形成关联事件。
可选地,所述预设时间窗口以生成所述警告信息的时间点为基准时间,并为可调整长度的时间窗口。
可选地,所述处理模块,具体用于:
提取所述异常日志中message字段的字符串和生成的时间信息,并将所述字符串进行分词处理得到不同的词组;
若确定所述词组与所述预设异常关键词相同,则所述词组为异常日志关键词,基于生成所述异常日志的时间在所述词组中添加时间戳;
基于所述异常日志关键词生成所述异常日志关键词集合,并基于所述异常日志关键词的集合生成所述异常日志的集合。
可选地,所述采集模块,还用于:以当前系统时间为基准,采集N个所述异常日志关键词的集合,其中,所述N为不小于2的正整数;
所述处理模块,还用于:基于所述N个所述异常日志关键词的集合生成所述异常日志的集合。
可选地,所述确定模块,具体用于:
基于所述时间戳确定所述子集的时间;
基于预设的强关联规则,利用所述子集形成关联事件;其中,所述强关联规则是指时间在前的子集推出时间在后的子集。
第三方面,本申请提供一种服务器,包括:
存储器,用于存储计算机指令;
处理器,与所述存储器连接,用于执行所述存储器中的计算机指令,以在执行所述计算机指令时,执行第一方面所述的方法或第一方面的任意可能的实现中的方法。
第四方面,本申请提供了一种计算机可读存储介质,所述可读存储介质中存储有计算机指令,所述指令在计算机上运行时,使得计算机执行第一方面所述的方法或第一方面的任意可能的实现中的方法。
附图说明
图1为本申请实施例所提供的一种基于Apriori算法的日志分析的方法的流程图;
图2a为本申请实施例所提供一种AC树的示意图;
图2b为本申请实施例所提供一种Output表的示意图;
图2c为本申请实施例所提供一种失败函数的示意图;
图3为本申请实施例所提供的一种频繁项集的子集记录表;
图4为本申请实施例所提供的一种基于Apriori算法的日志分析的装置的结构示意图;
图5为本申请实施例所提供的一种服务器的结构示意图。
具体实施方式
本申请实施例提供的方案中,所描述的实施例仅是本申请一部份实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本申请技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
下面先介绍本申请实施例涉及的一些概念。
频繁项集:在关联算法中,支持度满足预定义的最小支持度阈值的项集。
关联规则:形如X→Y的蕴含式,反映一个事物与其他事物之间的相互依存性和关联性,其中,X为关联规则的先导,Y为关联规则的后继。
支持度(Support):Support(X→Y)=P(X∪Y)。支持度揭示X与Y同时出现的概率。
置信度(Confidence):Confidence(X->Y)=P(X|Y)。置信度揭示了X出现时,Y是否也会出现或有多大概率出现。
实施例一
以下结合说明书附图对本申请实施例所提供的一种基于Apriori算法的日志分析的方法做进一步详细的说明,该方法具体实现方式可以包括以下步骤(方法流程如图1所示):
步骤101,当服务器检测到警告信息时,采集预设时间窗口内的异常日志,其中,所述异常日志是指包括预设异常关键词的日志。
在服务器中可预先设置一时间窗口,所述预设时间窗口以生成所述警告信息的时间点为基准时间,并为可调整长度的时间窗口。例如,若预设时间窗口的时长为检测到所述警告信息的时间点的前后三分钟的时间,当服务器在14:00时刻检测到警告信息时,服务器会采集13:57-14:03这段时间内生成的异常的日志。应理解,此处预设时间窗口的长度可任意进行调整。例如,当服务器进行扩容和缩容时,可根据具体的需求将预设时间窗口的长度调整为检测到所述警告信息时间点前后的2分钟、6分钟或8分钟等任意的长度。
在服务器中设置有异常关键词列表,例如,error、warning、exception、out ofmemory或not found等,当服务器检测到警告信息时,首先,服务器根据日志信息中的时间信息确定在所述预设时间窗口内生成的日志,然后,服务器基于所述预设的异常关键词列表从所述日志中确定出包括所述异常关键词的日志,将该日志作为异常日志。
步骤102,服务器将所述异常日志进行预处理得到异常日志的集合。
具体的,服务器提取所述异常日志中message字段的字符串和生成的时间信息,并将所述字符串进行分词处理得到不同的词组;若确定所述词组与所述预设异常关键词相同,则所述词组为异常日志关键词,基于生成所述异常日志的时间在所述词组中添加时间戳;基于所述异常日志关键词生成所述异常日志关键词集合,并基于所述异常日志关键词的集合生成所述异常日志的集合。
在日志的message字段中包括整体系统信息和服务错误信息等,一般信息表现的形式为一段字符串,服务器无法直接从一段字符串中分辨、获取特定的词组,因此,服务器在提取预设的异常关键词之前,需要对进行分词处理得到不同的词组。对字符串进行分词的方法有多种,本申请采用字典匹配算法(Aho-Corasick,AC),具体过程如下所述:
在服务器中预设一个字典P={P1,,P2,……,Pn},该字典有P1,,P2,……,Pn等n个词组,T[1,2,……,m]为长度为m的字符串,服务器将所述字典P中的词组织成一颗AC树,在生成树后,根据树还生成Output表和失败函数,当在T中找到属于字典P的词时,需要在T中按照字母的排列顺序在AC树中进行状态转移,并将该词从T中分离出来。
例如,如图2a为本申请实施例所提供一种AC树的示意图,图2b为本申请实施例所提供一种Output表的示意图,图2c为本申请实施例所提供一种失败函数的示意图。当字典P={he,she,his,hers},待查找的字符串T=ushers时,基于AC算法将该字典生成AC树、Output表:i=Output(i);2,{he};5,{she,he};7,{his};9,{hers},以及失败函数f(i),i表示自动机对应的各个状态,将字符串T中的字符从u开始依次在AC树中进行状态的转移,如果转移失败则调用失败函数得到新状态继续转移,字符串在AC树中遍历所有Output表的并集就是匹配结果。其中,图2a所示的AC树中圆圈表示自动机对应的各个状态,即i值,边为当前状态输入的字符,Output表记录已经被发现的完整的字符串,失败函数f(i)表征跳转状态路径的情况。当T在该AC树中转移时,得到T的字典匹配结果为Result=output(0)∪output(0)∪output(3)∪output(4)∪output(5)∪output(8)∪output(9)=φ∪φ∪φ∪φ∪{she,he}∪φ∪{hers}={she,he,hers}。
服务器将message字段的字符串分词后,基于异常关键词列表判断,所述词组是否与所述异常关键词列表中的词相同,若相同,则确定所述词组为异常日志关键词,并基于日期过滤器从message字段中解析出日志生成的时间信息,将该时间信息以时间戳的形式添加到所述异常日志关键词中,例如,在所述异常关键词中加入timestamp字段,然后,服务器将预设时间窗口内采集的多个异常日志中的异常关键词提取出来,并生成将所述日志中的异常关键词进行统计生成异常日志关键词集合,例如,{Hive,error},{HBase,out ofmemory}等,并基于所述异常日志关键词集合生成所述异常日志的集合。
具体的,基于所述异常日志关键词的集合生成所述异常日志的集合,包括:服务器以当前系统时间为基准,采集N个所述异常日志关键词的集合,其中,所述N为不小于2的正整数;基于所述N个所述异常日志关键词的集合生成所述异常日志的集合。
服务器在运行的过程中会生成多个异常日志关键词的集合,由于在每个异常日志关键词中加上了时间戳,可基于所述时间戳的信息确定每个异常日志关键词的集合的时间,当服务器检测到警告信息时,以当前的系统时间为基准,服务器从历史异常日志关键词的集合中确定出与当前系统时间最接近的N个异常日志关键词的集合,并利用N个所述异常日志关键词的集合生成所述异常日志的集合。
例如,当N为5,当前的系统时间为14:00时,服务器的历史数据中包括分别在11:00、11:30、12:00、12:20、13:00、13:40,14:00生成D1,D2,D3,D4,D5,D6,,D7七个异常日志关键词的集合,从该7个异常日志关键词的集合中选择五个与当前系统时间最接近的集合,即D3,D4,D5,D6,D7,将选择出的所述集合生成异常日志的集合D={D3,D4,D5,D6,D7},其中,D1,D2,D3,D4,D5,D6,,D7分别为一个预设时间窗口内提取的异常日志关键词的集合。
步骤103,服务器从所述集合中所包含的频繁项集中确定置信度和支持度都大于预设阈值的子集,并利用所述子集形成关联事件。
具体的,服务器将所述子集形成关联事件包括:基于所述时间戳确定所述子集的时间;基于预设的强关联规则,利用所述子集形成关联事件;其中,所述强关联规则是指时间在前的子集推出时间在后的子集。
服务器基于Apriori算法从异常日志集合中确定出只有一个项集的频繁项集,确定所述频繁项集的所有非空子集,服务器首先基于支持度和信任度的定义计算出各子集之间的支持度和信任度,将支持度大于第一阈值以及信任度大于第二阈值的子集提取出来,然后,基于所述时间戳信息确定所述支持度和信任度都大于预设阈值的子集中各元素的时间信息,并根据预设的强关联规则,即由时间信息在前的子集推出时间信息在后的子集发生的概率,基于所述强关联规则从子集中确定出存在强关联关系的子集,并将该子集形成关联事件。
例如,如图3所示,服务器从异常日志集合I={i1,i2,i3,i4,i5}中确定出只有一个项集的频繁项集为Im={i1,i2,i5},其中,I的非空子集有{i1,i2}、{i1,i5}、{i2,i5}、{i1}、{i2}和{i5},并确定Im中各子集之间的关联规则的置信度和支持度:
情况1、i1∧i2=>i5,I中各元素共组成10个事务,其中,4个事务同时包含i1,i2;2个事务同时包含i1,i2和i5,因此,信任度(i1∧i2=>i5)=2/4=50%,支持度(i1∧i2=>i5)=2/10=20%。
情况2、i1∧i5=>i2,I中各元素共组成10个事务;其中,3个事务包含i1,i5;2个事务包括i1,i2和i5,因此,信任度(i1∧i5=>i2)=2/3=66.6%,支持度(i1∧i5=>i2)=2/10=20%。
情况3、i2∧i5=>i1,I中各元素共组成10个事务;其中,2个事务包含i2,i5;2个事务包含i1,i2和i5,因此,信任度(i2∧i5=>i1)=2/2=100%,支持度(i2∧i5=>i1)=2/10=20%。
情况4、i1=>i2∧i5,I中各元素共组成10个事务;其中,7个事务包含i1;2个事务包含i1,i2和i5,因此,信任度(i1=>i2∧i5)=2/7=28%,支持度(i1=>i2∧i5)=2/10=20%。
情况5、i2=>i1∧i5,共10个事务;7个事务包含i2;2个事务包含i1,i2和i5,因此,信任度(i2=>i1∧i5)=2/7=28%,支持度(i2=>i1∧i5)=2/10=20%。
情况6、i5=>i1∧i2,共10个事务;3个事务包含i5;2个事务包含i1,i2和i5,因此,信任度(i5=>i1∧i2)=2/3=66.6%,支持度(i5=>i1∧i2)=2/10=20%。
当服务器中预设的第一阈值为20%,第二阈值为60%,则确定出情况2、情况3、和情况6中支持度满足第一阈值,且置信度满足第二阈值,对于情况2,i1和i5同时发生的时间为14:25,而i2为15:18,可知,i1和i5同时发生的时间先于i2发生的时间,因此,情况2符合预设的强关联规则,将i1和i5同时发生的事件与i2发生的事件形成关联事件;对于情况3,i2和i5同时发生的时间为18:40,i1发生的时间为14:25,因此,情况3不符合预设的强关联规则,情况3不能形成关联事件;对于情况6,i5发生的时间为14:25,i1和i2同时发生的时间为15:18,因此,情况3不符合预设的强关联规则,情况6不能形成关联事件。
本申请提供的实施例中,服务器采集预设时间窗口内的异常日志信息,并通过对异常日志信息进行预处理得到异常日志的集合,再根据支持度和信任度从所述集合中所包含的频繁项集中确定出具有关联关系的子集,并形成关联事件。因此,服务器通过分析异常日志信息确定具有关联关系的日志信息,避免了对所有的日志信息都进行采集、存储和分析,减少了系统在分析过程中的工作量,不仅降低了系统的负荷,还提高了系统对日志信息分析的效率。
实施例二
基于同一发明构思,本申请实施例还提供一种基于Apriori算法的日志分析的装置,参见图4,该装置包括:
采集模块401,用于当检测到警告信息时,采集预设时间窗口内的异常日志,其中,所述异常日志是指包括预设异常关键词的日志;
处理模块402,用于将所述异常日志进行预处理得到异常日志的集合;
确定模块403,用于从所述集合中所包含的频繁项集中确定置信度和支持度都大于预设阈值的子集,并利用所述子集形成关联事件。
可选地,所述预设时间窗口以生成所述警告信息的时间点为基准时间,并为可调整长度的时间窗口。
可选地,所述处理模块402,具体用于:
提取所述异常日志中message字段的字符串和生成的时间信息,并将所述字符串进行分词处理得到不同的词组;
若确定所述词组与所述预设异常关键词相同,则所述词组为异常日志关键词,基于生成所述异常日志的时间在所述词组中添加时间戳;
基于所述异常日志关键词生成所述异常日志关键词集合,并基于所述异常日志关键词的集合生成所述异常日志的集合。
可选地,所述采集模块401,还用于:以当前系统时间为基准,采集N个所述异常日志关键词的集合,其中,所述N为不小于2的正整数;
所述处理模块402,还用于:基于所述N个所述异常日志关键词的集合生成所述异常日志的集合。
可选地,所述确定模块403,具体用于:
基于所述时间戳确定所述子集的时间;
基于预设的强关联规则,利用所述子集形成关联事件;其中,所述强关联规则是指时间在前的子集推出时间在后的子集。
实施例三
本申请实施例还提供了一种服务器,参见图5,该服务器包括:
存储器501,用于存储计算机指令;
处理器502,与所述存储器501连接,用于执行所述存储器中的计算机指令,以在执行所述计算机指令时执行如实施例一所述的方法。
实施例四
本申请实施例还提供一种计算机可读存储介质,所述可读存储介质中存储有计算机指令,所述指令在计算机上运行时,使得计算机执行如实施例一所述的方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (12)
1.一种基于Apriori算法的日志分析的方法,其特征在于,包括:
当检测到警告信息时,采集预设时间窗口内的异常日志,其中,所述异常日志是指包括预设异常关键词的日志;
将所述异常日志进行预处理得到异常日志的集合;
从所述集合中所包含的频繁项集中确定置信度和支持度都大于预设阈值的子集,并利用所述子集形成关联事件。
2.如权利要求1所述的方法,其特征在于,所述预设时间窗口以生成所述警告信息的时间点为基准时间,并为可调整长度的时间窗口。
3.如权利要求1或2所述的方法,其特征在于,将所述异常日志进行预处理得到异常日志的集合,包括:
提取所述异常日志中message字段的字符串和生成的时间信息,并将所述字符串进行分词处理得到不同的词组;
若确定所述词组与所述预设异常关键词相同,则所述词组为异常日志关键词,基于生成所述异常日志的时间在所述词组中添加时间戳;
基于所述异常日志关键词生成所述异常日志关键词集合,并基于所述异常日志关键词的集合生成所述异常日志的集合。
4.如权利要求3所述的方法,其特征在于,基于所述异常日志关键词的集合生成所述异常日志的集合,包括:
以当前系统时间为基准,采集N个所述异常日志关键词的集合,其中,所述N为不小于2的正整数;
基于所述N个所述异常日志关键词的集合生成所述异常日志的集合。
5.如权利要求3所述的方法,其特征在于,将所述子集形成关联事件包括:
基于所述时间戳确定所述子集的时间;
基于预设的强关联规则,利用所述子集形成关联事件;其中,所述强关联规则是指时间在前的子集推出时间在后的子集。
6.一种基于Apriori算法的日志分析的装置,其特征在于,包括:
采集模块,用于当检测到警告信息时,采集预设时间窗口内的异常日志,其中,所述异常日志是指包括预设异常关键词的日志;
处理模块,用于将所述异常日志进行预处理得到异常日志的集合;
确定模块,用于从所述集合中所包含的频繁项集中确定置信度和支持度都大于预设阈值的子集,并利用所述子集形成关联事件。
7.如权利要求6所述的装置,其特征在于,所述预设时间窗口以生成所述警告信息的时间点为基准时间,并为可调整长度的时间窗口。
8.如权利要求6或7所述的装置,其特征在于,所述处理模块,具体用于:
提取所述异常日志中message字段的字符串和生成的时间信息,并将所述字符串进行分词处理得到不同的词组;
若确定所述词组与所述预设异常关键词相同,则所述词组为异常日志关键词,基于生成所述异常日志的时间在所述词组中添加时间戳;
基于所述异常日志关键词生成所述异常日志关键词集合,并基于所述异常日志关键词的集合生成所述异常日志的集合。
9.如权利要求8所述的装置,其特征在于,所述采集模块,还用于:以当前系统时间为基准,采集N个所述异常日志关键词的集合,其中,所述N为不小于2的正整数;
所述处理模块,还用于:基于所述N个所述异常日志关键词的集合生成所述异常日志的集合。
10.如权利要求8所述的装置,其特征在于,所述确定模块,具体用于:
基于所述时间戳确定所述子集的时间;
基于预设的强关联规则,利用所述子集形成关联事件;其中,所述强关联规则是指时间在前的子集推出时间在后的子集。
11.一种服务器,其特征在于,包括:
存储器,用于存储计算机指令;
处理器,与所述存储器连接,用于执行所述存储器中的计算机指令,以在执行所述计算机指令时执行如权利要求1至5任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述可读存储介质中存储有计算机指令,所述指令在计算机上运行时,使得计算机执行如权利要求1至5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811320085.6A CN111159127A (zh) | 2018-11-07 | 2018-11-07 | 一种基于Apriori算法的日志分析的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811320085.6A CN111159127A (zh) | 2018-11-07 | 2018-11-07 | 一种基于Apriori算法的日志分析的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111159127A true CN111159127A (zh) | 2020-05-15 |
Family
ID=70554521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811320085.6A Pending CN111159127A (zh) | 2018-11-07 | 2018-11-07 | 一种基于Apriori算法的日志分析的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111159127A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111831528A (zh) * | 2020-07-17 | 2020-10-27 | 浪潮商用机器有限公司 | 一种计算机系统日志关联方法及相关装置 |
CN112199344A (zh) * | 2020-10-14 | 2021-01-08 | 杭州安恒信息技术股份有限公司 | 一种日志分类的方法和装置 |
CN112799929A (zh) * | 2021-01-29 | 2021-05-14 | 中国工商银行股份有限公司 | 报警日志的根因分析方法及系统 |
CN113726814A (zh) * | 2021-09-09 | 2021-11-30 | 中国电信股份有限公司 | 用户异常行为识别方法、装置、设备及存储介质 |
CN114826876A (zh) * | 2022-01-11 | 2022-07-29 | 杭州金硕信息技术有限公司 | 一种基于日志分析和在线仿真的云服务故障检测系统及方法 |
CN117971605A (zh) * | 2024-03-29 | 2024-05-03 | 天津南大通用数据技术股份有限公司 | 基于数据库异常的自动化日志信息收集方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106201844A (zh) * | 2016-06-29 | 2016-12-07 | 北京智能管家科技有限公司 | 一种日志收集方法及装置 |
CN108255996A (zh) * | 2017-12-29 | 2018-07-06 | 西安交大捷普网络科技有限公司 | 基于Apriori算法的安全日志分析方法 |
-
2018
- 2018-11-07 CN CN201811320085.6A patent/CN111159127A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106201844A (zh) * | 2016-06-29 | 2016-12-07 | 北京智能管家科技有限公司 | 一种日志收集方法及装置 |
CN108255996A (zh) * | 2017-12-29 | 2018-07-06 | 西安交大捷普网络科技有限公司 | 基于Apriori算法的安全日志分析方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111831528A (zh) * | 2020-07-17 | 2020-10-27 | 浪潮商用机器有限公司 | 一种计算机系统日志关联方法及相关装置 |
CN112199344A (zh) * | 2020-10-14 | 2021-01-08 | 杭州安恒信息技术股份有限公司 | 一种日志分类的方法和装置 |
CN112199344B (zh) * | 2020-10-14 | 2024-03-19 | 杭州安恒信息技术股份有限公司 | 一种日志分类的方法和装置 |
CN112799929A (zh) * | 2021-01-29 | 2021-05-14 | 中国工商银行股份有限公司 | 报警日志的根因分析方法及系统 |
CN112799929B (zh) * | 2021-01-29 | 2024-06-28 | 中国工商银行股份有限公司 | 报警日志的根因分析方法及系统 |
CN113726814A (zh) * | 2021-09-09 | 2021-11-30 | 中国电信股份有限公司 | 用户异常行为识别方法、装置、设备及存储介质 |
CN113726814B (zh) * | 2021-09-09 | 2022-09-02 | 中国电信股份有限公司 | 用户异常行为识别方法、装置、设备及存储介质 |
CN114826876A (zh) * | 2022-01-11 | 2022-07-29 | 杭州金硕信息技术有限公司 | 一种基于日志分析和在线仿真的云服务故障检测系统及方法 |
CN114826876B (zh) * | 2022-01-11 | 2024-05-03 | 杭州金硕信息技术有限公司 | 一种基于日志分析和在线仿真的云服务故障检测系统及方法 |
CN117971605A (zh) * | 2024-03-29 | 2024-05-03 | 天津南大通用数据技术股份有限公司 | 基于数据库异常的自动化日志信息收集方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111159127A (zh) | 一种基于Apriori算法的日志分析的方法及装置 | |
US10423624B2 (en) | Event log analysis | |
Liang et al. | Failure prediction in ibm bluegene/l event logs | |
CN111027615B (zh) | 基于机器学习的中间件故障预警方法和系统 | |
CN110321466B (zh) | 一种基于语义分析的证券资讯查重方法及系统 | |
US20160253229A1 (en) | Event log analysis | |
US20090063461A1 (en) | User query mining for advertising matching | |
CN113254255B (zh) | 一种云平台日志的分析方法、系统、设备及介质 | |
Feng et al. | A code comparison algorithm based on AST for plagiarism detection | |
CN103902582B (zh) | 一种减少数据仓库数据冗余的方法和装置 | |
CN112433874A (zh) | 一种故障定位方法、系统、电子设备及存储介质 | |
CN114386421A (zh) | 相似新闻检测方法、装置、计算机设备和存储介质 | |
CN111767320A (zh) | 数据血缘关系确定方法及装置 | |
CN114721856A (zh) | 业务数据处理方法、装置、设备及存储介质 | |
KR20220069229A (ko) | 필드 간 유사도 분석을 이용한 이종 데이터 결합 방법 | |
CN113835918A (zh) | 一种服务器故障分析方法及装置 | |
WO2019056781A1 (zh) | 同义词挖掘方法、装置、设备和计算机可读存储介质 | |
CN112905370A (zh) | 拓扑图生成方法、异常检测方法、装置、设备及存储介质 | |
CN110019762B (zh) | 一种问题定位方法、存储介质和服务器 | |
CN113535458B (zh) | 异常误报的处理方法及装置、存储介质、终端 | |
CN112287663B (zh) | 一种文本解析方法、设备、终端及存储介质 | |
CN114417828A (zh) | 一种服务器告警日志描述文本的实体关系抽取方法及系统 | |
JP2022185696A (ja) | ログ管理装置 | |
CN114090558A (zh) | 针对数据库的数据质量管理方法和装置 | |
US11727059B2 (en) | Retrieval sentence utilization device and retrieval sentence utilization method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200515 |
|
RJ01 | Rejection of invention patent application after publication |