CN115630626A - 一种数据中心设备日志模板在线提取方法 - Google Patents

一种数据中心设备日志模板在线提取方法 Download PDF

Info

Publication number
CN115630626A
CN115630626A CN202211460190.6A CN202211460190A CN115630626A CN 115630626 A CN115630626 A CN 115630626A CN 202211460190 A CN202211460190 A CN 202211460190A CN 115630626 A CN115630626 A CN 115630626A
Authority
CN
China
Prior art keywords
log
template
templates
sequence
log template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211460190.6A
Other languages
English (en)
Other versions
CN115630626B (zh
Inventor
庄严
董亮
李德识
李想
郭岳
梁源
黄超
廖荣涛
郭兆丰
周正
朱兆宇
胡耀东
柯旺松
周蕾
贺亮
徐宁
罗弦
胡欢君
邱爽
童永飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Hubei Transmission And Transformation Engineering Co ltd
Wuhan University WHU
Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd
Original Assignee
State Grid Hubei Transmission And Transformation Engineering Co ltd
Wuhan University WHU
Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Hubei Transmission And Transformation Engineering Co ltd, Wuhan University WHU, Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd filed Critical State Grid Hubei Transmission And Transformation Engineering Co ltd
Priority to CN202211460190.6A priority Critical patent/CN115630626B/zh
Publication of CN115630626A publication Critical patent/CN115630626A/zh
Application granted granted Critical
Publication of CN115630626B publication Critical patent/CN115630626B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种数据中心设备日志模板在线提取方法,包括如下步骤:将历史日志序列送入预先设定好的不同线程中;按照降序建立词频表
Figure 130419DEST_PATH_IMAGE001
;将排好序的日志序列构造成链表
Figure 623586DEST_PATH_IMAGE002
;在每个线程中构成多棵FT‑Tree树;将日志模板调整为正常的语序;构成日志模板
Figure 141155DEST_PATH_IMAGE003
;将合并后的日志模板构造成前缀树的形式;在线读取日志序列并记为
Figure 588448DEST_PATH_IMAGE004
,将日志消息分割成单个单词的形式;进一步缩小搜索的范围,形成过渡日志模板
Figure 216876DEST_PATH_IMAGE005
;计算
Figure 364217DEST_PATH_IMAGE004
Figure 52687DEST_PATH_IMAGE005
中每个日志模板的Jaccard相关度系数;判断
Figure 987276DEST_PATH_IMAGE004
与此模板是否完全相同。本申请通过多线程、利用模板前缀树特性和日志字符串数量的特点,使模板提取的实时性和准确性得到了提升。

Description

一种数据中心设备日志模板在线提取方法
技术领域
本申请涉及数据中心数据挖掘领域,尤其涉及一种数据中心设备日志模板在线提取方法。
背景技术
随着现代计算机技术的发展,社会的信息化程度在不断提高,越来越多的领域受到了更为全面的监测与分析。数据中心内存在着大量的网络和计算机设备,这些设备会产生大量的日志记录,这些日志反映了设备的运行信息,是设备状态监控过程中极其有价值的数据资源。为了通过数据挖掘或机器学习的方法对日志记录中所隐含的信息进行挖掘,需要对日志记录进行日志模板提取,将非结构化的信息转换为结构化的信息。
对于日志提取,传统的聚类算法需要较多的历史日志数据,并且只能离线处理,考虑到数据中心设备对在线监控和管理的需求,并且随着设备和软件服务的迭代升级或配置变更,会不断的出现新的日志类型,因此需要一种在线的日志解析方法。
发明内容
本申请实施例针对通过数据挖掘或机器学习的方法对日志记录中所隐含的信息进行挖掘的需求提供一种数据中心设备日志模板在线提取方法,该方法将FT-Tree树的模板提取与Jaccard相关系数相结合,提供了一种在线的日志提取方法,同时,通过多线程、利用模板前缀树特性和日志字符串数量的特点,使模板提取的实时性和准确性得到了提升。
为实现上述目的,本申请提供如下技术方案:
本申请实施例提供一种数据中心设备日志模板在线提取方法,包括如下步骤:
步骤1:读取历史日志数据,根据读入的历史日志首单词不同,将历史日志序列送入预先设定好的不同线程中;
步骤2:在每个线程中,遍历全部历史日志数据,获得各个单词的词频,按照降序建立词频表
Figure 169399DEST_PATH_IMAGE001
步骤3:再次遍历日志数据,依据词频表对每条日志序列进行排序,并将排好序的日志序列构造成链表
Figure 883278DEST_PATH_IMAGE002
,每个链表的第一个节点即是日志序列中出现频次最高的单词;
步骤4:依据各链表之间是否共享前缀,将链表组合成多叉树,并按照每个节点的叶子节点数进行剪枝,当叶子节点的数量大于阈值常量
Figure 229726DEST_PATH_IMAGE003
,就代表此子节点下的叶子节点为参数变量,因此可以将叶子节点全部删去,最终在每个线程中构成多棵FT-Tree树;
步骤5:FT-Tree树是乱序的日志模板类型,然后将日志模板调整为正常的语序;
步骤6:采用多线程的方式并由首个单词决定日志序列分属到某一个线程中时,当首个单词为参数时,可能会出现相同的日志类型因为参数的不同而分到不同的模板中,计算不同线程中日志模板间的Jaccard相似度系数,当相似度系数
Figure 687252DEST_PATH_IMAGE004
大于阈值常量
Figure 236045DEST_PATH_IMAGE005
时,代表这两条模板是相同类型,将这两条日志模板合并,最后构成日志模板
Figure 74819DEST_PATH_IMAGE006
步骤7:将合并后的日志模板构造成前缀树的形式;
步骤8:在线读取日志序列并记为
Figure 404170DEST_PATH_IMAGE007
,将日志消息分割成单个单词的形式;
步骤9:首先在日志模板前缀树中查找消息类型,然后再通过日志序列字符串的长度,进一步缩小搜索的范围,最后剩余的过渡日志模板为
Figure 337491DEST_PATH_IMAGE008
步骤10:计算
Figure 68686DEST_PATH_IMAGE007
Figure 950798DEST_PATH_IMAGE009
中每个日志模板的Jaccard相关度系数,并选取其中的最大值
Figure 439548DEST_PATH_IMAGE010
为候选模板;
步骤11:如果
Figure 238877DEST_PATH_IMAGE010
大于设定的阈值
Figure 824579DEST_PATH_IMAGE005
时,则代表该日志属于此类模板,然后判断
Figure 818205DEST_PATH_IMAGE007
与此模板除参数位置*外是否完全相同,如果相同则不做处理,如果不同,则更新过渡日志模板
Figure 122148DEST_PATH_IMAGE009
,并以此更新日志模板
Figure 194009DEST_PATH_IMAGE006
,如果
Figure 899797DEST_PATH_IMAGE010
小于设定的阈值
Figure 789956DEST_PATH_IMAGE005
时,则将
Figure 581194DEST_PATH_IMAGE007
作为新的模板加入
Figure 519063DEST_PATH_IMAGE006
中,同时更新前缀树。
所述步骤6中对各线程产生的日志模板进行合并的条件是依据Jaccard相关度系数大于预先设定的阈值:
Figure 79358DEST_PATH_IMAGE011
Figure 149207DEST_PATH_IMAGE012
,其中A代表某一线程产生的日志模板,B代表另一线程产生的日志模板,如果此式成立,代表两个线程中的日志模板类似,可以进行合并。
所述步骤10中候选模板的选择中的条件是依据Jaccard相关度系数大于预先设定的阈值:
Figure 834266DEST_PATH_IMAGE013
Figure 513509DEST_PATH_IMAGE014
,其中,
Figure 928310DEST_PATH_IMAGE015
代表新读入的日志序列
Figure 933175DEST_PATH_IMAGE007
Figure 197541DEST_PATH_IMAGE016
代表缩小范围后剩余的过渡日志模板
Figure 414896DEST_PATH_IMAGE017
Figure 949782DEST_PATH_IMAGE018
Figure 391128DEST_PATH_IMAGE019
所对应的
Figure 614561DEST_PATH_IMAGE017
即为候选日志模板类型。
所述步骤9中依据模板前缀树的特性,过滤掉一部分完全不匹配的日志模板后,剩下的日志模板为
Figure 166765DEST_PATH_IMAGE020
,通过计算输入的日志序列的单词个数将其记为
Figure 25000DEST_PATH_IMAGE021
,并与
Figure 371668DEST_PATH_IMAGE022
中的日志模板进行比较,进一步缩小范围。计算
Figure 147643DEST_PATH_IMAGE022
中每一个日志模板的单词个数,记为
Figure 237959DEST_PATH_IMAGE023
,将
Figure 481859DEST_PATH_IMAGE021
Figure 468269DEST_PATH_IMAGE024
进行比较,以此得到最后的过渡日志模板
Figure 197453DEST_PATH_IMAGE009
,满足的条件为:
Figure 825881DEST_PATH_IMAGE025
满足上述条件的
Figure 189866DEST_PATH_IMAGE026
值所对应的
Figure 347178DEST_PATH_IMAGE022
最终组成过渡日志模板
Figure 295149DEST_PATH_IMAGE017
所述步骤11中日志模板的更新采用读取的日志序列
Figure 727267DEST_PATH_IMAGE007
减去
Figure 352283DEST_PATH_IMAGE007
与过渡日志模板
Figure 539551DEST_PATH_IMAGE017
的交集,差集为参数用
Figure 712169DEST_PATH_IMAGE027
表示,最后将差集用*代替:
Figure 682399DEST_PATH_IMAGE028
与现有技术相比,本发明的有益效果是:
1.在FT-Tree树构建日志模板时,通过使用多线程的方式可以同时构建多棵FT-Tree树,然后在生成FT-Tree树后,通过计算不同线程中日志模板间的Jaccard相关系数来进行日志模板的合并,以此解决可能会出现相同的日志类型因为参数的不同而分到不同的模板中这一问题,同时因为采用多线程的方式,大大提高了依据历史日志构建日志模板的速度;
2.通过采用Jaccard相关系数作为相似度度量的准则来判断日志序列所属的日志种类,与LCS和simhash两种方式相比,时间复杂度更低,通过依据模板前缀树和日志字符串的数量能够大大缩小新输入的日志序列和日志模板的比对次数,大大提高了新日志进入后的日志模板的提取速度,更能满足在线提取这一要求;
3.在更新模板时通过采用日志序列减去其与所对应的日志种类的交集的方式,充分利用了Jaccard已经计算出的交集这一数据,提高了日志更新的速率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本申请实施例的方法流程示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
下面结合图1,介绍本申请的一种数据中心设备日志模板在线提取方法,包括以下具体步骤:
步骤1:读取历史日志数据,根据读入的历史日志首单词不同,将历史日志序列送入预先设定好的不同线程中;
步骤2:在每个线程中,遍历全部历史日志数据,获得各个单词的词频,按照降序建立词频表
Figure 489818DEST_PATH_IMAGE029
步骤3:再次遍历日志集合,依据词频表对每条日志序列进行排序,并将排好序的日志序列构造成链表
Figure 520091DEST_PATH_IMAGE030
,每个链表的第一个节点即是日志序列中出现频次最高的单词;
步骤4:依据各链表之间是否共享前缀,将链表组合成多叉树,并按照每个节点的叶子节点数进行剪枝,当叶子节点的数量大于阈值常量
Figure 194653DEST_PATH_IMAGE003
,就代表此子节点下的叶子节点为参数变量,因此可以将叶子节点全部删去,最终在每个线程中构成多棵FT-Tree树;
步骤5:FT-Tree树是乱序的日志模板类型,然后将日志模板调整为正常的语序;
步骤6:采用多线程的方式并由首个单词决定日志序列分属到某一个线程中时,当首个单词为参数时,可能会出现相同的日志类型因为参数的不同而分到不同的模板中,计算不同线程中日志模板间的Jaccard相似度系数,当相似度系数
Figure 968574DEST_PATH_IMAGE004
大于阈值常量
Figure 896079DEST_PATH_IMAGE005
时,代表这两条模板是相同类型,因此将这两条日志模板合并,最后构成日志模板
Figure 893990DEST_PATH_IMAGE006
Jaccard相似度系数的表达式为:
Figure 775621DEST_PATH_IMAGE011
其中A代表某一线程产生的日志模板,B代表另一线程产生的日志模板;
因此两个模板可以合并的条件为:
Figure 87654DEST_PATH_IMAGE012
步骤7:将合并后的日志模板构造成前缀树的形式;
步骤8:在线读取日志序列并记为
Figure 807348DEST_PATH_IMAGE007
,将日志消息分割成单个单词的形式;
步骤9:首先在日志模板前缀树中查找消息类型,然后再通过日志序列字符串的长度,进一步缩小搜索的范围,最后剩余的日志模板称为过渡日志模板
Figure 913844DEST_PATH_IMAGE008
依据模板前缀树的特性,过滤掉一部分完全不匹配的日志模板后,剩下的日志模板为
Figure 843623DEST_PATH_IMAGE020
计算在线读取的日志序列
Figure 457882DEST_PATH_IMAGE007
的单词个数,将其记为
Figure 359979DEST_PATH_IMAGE021
计算
Figure 106218DEST_PATH_IMAGE022
中每一个日志模板的单词个数,记为
Figure 257713DEST_PATH_IMAGE023
;
Figure 678593DEST_PATH_IMAGE021
Figure 169617DEST_PATH_IMAGE024
进行比较,以此得到最后的过渡日志模板
Figure 883495DEST_PATH_IMAGE009
,满足的条件为:
Figure 663232DEST_PATH_IMAGE025
满足上述条件的
Figure 120758DEST_PATH_IMAGE026
值所对应的
Figure 236263DEST_PATH_IMAGE022
最终组成过渡日志模板
Figure 386621DEST_PATH_IMAGE009
步骤10:计算
Figure 450392DEST_PATH_IMAGE007
Figure 508347DEST_PATH_IMAGE009
中每个日志模板的Jaccard相关度系数,并选取其中的最大值
Figure 475428DEST_PATH_IMAGE019
为候选模板,
Figure 531109DEST_PATH_IMAGE019
的表达式为:
Figure 347755DEST_PATH_IMAGE031
其中,
Figure 819188DEST_PATH_IMAGE015
代表新读入的日志序列
Figure 404890DEST_PATH_IMAGE007
Figure 395586DEST_PATH_IMAGE016
代表缩小范围后过渡日志模板
Figure 433950DEST_PATH_IMAGE017
Figure 36969DEST_PATH_IMAGE018
Figure 742757DEST_PATH_IMAGE019
所对应的
Figure 376126DEST_PATH_IMAGE017
即为候选日志模板类型;
步骤11:如果
Figure 167364DEST_PATH_IMAGE019
大于设定的阈值
Figure 308496DEST_PATH_IMAGE005
时,则代表该日志属于此类模板,然后判断
Figure 868790DEST_PATH_IMAGE007
与此模板除参数位置*外是否完全相同,如果相同则不做处理,如果不同,则更新过渡日志模板
Figure 726588DEST_PATH_IMAGE009
,并以此更新日志模板
Figure 5123DEST_PATH_IMAGE006
,如果
Figure 949945DEST_PATH_IMAGE019
小于设定的阈值
Figure 364746DEST_PATH_IMAGE005
时,则将
Figure 871076DEST_PATH_IMAGE007
作为新的模板加入
Figure 371327DEST_PATH_IMAGE006
中,同时更新前缀树;
日志模板的更新采用读取的日志序列
Figure 588682DEST_PATH_IMAGE007
减去
Figure 123568DEST_PATH_IMAGE007
与过渡日志模板
Figure 705860DEST_PATH_IMAGE017
的交集,差集为参数用
Figure 519838DEST_PATH_IMAGE027
表示,最后将差集用*代替,如果*连续出现,则将其合并为1个:
Figure 478567DEST_PATH_IMAGE032
为了验证此方法的有效性,采用数据中心交换机和服务器的2000条日志数据,如表1所示,对此方法进行了验证。
表1原始日志数据
Figure 867960DEST_PATH_IMAGE033
读取表1日志数据,根据读入的日志首单词不同,将日志序列送入预先设定好的不同线程中,采用FT-Tree树进行模板构建,在表2和表3中展示了表1所列举出的日志序列的模板:
表2线程1产生的日志模板
Figure 214628DEST_PATH_IMAGE035
表3线程2产生的日志模板
Figure 190936DEST_PATH_IMAGE037
计算不同线程中日志模板间的Jaccard相似度系数,将不同线程产生的日志模板进行合并,在表4中展示了表1所列举出的日志序列的模板:
表4合并后的日志模板
Figure 15673DEST_PATH_IMAGE039
在线读取日志SWITCHINGENGINEMAN-6-Itest: (Suppressed 105 times)IPP LLCfreelistBelowHiPriorityThreshold input : 3106序列后,将其与日志模板进行匹配,因算得的
Figure 993993DEST_PATH_IMAGE019
大于阈值
Figure 511562DEST_PATH_IMAGE005
,且该日志序列与日志模板除参数位置*外并不完全相同,因此对日志模板进行更新,在表5中展示了表1所列举出的日志序列的模板:
日志模板如表5所示:
Figure 774834DEST_PATH_IMAGE040
相较于现有技术,本发明提出一种数据中心设备日志模板在线提取方法。通过依据日志首单词的不同在多个线程下利用FT-Tree算法对已经存在的历史日志进行日志模板的构建;通过依据模板前缀树和日志字符串的数量来减少日志序列和日志模板的比对次数;通过Jaccard相似性度量算法来判断日志序列所属的日志种类,然后通过日志序列减去其与所对应的日志种类的交集,进行日志模板的更新。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (5)

1.一种数据中心设备日志模板在线提取方法,其特征在于,包括如下步骤:
步骤1:读取历史日志数据,根据读入的历史日志首单词不同,将历史日志序列送入预先设定好的不同线程中;
步骤2:在每个线程中,遍历全部历史日志数据,获得各个单词的词频,按照降序建立词频表
Figure 485166DEST_PATH_IMAGE001
;
步骤3:再次遍历日志数据,依据词频表对每条日志序列进行排序,并将排好序的日志序列构造成链表
Figure 898961DEST_PATH_IMAGE002
,每个链表的第一个节点即是日志序列中出现频次最高的单词;
步骤4:依据各链表之间是否共享前缀,将链表组合成多叉树,并按照每个节点的叶子节点数进行剪枝,当叶子节点的数量大于阈值常量
Figure 96724DEST_PATH_IMAGE003
,就代表此子节点下的叶子节点为参数变量,因此可以将叶子节点全部删去,最终在每个线程中构成多棵FT-Tree树;
步骤5:FT-Tree树是乱序的日志模板类型,然后将日志模板调整为正常的语序;
步骤6:采用多线程的方式并由首个单词决定日志序列分属到某一个线程中时,当首个单词为参数时,可能会出现相同的日志类型因为参数的不同而分到不同的模板中,计算不同线程中日志模板间的Jaccard相似度系数,当相似度系数
Figure 503434DEST_PATH_IMAGE004
大于阈值常量
Figure 781838DEST_PATH_IMAGE005
时,代表这两条模板是相同类型,将这两条日志模板合并,最后构成日志模板
Figure 615802DEST_PATH_IMAGE006
步骤7:将合并后的日志模板构造成前缀树的形式;
步骤8:在线读取日志序列并记为
Figure 176227DEST_PATH_IMAGE007
,将日志消息分割成单个单词的形式;
步骤9:首先在日志模板前缀树中查找消息类型,然后再通过日志序列字符串的长度,进一步缩小搜索的范围,最后剩余的日志模板称为过渡日志模板
Figure 855470DEST_PATH_IMAGE008
步骤10:计算
Figure 534187DEST_PATH_IMAGE007
Figure 211156DEST_PATH_IMAGE009
中每个日志模板的Jaccard相关度系数,并选取其中的最大值
Figure 711407DEST_PATH_IMAGE010
为候选模板;
步骤11:如果
Figure 945074DEST_PATH_IMAGE010
大于设定的阈值
Figure 214381DEST_PATH_IMAGE005
时,则代表该日志属于此类模板,然后判断
Figure 436153DEST_PATH_IMAGE011
与此模板除参数位置*外是否完全相同,如果相同则不做处理,如果不同,则更新过渡日志模板
Figure 158121DEST_PATH_IMAGE009
,并以此更新日志模板
Figure 195478DEST_PATH_IMAGE012
,如果
Figure 256975DEST_PATH_IMAGE010
小于设定的阈值
Figure 338064DEST_PATH_IMAGE005
时,则将
Figure 799526DEST_PATH_IMAGE011
作为新的模板加入
Figure 889841DEST_PATH_IMAGE012
中,同时更新前缀树。
2.根据权利要求1所述的一种数据中心设备日志模板在线提取方法,其特征在于,所述步骤6中对各线程产生的日志模板进行合并的条件是依据Jaccard相关度系数大于预先设定的阈值:
Figure DEST_PATH_IMAGE013
Figure 946790DEST_PATH_IMAGE014
,其中A代表某一线程产生的日志模板,B代表另一线程产生的日志模板,如果此式成立,代表两个线程中的日志模板类似,可以进行合并。
3.根据权利要求1所述的一种数据中心设备日志模板在线提取方法,其特征在于,所述步骤10中候选模板的选择中的条件是依据Jaccard相关度系数大于预先设定的阈值:
Figure 510364DEST_PATH_IMAGE015
Figure 285554DEST_PATH_IMAGE016
,其中,
Figure 166178DEST_PATH_IMAGE017
代表新读入的日志序列
Figure 326901DEST_PATH_IMAGE007
Figure 766104DEST_PATH_IMAGE018
代表缩小范围后剩余的过渡日志模板
Figure 949961DEST_PATH_IMAGE019
Figure 365767DEST_PATH_IMAGE020
所对应的
Figure 256363DEST_PATH_IMAGE019
为候选日志模板类型。
4.根据权利要求1所述的一种数据中心设备日志模板在线提取方法,其特征在于,所述步骤9中依据模板前缀树的特性,过滤掉一部分完全不匹配的日志模板后,剩下的日志模板为
Figure 115734DEST_PATH_IMAGE021
,通过计算输入的日志序列的单词个数将其记为
Figure 272040DEST_PATH_IMAGE022
,并与
Figure 242270DEST_PATH_IMAGE023
中的日志模板进行比较,进一步缩小范围;
计算
Figure 364204DEST_PATH_IMAGE023
中每一个日志模板的单词个数,记为
Figure 128897DEST_PATH_IMAGE024
,将
Figure 38079DEST_PATH_IMAGE022
Figure 812000DEST_PATH_IMAGE025
进行比较,以此得到最后的过渡日志模板
Figure 681780DEST_PATH_IMAGE009
,满足的条件为:
Figure 603993DEST_PATH_IMAGE026
满足上述条件的
Figure 249738DEST_PATH_IMAGE027
值所对应的
Figure 578083DEST_PATH_IMAGE023
最终组成过渡日志模板
Figure 94515DEST_PATH_IMAGE009
5.根据权利要求1所述的一种数据中心设备日志模板在线提取方法,其特征在于,所述步骤11中日志模板的更新采用读取的日志序列
Figure 715858DEST_PATH_IMAGE007
减去
Figure 848899DEST_PATH_IMAGE007
与过渡日志模板
Figure 512092DEST_PATH_IMAGE019
的交集,差集为参数用
Figure 414189DEST_PATH_IMAGE028
表示,最后将差集用*代替:
Figure 943784DEST_PATH_IMAGE029
CN202211460190.6A 2022-11-17 2022-11-17 一种数据中心设备日志模板在线提取方法 Active CN115630626B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211460190.6A CN115630626B (zh) 2022-11-17 2022-11-17 一种数据中心设备日志模板在线提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211460190.6A CN115630626B (zh) 2022-11-17 2022-11-17 一种数据中心设备日志模板在线提取方法

Publications (2)

Publication Number Publication Date
CN115630626A true CN115630626A (zh) 2023-01-20
CN115630626B CN115630626B (zh) 2023-02-28

Family

ID=84910812

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211460190.6A Active CN115630626B (zh) 2022-11-17 2022-11-17 一种数据中心设备日志模板在线提取方法

Country Status (1)

Country Link
CN (1) CN115630626B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170300532A1 (en) * 2014-09-23 2017-10-19 Hewlett Packard Enterprise Development Lp Event log analysis
CN112560407A (zh) * 2020-12-18 2021-03-26 上海中畅数据技术有限公司 一种在线提取计算机软件日志模板的方法
CN113128213A (zh) * 2019-12-30 2021-07-16 华为技术有限公司 日志模板提取方法及装置
US11080294B1 (en) * 2021-02-03 2021-08-03 Adlumin, Inc. Systems and methods for data analytics
US20210349895A1 (en) * 2020-05-05 2021-11-11 International Business Machines Corporation Automatic online log template mining
US11243834B1 (en) * 2020-11-16 2022-02-08 International Business Machines Corporation Log parsing template generation
CN114637989A (zh) * 2022-03-21 2022-06-17 西安电子科技大学 基于分布式系统的apt攻击追溯方法、系统及存储介质
CN114969241A (zh) * 2022-05-26 2022-08-30 武汉大学 一种基于rnn神经网络和倒排索引的日志自动化解析方法
CN115017268A (zh) * 2022-08-04 2022-09-06 北京航空航天大学 一种基于树结构的启发式日志抽取方法及系统
CN115344538A (zh) * 2022-08-25 2022-11-15 广东浪潮智慧计算技术有限公司 一种日志处理方法、装置、设备及可读存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170300532A1 (en) * 2014-09-23 2017-10-19 Hewlett Packard Enterprise Development Lp Event log analysis
CN113128213A (zh) * 2019-12-30 2021-07-16 华为技术有限公司 日志模板提取方法及装置
US20210349895A1 (en) * 2020-05-05 2021-11-11 International Business Machines Corporation Automatic online log template mining
US11243834B1 (en) * 2020-11-16 2022-02-08 International Business Machines Corporation Log parsing template generation
CN112560407A (zh) * 2020-12-18 2021-03-26 上海中畅数据技术有限公司 一种在线提取计算机软件日志模板的方法
US11080294B1 (en) * 2021-02-03 2021-08-03 Adlumin, Inc. Systems and methods for data analytics
CN114637989A (zh) * 2022-03-21 2022-06-17 西安电子科技大学 基于分布式系统的apt攻击追溯方法、系统及存储介质
CN114969241A (zh) * 2022-05-26 2022-08-30 武汉大学 一种基于rnn神经网络和倒排索引的日志自动化解析方法
CN115017268A (zh) * 2022-08-04 2022-09-06 北京航空航天大学 一种基于树结构的启发式日志抽取方法及系统
CN115344538A (zh) * 2022-08-25 2022-11-15 广东浪潮智慧计算技术有限公司 一种日志处理方法、装置、设备及可读存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
S. DE AND B. CHAKRABORTY: "Case Based Reasoning (CBR) Methodology for Car Fault Diagnosis System (CFDS) Using Decision Tree and Jaccard Similarity Method" *
于凯等: "一种基于加权Jaccard距离的决策树集成选择方法" *
袁昊等: "基于电力系统日志的模板提取研究" *
詹伟等: "基于日志智能分析的监测报警系统" *

Also Published As

Publication number Publication date
CN115630626B (zh) 2023-02-28

Similar Documents

Publication Publication Date Title
CN110413780B (zh) 文本情感分析方法和电子设备
Lockard et al. Ceres: Distantly supervised relation extraction from the semi-structured web
CN110162591B (zh) 一种面向数字教育资源的实体对齐方法及系统
US8073849B2 (en) Method and system for constructing data tag based on a concept relation network
CN111597347A (zh) 知识嵌入的缺陷报告重构方法及装置
US10387805B2 (en) System and method for ranking news feeds
CN108268600A (zh) 基于ai的非结构化数据管理方法及装置
CN112579414B (zh) 日志异常检测方法及装置
US20190228085A1 (en) Log file pattern identifier
CN107463548A (zh) 短语挖掘方法及装置
US20060184474A1 (en) Data analysis apparatus, data analysis program, and data analysis method
CN112307153A (zh) 一种产业知识库自动构建方法、装置及存储介质
CN110688593A (zh) 一种社交媒体账号识别方法及系统
KR20200098381A (ko) 콘텐츠를 검색하는 방법, 장치, 기기 및 저장 매체
CN115630626B (zh) 一种数据中心设备日志模板在线提取方法
CN108197295B (zh) 基于多粒度属性树的属性约简在文本分类中的应用方法
US20080027706A1 (en) Lightweight windowing method for screening harvested data for novelty
CN106649583A (zh) 一种基于sas的图书借阅数据关联规则分析方法
CN113553844A (zh) 一种基于前缀树特征与卷积神经网络的领域识别方法
CN111538839A (zh) 一种基于杰卡德距离的实时文本聚类方法
CN111597322A (zh) 基于频繁项集的模板自动挖掘系统及其方法
CN116860977B (zh) 一种面向矛盾纠纷调解的异常检测系统及方法
Wang et al. Record linkage using the combination of twice iterative SVM training and controllable manual review
Lotfi et al. Scalable decision tree based on fuzzy partitioning and an incremental approach
Maw An improvement of FP-growth mining algorithm using linked list

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant