CN115630626B - 一种数据中心设备日志模板在线提取方法 - Google Patents
一种数据中心设备日志模板在线提取方法 Download PDFInfo
- Publication number
- CN115630626B CN115630626B CN202211460190.6A CN202211460190A CN115630626B CN 115630626 B CN115630626 B CN 115630626B CN 202211460190 A CN202211460190 A CN 202211460190A CN 115630626 B CN115630626 B CN 115630626B
- Authority
- CN
- China
- Prior art keywords
- log
- template
- templates
- sequence
- log template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
技术领域
本申请涉及数据中心数据挖掘领域,尤其涉及一种数据中心设备日志模板在线提取方法。
背景技术
随着现代计算机技术的发展,社会的信息化程度在不断提高,越来越多的领域受到了更为全面的监测与分析。数据中心内存在着大量的网络和计算机设备,这些设备会产生大量的日志记录,这些日志反映了设备的运行信息,是设备状态监控过程中极其有价值的数据资源。为了通过数据挖掘或机器学习的方法对日志记录中所隐含的信息进行挖掘,需要对日志记录进行日志模板提取,将非结构化的信息转换为结构化的信息。
对于日志提取,传统的聚类算法需要较多的历史日志数据,并且只能离线处理,考虑到数据中心设备对在线监控和管理的需求,并且随着设备和软件服务的迭代升级或配置变更,会不断的出现新的日志类型,因此需要一种在线的日志解析方法。
发明内容
本申请实施例针对通过数据挖掘或机器学习的方法对日志记录中所隐含的信息进行挖掘的需求提供一种数据中心设备日志模板在线提取方法,该方法将FT-Tree树的模板提取与Jaccard相关系数相结合,提供了一种在线的日志提取方法,同时,通过多线程、利用模板前缀树特性和日志字符串数量的特点,使模板提取的实时性和准确性得到了提升。
为实现上述目的,本申请提供如下技术方案:
本申请实施例提供一种数据中心设备日志模板在线提取方法,包括如下步骤:
步骤1:读取历史日志数据,根据读入的历史日志首单词不同,将历史日志序列送入预先设定好的不同线程中;
步骤4:依据各链表之间是否共享前缀,将链表组合成多叉树,并按照每个节点的叶子节点数进行剪枝,当叶子节点的数量大于阈值常量,就代表此子节点下的叶子节点为参数变量,因此可以将叶子节点全部删去,最终在每个线程中构成多棵FT-Tree树;
步骤5:FT-Tree树是乱序的日志模板类型,然后将日志模板调整为正常的语序;
步骤6:采用多线程的方式并由首个单词决定日志序列分属到某一个线程中时,当首个单词为参数时,可能会出现相同的日志类型因为参数的不同而分到不同的模板中,计算不同线程中日志模板间的Jaccard相似度系数,当相似度系数大于阈值常量时,代表这两条模板是相同类型,将这两条日志模板合并,最后构成日志模板;
步骤7:将合并后的日志模板构造成前缀树的形式;
步骤11:如果大于设定的阈值时,则代表该日志属于此类模板,然后判断与此模板除参数位置*外是否完全相同,如果相同则不做处理,如果不同,则更新过渡日志模板,并以此更新日志模板,如果小于设定的阈值时,则将作为新的模板加入中,同时更新前缀树。
所述步骤6中对各线程产生的日志模板进行合并的条件是依据Jaccard相关度系数大于预先设定的阈值:
所述步骤10中候选模板的选择中的条件是依据Jaccard相关度系数大于预先设定的阈值:
所述步骤9中依据模板前缀树的特性,过滤掉一部分完全不匹配的日志模板后,剩下的日志模板为,通过计算输入的日志序列的单词个数将其记为,并与中的日志模板进行比较,进一步缩小范围。计算中每一个日志模板的单词个数,记为,将与进行比较,以此得到最后的过渡日志模板,满足的条件为:
与现有技术相比,本发明的有益效果是:
1.在FT-Tree树构建日志模板时,通过使用多线程的方式可以同时构建多棵FT-Tree树,然后在生成FT-Tree树后,通过计算不同线程中日志模板间的Jaccard相关系数来进行日志模板的合并,以此解决可能会出现相同的日志类型因为参数的不同而分到不同的模板中这一问题,同时因为采用多线程的方式,大大提高了依据历史日志构建日志模板的速度;
2.通过采用Jaccard相关系数作为相似度度量的准则来判断日志序列所属的日志种类,与LCS和simhash两种方式相比,时间复杂度更低,通过依据模板前缀树和日志字符串的数量能够大大缩小新输入的日志序列和日志模板的比对次数,大大提高了新日志进入后的日志模板的提取速度,更能满足在线提取这一要求;
3.在更新模板时通过采用日志序列减去其与所对应的日志种类的交集的方式,充分利用了Jaccard已经计算出的交集这一数据,提高了日志更新的速率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本申请实施例的方法流程示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
下面结合图1,介绍本申请的一种数据中心设备日志模板在线提取方法,包括以下具体步骤:
步骤1:读取历史日志数据,根据读入的历史日志首单词不同,将历史日志序列送入预先设定好的不同线程中;
步骤4:依据各链表之间是否共享前缀,将链表组合成多叉树,并按照每个节点的叶子节点数进行剪枝,当叶子节点的数量大于阈值常量,就代表此子节点下的叶子节点为参数变量,因此可以将叶子节点全部删去,最终在每个线程中构成多棵FT-Tree树;
步骤5:FT-Tree树是乱序的日志模板类型,然后将日志模板调整为正常的语序;
步骤6:采用多线程的方式并由首个单词决定日志序列分属到某一个线程中时,当首个单词为参数时,可能会出现相同的日志类型因为参数的不同而分到不同的模板中,计算不同线程中日志模板间的Jaccard相似度系数,当相似度系数大于阈值常量时,代表这两条模板是相同类型,因此将这两条日志模板合并,最后构成日志模板:
Jaccard相似度系数的表达式为:
其中A代表某一线程产生的日志模板,B代表另一线程产生的日志模板;
因此两个模板可以合并的条件为:
步骤7:将合并后的日志模板构造成前缀树的形式;
步骤11:如果大于设定的阈值时,则代表该日志属于此类模板,然后判断与此模板除参数位置*外是否完全相同,如果相同则不做处理,如果不同,则更新过渡日志模板,并以此更新日志模板,如果小于设定的阈值时,则将作为新的模板加入中,同时更新前缀树;
为了验证此方法的有效性,采用数据中心交换机和服务器的2000条日志数据,如表1所示,对此方法进行了验证。
表1原始日志数据
读取表1日志数据,根据读入的日志首单词不同,将日志序列送入预先设定好的不同线程中,采用FT-Tree树进行模板构建,在表2和表3中展示了表1所列举出的日志序列的模板:
表2线程1产生的日志模板
表3线程2产生的日志模板
计算不同线程中日志模板间的Jaccard相似度系数,将不同线程产生的日志模板进行合并,在表4中展示了表1所列举出的日志序列的模板:
表4合并后的日志模板
在线读取日志SWITCHINGENGINEMAN-6-Itest: (Suppressed 105 times)IPP LLCfreelistBelowHiPriorityThreshold input : 3106序列后,将其与日志模板进行匹配,因算得的大于阈值,且该日志序列与日志模板除参数位置*外并不完全相同,因此对日志模板进行更新,在表5中展示了表1所列举出的日志序列的模板:
日志模板如表5所示:
相较于现有技术,本发明提出一种数据中心设备日志模板在线提取方法。通过依据日志首单词的不同在多个线程下利用FT-Tree算法对已经存在的历史日志进行日志模板的构建;通过依据模板前缀树和日志字符串的数量来减少日志序列和日志模板的比对次数;通过Jaccard相似性度量算法来判断日志序列所属的日志种类,然后通过日志序列减去其与所对应的日志种类的交集,进行日志模板的更新。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (5)
1.一种数据中心设备日志模板在线提取方法,其特征在于,包括如下步骤:
步骤1:读取历史日志数据,根据读入的历史日志首单词不同,将历史日志序列送入预先设定好的不同线程中;
步骤4:依据各链表之间是否共享前缀,将链表组合成多叉树,并按照每个节点的叶子节点数进行剪枝,当叶子节点的数量大于阈值常量,就代表此子节点下的叶子节点为参数变量,因此可以将叶子节点全部删去,最终在每个线程中构成多棵FT-Tree树;
步骤5:FT-Tree树是乱序的日志模板类型,然后将日志模板调整为正常的语序;
步骤6:采用多线程的方式并由首个单词决定日志序列分属到某一个线程中时,当首个单词为参数时,可能会出现相同的日志类型因为参数的不同而分到不同的模板中,计算不同线程中日志模板间的Jaccard相似度系数,当相似度系数大于阈值常量时,代表这两条模板是相同类型,将这两条日志模板合并,最后构成日志模板;
步骤7:将合并后的日志模板构造成前缀树的形式;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211460190.6A CN115630626B (zh) | 2022-11-17 | 2022-11-17 | 一种数据中心设备日志模板在线提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211460190.6A CN115630626B (zh) | 2022-11-17 | 2022-11-17 | 一种数据中心设备日志模板在线提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115630626A CN115630626A (zh) | 2023-01-20 |
CN115630626B true CN115630626B (zh) | 2023-02-28 |
Family
ID=84910812
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211460190.6A Active CN115630626B (zh) | 2022-11-17 | 2022-11-17 | 一种数据中心设备日志模板在线提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115630626B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560407A (zh) * | 2020-12-18 | 2021-03-26 | 上海中畅数据技术有限公司 | 一种在线提取计算机软件日志模板的方法 |
CN113128213A (zh) * | 2019-12-30 | 2021-07-16 | 华为技术有限公司 | 日志模板提取方法及装置 |
US11080294B1 (en) * | 2021-02-03 | 2021-08-03 | Adlumin, Inc. | Systems and methods for data analytics |
US11243834B1 (en) * | 2020-11-16 | 2022-02-08 | International Business Machines Corporation | Log parsing template generation |
CN114637989A (zh) * | 2022-03-21 | 2022-06-17 | 西安电子科技大学 | 基于分布式系统的apt攻击追溯方法、系统及存储介质 |
CN114969241A (zh) * | 2022-05-26 | 2022-08-30 | 武汉大学 | 一种基于rnn神经网络和倒排索引的日志自动化解析方法 |
CN115017268A (zh) * | 2022-08-04 | 2022-09-06 | 北京航空航天大学 | 一种基于树结构的启发式日志抽取方法及系统 |
CN115344538A (zh) * | 2022-08-25 | 2022-11-15 | 广东浪潮智慧计算技术有限公司 | 一种日志处理方法、装置、设备及可读存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016048283A1 (en) * | 2014-09-23 | 2016-03-31 | Hewlett Packard Enterprise Development Lp | Event log analysis |
US20210349895A1 (en) * | 2020-05-05 | 2021-11-11 | International Business Machines Corporation | Automatic online log template mining |
-
2022
- 2022-11-17 CN CN202211460190.6A patent/CN115630626B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128213A (zh) * | 2019-12-30 | 2021-07-16 | 华为技术有限公司 | 日志模板提取方法及装置 |
US11243834B1 (en) * | 2020-11-16 | 2022-02-08 | International Business Machines Corporation | Log parsing template generation |
CN112560407A (zh) * | 2020-12-18 | 2021-03-26 | 上海中畅数据技术有限公司 | 一种在线提取计算机软件日志模板的方法 |
US11080294B1 (en) * | 2021-02-03 | 2021-08-03 | Adlumin, Inc. | Systems and methods for data analytics |
CN114637989A (zh) * | 2022-03-21 | 2022-06-17 | 西安电子科技大学 | 基于分布式系统的apt攻击追溯方法、系统及存储介质 |
CN114969241A (zh) * | 2022-05-26 | 2022-08-30 | 武汉大学 | 一种基于rnn神经网络和倒排索引的日志自动化解析方法 |
CN115017268A (zh) * | 2022-08-04 | 2022-09-06 | 北京航空航天大学 | 一种基于树结构的启发式日志抽取方法及系统 |
CN115344538A (zh) * | 2022-08-25 | 2022-11-15 | 广东浪潮智慧计算技术有限公司 | 一种日志处理方法、装置、设备及可读存储介质 |
Non-Patent Citations (4)
Title |
---|
S. De and B. Chakraborty.Case Based Reasoning (CBR) Methodology for Car Fault Diagnosis System (CFDS) Using Decision Tree and Jaccard Similarity Method.2018,第1-6页. * |
于凯等.一种基于加权Jaccard距离的决策树集成选择方法.2020,第33卷(第2期),第204-211页. * |
袁昊等.基于电力系统日志的模板提取研究.2019,第17卷(第8期),第37-41页. * |
詹伟等.基于日志智能分析的监测报警系统.2013,第11卷(第6期),第51-55页. * |
Also Published As
Publication number | Publication date |
---|---|
CN115630626A (zh) | 2023-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110413780B (zh) | 文本情感分析方法和电子设备 | |
Lockard et al. | Ceres: Distantly supervised relation extraction from the semi-structured web | |
US8073849B2 (en) | Method and system for constructing data tag based on a concept relation network | |
CN109408578B (zh) | 一种针对异构环境监测数据融合方法 | |
US10387805B2 (en) | System and method for ranking news feeds | |
CN111597347A (zh) | 知识嵌入的缺陷报告重构方法及装置 | |
CN112579414B (zh) | 日志异常检测方法及装置 | |
Raś et al. | From data to classification rules and actions | |
CN111190968A (zh) | 基于知识图谱的数据预处理和内容推荐方法 | |
CN111860981B (zh) | 一种基于lstm深度学习的企业国民行业类别预测方法及系统 | |
CN113626400A (zh) | 基于日志树和解析树的日志事件提取方法及系统 | |
CN114168608A (zh) | 一种用于更新知识图谱的数据处理系统 | |
CN113918733A (zh) | 一种获取目标知识图谱的数据处理系统 | |
KR20200098381A (ko) | 콘텐츠를 검색하는 방법, 장치, 기기 및 저장 매체 | |
CN115630626B (zh) | 一种数据中心设备日志模板在线提取方法 | |
CN115982390B (zh) | 一种产业链构建和迭代扩充开发方法 | |
US8069032B2 (en) | Lightweight windowing method for screening harvested data for novelty | |
CN116841779A (zh) | 异常日志检测方法、装置、电子设备和可读存储介质 | |
CN108197295B (zh) | 基于多粒度属性树的属性约简在文本分类中的应用方法 | |
US20160085760A1 (en) | Method for in-loop human validation of disambiguated features | |
CN113553844A (zh) | 一种基于前缀树特征与卷积神经网络的领域识别方法 | |
CN114118078A (zh) | 制作辅助装置、制作辅助方法及记录介质 | |
JP2004013726A (ja) | キーワード抽出装置および情報検索装置 | |
CN111597322A (zh) | 基于频繁项集的模板自动挖掘系统及其方法 | |
CN111552862A (zh) | 基于交叉支持度评价的模板自动挖掘系统及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |