CN110879802A - 一种日志模式提取及匹配方法 - Google Patents

一种日志模式提取及匹配方法 Download PDF

Info

Publication number
CN110879802A
CN110879802A CN201911031213.XA CN201911031213A CN110879802A CN 110879802 A CN110879802 A CN 110879802A CN 201911031213 A CN201911031213 A CN 201911031213A CN 110879802 A CN110879802 A CN 110879802A
Authority
CN
China
Prior art keywords
log
historical
data
statement
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911031213.XA
Other languages
English (en)
Inventor
杨恺
谢雨霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201911031213.XA priority Critical patent/CN110879802A/zh
Publication of CN110879802A publication Critical patent/CN110879802A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种日志模式提取及匹配方法,包括以下步骤:步骤S1:清洗历史日志数据,得到清洗后历史日志数据;步骤S2:对清洗后历史日志数据进行预处理,得到预处理后历史日志数据;步骤S3:基于预处理后历史日志数据,得到历史词向量;步骤S4:将历史词向量输入孪生LSTM网络,提取日志模式;步骤S5:基于待匹配日志数据、日志模式和孪生LSTM网络,进行待匹配日志数据的日志模式匹配。与现有技术相比,减少了日志分析的数据量,提高日志模式提取效率,提高了日志模式匹配效率,有效提高日志模式提取结果的可靠性和日志模式匹配结果的可靠性。

Description

一种日志模式提取及匹配方法
技术领域
本发明涉及数据挖掘领域,尤其是涉及一种日志模式提取及匹配方法。
背景技术
现如今,信息系统的规模及其复杂度的增长趋势极其明显,系统运维所面临的挑战日益严峻,所需的人力成本与物力成本不断增加,严重时甚至会超过系统本身的构建成本。而对于系统的运行维护主要通过持续监控和分析系统日志,性能计数器和应用程序资源使用模式,评估系统运行状况并确定性能变化。主要依靠的是系统产生的各类运行状态记录数据,常见的有性能计数器定期产生的性能指标记录数据,如KPI数据,实时产生的系统日志,如事件日志数据等。如何更好的利用系统产生的运行状态记录数据来实时地把握系统的运行情况,可以有效地节约运维成本,提高系统本身的可靠性和效率,并且实现智能化的运维过程。对于日志数据的有效分析可以非常有效地帮助系统运维人员来了解系统的运行状态,针对日志数据的分析可以实现对于系统的异常检测、预测以及原因分析,而这些工作都离不开对于日志数据本身的有效处理,常规的处理就包括有:日志解析、日志模式提取及匹配、日志特征提取、日志向量化等。其中对于日志数据的模式提取及匹配是非常必要的,考虑以下几个因素:1)日志数据量庞大,若不进行模式的提取和匹配,会严重影响运维的实时性和高效性;2)日志类型不一,若不进行模式的提取和匹配,会严重影响运维的准确性和可扩展性。
现有的日志模式提取和匹配主要包括两大类,分别是基于正则表达式的模式提取和匹配,基于距离的聚类算法实现模式提取和匹配。传统的基于正则匹配获取模式的方法有着很大的局限性,因为正则表达式的书写需要非常完善的领域知识和实际工程经验,同时正则表达式的书写十分依赖当前分析的系统的日志形式,由于不同的系统,日志的表现形式有着较大的差别,因此正则表达式的方式可扩展性较差,并且正则表达式书写很容易出错导致模式提取结果不可靠,从而影响后续的分析过程。传统的基于简单距离计算获取模式的方法,由于日志数据本身的形式多样化,简单的依靠距离计算会导致聚类结果不可靠,模式归类效果较差。
现目前实际运维当中借助传统方法进行日志模式提取和匹配的较多,涉及深度学习方法的则显得较为稀缺。但是由于深度学习方法的高性能,一直受到运维人员和领域研究人员的持续关注,如何有效把深度学习方法应用到日志数据的模式提取和匹配当中有着重要的意义,所以一直是研究和应用的热点和难点。
发明内容
本发明的目的就是为了克服上述现有技术存在日志模式提取及匹配效率低、结果不可靠的缺陷而提供一种基于深度孪生神经网络的日志模式提取及匹配方法。
本发明的目的可以通过以下技术方案来实现:
一种日志模式提取方法,该方法包括以下步骤:
步骤S1:清洗历史日志数据,得到清洗后历史日志数据;
步骤S2:对清洗后历史日志数据进行预处理,得到预处理后历史日志数据;
步骤S3:基于预处理后历史日志数据,得到历史词向量;
步骤S4:将历史词向量输入孪生LSTM网络,提取日志模式。
所述的预处理包括变量替换和分词处理。
所述的步骤S3将预处理后历史日志数据输入word2vec模型,得到历史词向量。
所述的步骤S4包括:
步骤S41:将历史词向量按出现在日志语句中的顺序排序,得到日志语句向量;
步骤S42:将两条日志语句的日志语句向量分别输入孪生LSTM网络的左子网络和右子网络,得到两条日志语句的表征结果M1和M2
步骤S43:判断两条日志语句是否合并簇,若是,提取该合并簇的日志模式,若否,分别提取两条日志语句所在簇的日志模式;
步骤S44:重复步骤S42至步骤S43,直到穷尽所有的日志语句。
所述的步骤S43中通过相似度函数判断两条日志语句是否合并簇,所述相似度函数为曼哈顿距离函数。
所述的步骤S3中采用MapReduce框架得到历史词向量,步骤S4中采用MapReduce框架提取日志模式。
所述的MapReduce框架基于Hadoop架构。
一种日志模式匹配方法,基于所述的日志模式和孪生LSTM网络,进行待匹配日志数据的日志模式匹配。
所述的日志模式匹配方法包括:
基于待匹配日志数据,得到待匹配日志语句的日志语句向量;
将待匹配日志语句的日志语句向量和日志模式对应的日志语句向量分别输入孪生LSTM网络的左子网络和右子网络,进行待匹配日志数据的日志模式匹配。
与现有技术相比,本发明具有以下优点:
(1)运用孪生LSTM网络,实现了日志信息的聚类,减少了日志分析的数据量,提高日志模式提取效率,进而提高日志模式匹配效率;基于深度学习,有效提高日志模式提取结果的可靠性和日志模式匹配结果的可靠性。
(2)可以借助孪生LSTM网络对出现的待匹配日志数据进行统一的向量化处理,中间的聚类结果及日志模式提取结果可以直接用于帮助运维人员进行后续的日志分析,如异常检测等。
(3)基于Hadoop架构和MapReduce的框架,将孪生LSTM网络进行分布式部署,从而加快日志模式提取的过程。
附图说明
图1为本发明的总流程图;
图2为本发明的孪生LSTM网络结构示意图;
图3为本发明的日志模式提取流程图;
图4为本发明的日志模式匹配流程图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例
本实施例提供一种日志模式提取及匹配方法,如图1所示,包括以下步骤:
步骤S1:清洗历史日志数据,得到清洗后历史日志数据;
步骤S2:对清洗后历史日志数据进行预处理,得到预处理后历史日志数据;
步骤S3:基于预处理后历史日志数据,得到历史词向量;
步骤S4:将历史词向量输入孪生LSTM网络,提取日志模式;
日志模式的匹配是基于日志模式提取方法得到的日志模式和孪生LSTM网络,进行待匹配日志数据的日志模式匹配。
具体而言:
1)提取日志模式
如图3所示,对于系统内出现的所有组件的历史日志数据,先将其逐条扫描,进行简单的数据清洗工作,然后进行变量替换和分词处理,将处理之后的预处理后历史日志数据通过预训练的word2vec模型转化成维度相等的历史词向量,此处表示为vi,下标i用于区分不同的日志词向量,对应的一条包含词数为n的日志语句就变成多个向量的组合,表示为(v1,v3,v4,...,vn),称为该日志语句的日志语句向量。将一条日志语句的日志语句向量输入到孪生LSTM网络的左子网络中,表示为Input1,孪生LSTM网络的右子网络输入另一条日志语句的日志语句向量,表示为Input2,然后取孪生LSTM网络最后的输出向量M1和M2作为每条日志语句的表征结果,进一步引入相似度函数来计算M1和M2的差异,即Similarity(M1,M2),从而判断是否需要将输入的两条日志语句合并到同一簇当中,若需要合并,提取该合并簇的日志模式,若无法合并,分别提取两条日志语句所在簇的日志模式;重复日志语句向量输入孪生LSTM网络和提取日志模式的过程,直到穷尽所有的日志语句。此处的相似度函数选择可以有多种,常见的有余弦相似度函数、曼哈顿距离函数、几何距离函数等。
孪生LSTM网络示意图如图2所示,孪生LSTM网络的左子网络和右子网络是共享参数的,可以根据日志语句向量的长度进行网络的动态调整,LSTM_1跟LSTM_2分别表示左子网络和右子网络的结构,左子网络的输入是一条日志语句的日志语句向量,右路的输入是另一条日志语句的日志语句向量,将两条日志语句向量分别输入到参数共享的孪生LSTM网络中,得到最后一层的左子网络输出表示为M1,右路输出表示为M2,通过计算两个网络输出之间的相似度来判断两条输入日志语句是否可合并为同一簇。
word2vec模型通过部分预处理后历史日志数据进行预训练得到;孪生LSTM网络通过部分日志语句向量进行预训练得到。
2)借助孪生LSTM网络,针对新出现的待匹配日志数据进行模式匹配
如图4所示,当出现待匹配日志数据时,首先根据word2vec模型获取到日志语句对应的日志语句向量,将一条日志语句向量输入到孪生LSTM网络的其中一路,孪生LSTM网络的另一路则依次输入已有的日志模式对应的日志语句向量,以实现该新日志语句与每一个现有日志模式都进行比较的目的,然后通过排序新日志语句匹配已有日志模式的相似度函数值来唯一确定新日志语句所对应的日志模式,对日志数据中的所有日志语句进行日志模式匹配,从而完成待匹配日志数据的日志模式匹配工作。
3)基于Hadoop架构和MapReduce的编程框架,将日志模式提取的过程进行分布式部署,以提高计算效率
预训练word2vec模型过程中,首先利用部分预处理后历史日志数据形成所需要的训练集和测试集数据,统一作为训练语料来训练得到日志word2vec模型,将该模型放置于多个计算节点上,同时将数据集进行拆分放置于不同的计算节点,以提高模型训练速度。
由于孪生LSTM网络在提取日志模式过程中每次只需要考虑一对日志语句之间的相似程度,但是不同的孪生LSTM网络输出结果之间则需要进行相似度排序,非常适合MapReduce的中涉及到的两大过程,Map过程和Reduce过程。因此该计算过程可以修改为MapReduce的形式进行计算,从而实现并行化的处理,这可以从根本上提高日志分析过程当中的日志模式提取和匹配效率。

Claims (9)

1.一种日志模式提取方法,其特征在于,该方法包括以下步骤:
步骤S1:清洗历史日志数据,得到清洗后历史日志数据;
步骤S2:对清洗后历史日志数据进行预处理,得到预处理后历史日志数据;
步骤S3:基于预处理后历史日志数据,得到历史词向量;
步骤S4:将历史词向量输入孪生LSTM网络,提取日志模式。
2.根据权利要求1所述的一种日志模式提取方法,其特征在于,所述的预处理包括变量替换和分词处理。
3.根据权利要求1所述的一种日志模式提取方法,其特征在于,所述的步骤S3将预处理后历史日志数据输入word2vec模型,得到历史词向量。
4.根据权利要求1所述的一种日志模式提取方法,其特征在于,所述的步骤S4包括:
步骤S41:将历史词向量按出现在日志语句中的顺序排序,得到日志语句向量;
步骤S42:将两条日志语句的日志语句向量分别输入孪生LSTM网络的左子网络和右子网络,得到两条日志语句的表征结果M1和M2
步骤S43:判断两条日志语句是否合并簇,若是,提取该合并簇的日志模式,若否,分别提取两条日志语句所在簇的日志模式;
步骤S44:重复步骤S42至步骤S43,直到穷尽所有的日志语句。
5.根据权利要求4所述的一种日志模式提取方法,其特征在于,所述的步骤S43中通过相似度函数判断两条日志语句是否合并簇,所述相似度函数为曼哈顿距离函数。
6.根据权利要求1所述的一种日志模式提取方法,其特征在于,所述的步骤S3中采用MapReduce框架得到历史词向量,步骤S4中采用MapReduce框架提取日志模式。
7.根据权利要求6所述的一种日志模式提取方法,其特征在于,所述的MapReduce框架基于Hadoop架构。
8.一种日志模式匹配方法,其特征在于,基于权利要求1-7任一所述的日志模式和孪生LSTM网络,进行待匹配日志数据的日志模式匹配。
9.根据权利要求8所述的日志模式匹配方法,其特征在于,包括:
基于待匹配日志数据,得到待匹配日志语句的日志语句向量;
将待匹配日志语句的日志语句向量和日志模式对应的日志语句向量分别输入孪生LSTM网络的左子网络和右子网络,进行待匹配日志数据的日志模式匹配。
CN201911031213.XA 2019-10-28 2019-10-28 一种日志模式提取及匹配方法 Pending CN110879802A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911031213.XA CN110879802A (zh) 2019-10-28 2019-10-28 一种日志模式提取及匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911031213.XA CN110879802A (zh) 2019-10-28 2019-10-28 一种日志模式提取及匹配方法

Publications (1)

Publication Number Publication Date
CN110879802A true CN110879802A (zh) 2020-03-13

Family

ID=69728484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911031213.XA Pending CN110879802A (zh) 2019-10-28 2019-10-28 一种日志模式提取及匹配方法

Country Status (1)

Country Link
CN (1) CN110879802A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597820A (zh) * 2020-05-11 2020-08-28 北京理工大学 Ict供应链招投标项目与企业产品实体匹配方法
CN112685215A (zh) * 2021-01-22 2021-04-20 浪潮云信息技术股份公司 一种云平台异常日志分析方法
CN113590421A (zh) * 2021-07-27 2021-11-02 招商银行股份有限公司 日志模板提取方法、程序产品及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107404473A (zh) * 2017-06-06 2017-11-28 西安电子科技大学 基于Mshield机器学习多模式Web应用防护方法
CN109343990A (zh) * 2018-09-25 2019-02-15 江苏润和软件股份有限公司 一种基于深度学习的云计算系统异常检测方法
CN109918681A (zh) * 2019-03-29 2019-06-21 哈尔滨理工大学 一种基于汉字-拼音的融合问题语义匹配方法
CN109981625A (zh) * 2019-03-18 2019-07-05 中国人民解放军陆军炮兵防空兵学院郑州校区 一种基于在线层次聚类的日志模板抽取方法
CN110162631A (zh) * 2019-05-17 2019-08-23 中山大学 面向triz发明原理的中文专利分类方法、系统及储存介质
CN110175158A (zh) * 2019-05-23 2019-08-27 湖南大学 一种基于向量化的日志模板提取方法和系统
CN110188919A (zh) * 2019-04-22 2019-08-30 武汉大学 一种基于长短期记忆网络的负荷预测方法
CN110334197A (zh) * 2019-06-28 2019-10-15 科大讯飞股份有限公司 语料处理方法及相关装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107404473A (zh) * 2017-06-06 2017-11-28 西安电子科技大学 基于Mshield机器学习多模式Web应用防护方法
CN109343990A (zh) * 2018-09-25 2019-02-15 江苏润和软件股份有限公司 一种基于深度学习的云计算系统异常检测方法
CN109981625A (zh) * 2019-03-18 2019-07-05 中国人民解放军陆军炮兵防空兵学院郑州校区 一种基于在线层次聚类的日志模板抽取方法
CN109918681A (zh) * 2019-03-29 2019-06-21 哈尔滨理工大学 一种基于汉字-拼音的融合问题语义匹配方法
CN110188919A (zh) * 2019-04-22 2019-08-30 武汉大学 一种基于长短期记忆网络的负荷预测方法
CN110162631A (zh) * 2019-05-17 2019-08-23 中山大学 面向triz发明原理的中文专利分类方法、系统及储存介质
CN110175158A (zh) * 2019-05-23 2019-08-27 湖南大学 一种基于向量化的日志模板提取方法和系统
CN110334197A (zh) * 2019-06-28 2019-10-15 科大讯飞股份有限公司 语料处理方法及相关装置

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
D.DEB: "\"Action Speal Louder Than (Pass)words: Passive Authentication of Smartphone Users via Deep Temporal Features\"" *
任明: ""基于深度学习的云计算系统异常检测方法"", vol. 29, no. 05 *
刘拼拼: ""领域问答系统 中问句相似度计算方法研究"", no. 01, pages 34 - 37 *
张公涛: ""中文电子病历信息抽取系统的设计与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 09 *
徐家慧: ""基于双向LSTM的电网调度日志分类"", vol. 36, no. 01 *
王英涛: ""基于深度学习的中文论述类问题智能问答系统的研究与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 10 *
白旭栩: ""基于特定事件的微博用户情感分析"", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 01 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597820A (zh) * 2020-05-11 2020-08-28 北京理工大学 Ict供应链招投标项目与企业产品实体匹配方法
CN112685215A (zh) * 2021-01-22 2021-04-20 浪潮云信息技术股份公司 一种云平台异常日志分析方法
CN113590421A (zh) * 2021-07-27 2021-11-02 招商银行股份有限公司 日志模板提取方法、程序产品及存储介质
CN113590421B (zh) * 2021-07-27 2024-04-26 招商银行股份有限公司 日志模板提取方法、程序产品及存储介质

Similar Documents

Publication Publication Date Title
CN109297689B (zh) 一种引入权重因子的大型水力机械智能诊断方法
CN109612513B (zh) 一种面向大规模高维传感器数据的在线式异常检测方法
CN110647830B (zh) 基于卷积神经网络和高斯混合模型的轴承故障诊断方法
CN110879802A (zh) 一种日志模式提取及匹配方法
CN111046931A (zh) 一种基于随机森林的道岔故障诊断方法
CN111914644A (zh) 一种基于双模态协同的弱监督时序动作定位方法及系统
CN111243674B (zh) 一种碱基序列的识别方法、装置和存储介质
CN111812507B (zh) 一种基于图卷积的电机故障诊断方法
CN105607631B (zh) 间歇过程弱故障模型控制限建立方法及弱故障监测方法
CN111368863A (zh) 一种智能化的岸桥关键机构健康状态评估方法
CN114429152A (zh) 基于动态指数对抗性自适应的滚动轴承故障诊断方法
CN108197647A (zh) 一种汽车起动机耐久测试数据的快速聚类方法
CN110493221A (zh) 一种基于聚簇轮廓的网络异常检测方法
Nuiaa et al. Evolving Dynamic Fuzzy Clustering (EDFC) to Enhance DRDoS_DNS Attacks Detection Mechnism.
CN115587290A (zh) 基于变分自编码生成对抗网络的航空发动机故障诊断方法
CN114563671A (zh) 一种基于CNN-LSTM-Attention神经网络的高压电缆局部放电诊断方法
CN113486935A (zh) 基于dpi和cnn的区块链应用流量识别方法
CN113743453A (zh) 一种基于随机森林的人口数量预测方法
CN112422546A (zh) 一种基于变邻域算法和模糊聚类的网络异常检测方法
CN117407816A (zh) 一种基于对比学习的多元时间序列异常检测方法
CN115278752A (zh) 一种5g通信系统异常日志ai检测方法
CN114969761A (zh) 一种基于lda主题特征的日志异常检测方法
CN114861858A (zh) 一种路面异常数据检测方法、装置、设备及可读存储介质
CN114564619A (zh) 一种电机轴承的故障诊断方法、记录媒体及系统
CN114841063A (zh) 一种基于深度学习的航空发动机剩余寿命预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200313