CN109343990A - 一种基于深度学习的云计算系统异常检测方法 - Google Patents

一种基于深度学习的云计算系统异常检测方法 Download PDF

Info

Publication number
CN109343990A
CN109343990A CN201811114172.6A CN201811114172A CN109343990A CN 109343990 A CN109343990 A CN 109343990A CN 201811114172 A CN201811114172 A CN 201811114172A CN 109343990 A CN109343990 A CN 109343990A
Authority
CN
China
Prior art keywords
log
cloud computing
computing system
cluster
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811114172.6A
Other languages
English (en)
Inventor
周红卫
刘延新
吴昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Hoperun Software Co ltd
Original Assignee
Jiangsu Hoperun Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Hoperun Software Co ltd filed Critical Jiangsu Hoperun Software Co ltd
Priority to CN201811114172.6A priority Critical patent/CN109343990A/zh
Publication of CN109343990A publication Critical patent/CN109343990A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

发明涉及一种基于深度学习的云计算系统自动化故障检测方法。基于聚类将格式和内容相似的日志进行聚集,进而提取日志模式;将每个模式作为一个词,并将离散模式集作为一个文档,从而得到低维度特征空间;使用递归神经网络处理标记数据以得到跨序列的依赖性,从而生成信号以检测云计算系统异常。

Description

一种基于深度学习的云计算系统异常检测方法
技术领域
本发明涉及一种基于深度学习的云计算系统异常检测方法,属于软件技术领域。
背景技术
随着云计算技术的发展,大量在线服务和关键任务依赖于异构的云计算系统来完成,最小化这些系统的停机时间非常重要。控制台日志记录了云计算系统的操作状态和事件,并且具有丰富的描述性信息。当前,日志分析的相关研究主要集中在系统异常检测与诊断领域,目的是快速检测出异常发生时的信号,并确定异常的根本原因。云计算环境下,基于日志的异常检测需要在可接受的性能条件下,处理分析大量系统特征(T. Kimura, K.Ishibashi, T. Mori, H. Sawada, T. Toyono, K. Nishimatsu, A. Watanabe, A.Shimoda, and K. Shiomoto,"Spatio-temporal factorization of log data forunderstanding network events," 2014 IEEE Conference on ComputerCommunications, INFOCOM 2014, Toronto, Canada, April 27 - May 2, 2014, 2014,pp. 610–618.)。同时,控制台日志通常是由不同的应用程序或服务生成,因此日志具有异构性,表现为多样化和不均衡的单词分布,使得传统的文本挖掘方法(如,主题建模)从云计算系统的控制台日志中提取有意义的特征非常困难(X. Ning and G. Jiang, “HLAer: Asystem for heterogeneous log analysis,” in Proceedings of the SDM Workshop onHeterogeneous Learning, 2014.)。此外,虽然控制台日志记录了云计算系统的健康状态信息,但现有的系统管理技术主要在出现问题后分析错误,时效性较差(T. Kimura, A.Watanabe, T. Toyono, and K. Ishibashi, “Proactive failure detection learninggeneration patterns of largescale network logs,” in Network and ServiceManagement, 2015 11th International Conference on, Nov 2015,pp. 8–14.)。现有工作分析源代码以建立日志的常规格式,但该类方法只能在源代码应用,不能将不同编程语言和日志样式的不同应用程序的异构日志混合起来(W. Xu, L. Huang, A. Fox, D.Patterson, and M. I. Jordan,“Detecting large-scale system problems by miningconsole logs,” in Proceedings of the ACM SIGOPS 22nd symposium on Operatingsystems principles. ACM, 2009, pp. 117–132.)。控制台日志通常是由应用程序源代码中定义的模板生成,因此具有预定义的格式。在应用程序运行过程中,日志常常是多余的,找到规则的格式来表示并总结类似的日志信息可以减少冗余而不丢失重要信息,从而高效获取日志数据的含义。
发明内容
本发明的目的:提出一种基于深度学习的云计算系统异常检测方法,从控制台日志中提取通用特征,建模为时序深度神经网络,以执行自动化的检测系统异常。
本发明的原理:本文首先从异构日志中学习日志格式,将相似的日志聚在一起,并提取日志集合的模式。然后,基于这些模式提取随时间推移的顺序特征,以缩减特征维度。最后,将异常检测抽象化为序列分类问题,编码日志特征并映射到低维向量空间中,通过LSTM(Long Short-Term Memory)进行异常检测。
本发明技术解决方案如下:
第一步,日志信息和时间戳标准化:对日志数据进行标记以识别和检索每个日志记录的单词或短语的基本信息。但是,来自不同应用程序和系统的异构日志有不同的格式以及分隔符。如果没有特定的知识或人工检查,为所有异构日志数据集预先定义相同的分隔符会很不公平,因此,应该使用通用的分隔符,以避免符号间的干扰。本文将空格作为分隔符,用来分开除了数字之外的所有单词和特殊符号。异构日志可以有许多不同类型的时间戳格式,本文在日志中检测所有的时间戳并将其转换为标准格式;
第二步,日志聚类:由于没有日志格式、用法和来源等方面的领域知识,理解和分析异构日志首先需要理解日志数据的语法结构。聚类算法基于数据内在属性和关系,对数据实例进行分类。因此,本文将聚类算法应用于异构日志,以获得数据的初始化“视图”。采用分层聚类生成异构日志的层次结构,提供了多粒度的数据视图,根据位置将日志从粗到细粒度组织成树结构。同时,数据索引和搜索是建立在分层树结构基础上,以达到提高效率的目的。本文使用的分层树结构使用OPTIC(M. Ankerst, M. M. Breunig, H.-P. Kriegel,and J. Sander,“Optics: Ordering points to identify the clustering structure,”in Proceedings of the 1999 ACM SIGMOD International Conference on Managementof Data, ser. SIGMOD ’99.New York, NY, USA: ACM, 1999, pp. 49–60.)聚类方法。OPTIC通过从一个特定的数据点向所有邻近的数据点扩展,从而搜索密集的数据区域,这些数据点在一个预定义的阈值下足够接近。聚类算法根据数据点排序生成层次化的聚类结构,将较为稀疏的数据区域内的密集数据区域作为聚类,形成较稀疏区域的子聚类。OPTIC具有两个参数eps和min-points,其中,eps指定聚类的最大宽度,min-points控制有效聚类需要包含的最小样本数量。
第三步,模式识别与匹配:在对日志数据进行聚类之后,生成异构日志的整体语法结构,但仍然需要在每个聚类中获得具体模式。由于在每个聚类中,日志记录具有相似的格式,在聚类中使用序列比对进行模式识别。模式识别首先在叶节点中完成,然后从叶子向后传播到根节点。在生成日志模式后,需要对输入的异构日志进行解析,本文将这些模式表示为正则表达式。任何输入日志都将与提取的日志模式,即正则表达式匹配,如果不能匹配,则生成异常值。
第四步,特征表示:使用提取的模式解析输入日志,将日志映射到一个模式。本文 提取模式的集合,计算每个模式的频率,而不是简单搜集时间间隔的日志数据。 选择合适的时间间隔,首先需要降级特征表示的稀疏性,同时使用较小的时间粒度来进 行更精细的检测。本文借鉴TF-IDF思想,从日志中提取合适的特征。TF-IDF在信息检索和文 本挖掘中,表示文档的特征。本文将每种模式作为一个词,而发生在时间阶段 之间的众多模式作为一个文档。
(1)
(2)
(3)
其中,为模式,为时间周期模式集合,E为全部时间监测集合,为模式在时间周期中出现的频率,为时间周期的数量, 为出现模式的时间周期的数量。
第五步,异常检测:给定云计算系统组件为K,控制台日志集合为,推断在时间 窗口W内发生异常的概率为。输入是长度为L的历史特征序列:;目标是二元向量:在t时刻的检测期内发出报 警以及不在检测期内未发出警报取值为“P”,否则取值为“N”,可以用来参数化目标的概 率分布。学习模型输出报警概率,如果这种概率超过预先定义的阈值,就会发 出报警。将历史特征向量序列作为输入,使用检测模型对当前特征向量进行分析,输出即将 发生异常的概率。如果概率超过了预先定义的阈值,那么在不久之后就会发出预警信号。 LSTM使用RNN架构,并改进存储和访问信息,通过引入内存单元来存储以前的时间步骤的信 息,以解决长期依赖关系的问题。由于计算系统异常检测存在很强的时间依赖性,本文基于 LSTM网络以建模计算机系统的动态性。检测网络的输出是一个二进制向量,以表示系统 状态,本文使用其估计二项分布可以通过输出层的Softmax函数 来参数化: 。对于目标函数,本文使用二进制的交叉 熵代价函数训练:,其中,K=2是类的 数量,目标解码为1或0,是k类的权重。
本发明与现有技术相比具有如下优点:
(1)本文基于聚类对云计算系统产生的格式和内容相似的大规模日志信息进行聚集,从而有效减少了日志数量,降低了数据处理、分析和挖掘开销,提高了异常检测效率;
(2)本文基于模式挖掘从聚类中提取应用或服务的日志记录模式,从而解决生成日志的异构性问题,扩大了异常检测方法的适用范围;
(3)本文使用递归神经网络处理标记数据以得到跨序列数据的依赖性,能够考虑到短期与长期数据对数据分析与挖掘的影响,提高了异常检测的准确性和及时性。
附图说明
图1为自动化故障检测方法步骤。
具体实施方式
以下结合具体实施例和附图对本发明进行详细说明,如图1所示,本发明实施例方法流程:
数据集来自某在线交易系统中Web服务器集群的日志记录。每个集群由多个组件组成, 包含各种类型的应用程序。当系统管理员发现问题时,会记录该系统异常,分散在整个监测 期间。本文首先将历史日志的时间序列离散化,其中每个时间段( = 10分钟)的日志作 为一个文档。本文将数据集划分为时间顺序的训练集和测试集,其中训练集包括前时 间,其余时间用于测试。设置参数eps= 0.14和minpoints =8,设定提取模式的正则表达 式模式,然后对每个日志匹配模式。构建基于模式的TF-IDF特征向量,利用特征向量来检测 系统异常。在训练阶段,所有检测期的实例都被认为是正常的,而丢弃出现异常的实例。本 文使用LSTM,首先建立相对较小的LSTM网络,每个层有2个隐藏层和24个隐藏单元。将所有 的权重参数均匀初始化在范围,同时初始化LSTM遗忘门,设置偏差值为1.2。然 后,用批量大小为3的预参数自适应更新,使用小批量随机梯度下降对网络进行训练,基础 学习速率为10,衰变因子0.9。对每个模型进行15个周期的训练,并将其与衰减因子0.9相 乘,每增加一个新时期,将基础学习速率乘以8。由于数据集高度不平衡,损失函数设为 0.95。

Claims (1)

1.一种基于深度学习的云计算系统自动化故障检测方法,方法特征在于实现步骤如下:
第一步,日志信息和时间戳标准化:将空格作为分隔符,用来分开除了数字之外的所有单词和特殊符号;对日志数据进行标记以识别和检索每个日志记录的单词或短语的基本信息;检测所有的时间戳并将其转换为标准格式;
第二步,日志聚类:采用分层聚类生成异构日志的层次结构,根据位置将日志从粗到细粒度组织成树结构;将较为稀疏的数据区域内的密集数据区域作为聚类,形成较稀疏区域的子聚类;
第三步,模式识别与匹配:生成日志的整体语法结构;从叶子向后传播到根节点,以生成日志模式;对输入的异构日志进行解析,表示为正则表达式;任何输入日志都将与提取的日志模式,即正则表达式匹配;
第四步,异常检测:给定云计算系统组件为,控制台日志集合为,推断在时间窗口内发生异常的概率为,输入是长度为的历史特征序列:;目标是二元向量:在时刻的检测期内发出报警以及 不在……检测期内未发出警报的概率分布;检测网络的输出是一个二进制向 量,以表示系统状态,
CN201811114172.6A 2018-09-25 2018-09-25 一种基于深度学习的云计算系统异常检测方法 Pending CN109343990A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811114172.6A CN109343990A (zh) 2018-09-25 2018-09-25 一种基于深度学习的云计算系统异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811114172.6A CN109343990A (zh) 2018-09-25 2018-09-25 一种基于深度学习的云计算系统异常检测方法

Publications (1)

Publication Number Publication Date
CN109343990A true CN109343990A (zh) 2019-02-15

Family

ID=65306688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811114172.6A Pending CN109343990A (zh) 2018-09-25 2018-09-25 一种基于深度学习的云计算系统异常检测方法

Country Status (1)

Country Link
CN (1) CN109343990A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110288004A (zh) * 2019-05-30 2019-09-27 武汉大学 一种基于日志语义挖掘的系统故障诊断方法及装置
CN110347547A (zh) * 2019-05-27 2019-10-18 中国平安人寿保险股份有限公司 基于深度学习的日志异常检测方法、装置、终端及介质
CN110347827A (zh) * 2019-06-26 2019-10-18 南京理工大学 面向异构文本运维数据的事件提取方法
CN110569925A (zh) * 2019-09-18 2019-12-13 南京领智数据科技有限公司 应用于电力设备运检的基于lstm的时序异常检测方法
CN110750412A (zh) * 2019-09-02 2020-02-04 北京云集智造科技有限公司 日志异常检测方法
CN110879802A (zh) * 2019-10-28 2020-03-13 同济大学 一种日志模式提取及匹配方法
CN111190873A (zh) * 2019-12-24 2020-05-22 同济大学 一种用于云原生系统日志训练的日志模式提取方法及系统
CN111625625A (zh) * 2020-05-27 2020-09-04 腾讯科技(深圳)有限公司 确定异常日志的方法、装置、计算机设备和存储介质
CN111769974A (zh) * 2020-06-11 2020-10-13 中国科学院计算技术研究所 一种云系统故障诊断方法
CN112579327A (zh) * 2019-09-27 2021-03-30 阿里巴巴集团控股有限公司 一种故障检测方法、装置及设备
CN112965968A (zh) * 2021-03-04 2021-06-15 湖南大学 一种基于注意力机制的异构数据模式匹配方法
CN113110351A (zh) * 2021-04-28 2021-07-13 广东省科学院智能制造研究所 一种工业生产现场异构状态数据采集系统及方法
WO2021139235A1 (zh) * 2020-06-30 2021-07-15 平安科技(深圳)有限公司 系统异常检测方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761173A (zh) * 2013-12-28 2014-04-30 华中科技大学 一种基于日志的计算机系统故障诊断方法及装置
US20180077180A1 (en) * 2016-09-09 2018-03-15 Ca, Inc. Bot detection system based on deep learning
CN108038049A (zh) * 2017-12-13 2018-05-15 西安电子科技大学 实时日志控制系统及控制方法、云计算系统及服务器
CN108255656A (zh) * 2018-02-28 2018-07-06 湖州师范学院 一种应用于间歇过程的故障检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761173A (zh) * 2013-12-28 2014-04-30 华中科技大学 一种基于日志的计算机系统故障诊断方法及装置
US20180077180A1 (en) * 2016-09-09 2018-03-15 Ca, Inc. Bot detection system based on deep learning
CN108038049A (zh) * 2017-12-13 2018-05-15 西安电子科技大学 实时日志控制系统及控制方法、云计算系统及服务器
CN108255656A (zh) * 2018-02-28 2018-07-06 湖州师范学院 一种应用于间歇过程的故障检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DU, MIN, ET AL: "Deeplog: Anomaly detection and diagnosis from system logs through deep learning", 《PROCEEDINGS OF THE 2017 ACM SIGSAC CONFERENCE ON COMPUTER AND COMMUNICATIONS SECURITY》 *
K. ZHANG, J. XU, M. R. MIN, G. JIANG, K. PELECHRINIS AND H. ZHAN: "Automated IT system failure prediction: A deep learning approach", 《2016 IEEE INTERNATIONAL CONFERENCE ON BIG DATA (BIG DATA)》 *
VINAYAKUMAR, R., K. P. SOMAN, AND PRABAHARAN POORNACHANDRAN: "Long short-term memory based operation log anomaly detection", 《2017 INTERNATIONAL CONFERENCE ON ADVANCES IN COMPUTING, COMMUNICATIONS AND INFORMATICS (ICACCI). IEEE》 *
杨立苑,宋云奎,张文博,钟华: "基于分类的自适应失效检测系统", 《计算机系统应用》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347547A (zh) * 2019-05-27 2019-10-18 中国平安人寿保险股份有限公司 基于深度学习的日志异常检测方法、装置、终端及介质
CN110288004A (zh) * 2019-05-30 2019-09-27 武汉大学 一种基于日志语义挖掘的系统故障诊断方法及装置
CN110347827A (zh) * 2019-06-26 2019-10-18 南京理工大学 面向异构文本运维数据的事件提取方法
CN110347827B (zh) * 2019-06-26 2023-08-22 南京理工大学 面向异构文本运维数据的事件提取方法
CN110750412B (zh) * 2019-09-02 2022-10-21 北京云集智造科技有限公司 日志异常检测方法
CN110750412A (zh) * 2019-09-02 2020-02-04 北京云集智造科技有限公司 日志异常检测方法
CN110569925A (zh) * 2019-09-18 2019-12-13 南京领智数据科技有限公司 应用于电力设备运检的基于lstm的时序异常检测方法
CN110569925B (zh) * 2019-09-18 2023-05-26 南京领智数据科技有限公司 应用于电力设备运检的基于lstm的时序异常检测方法
CN112579327B (zh) * 2019-09-27 2024-05-14 阿里巴巴集团控股有限公司 一种故障检测方法、装置及设备
CN112579327A (zh) * 2019-09-27 2021-03-30 阿里巴巴集团控股有限公司 一种故障检测方法、装置及设备
CN110879802A (zh) * 2019-10-28 2020-03-13 同济大学 一种日志模式提取及匹配方法
CN111190873B (zh) * 2019-12-24 2022-08-16 同济大学 一种用于云原生系统日志训练的日志模式提取方法及系统
CN111190873A (zh) * 2019-12-24 2020-05-22 同济大学 一种用于云原生系统日志训练的日志模式提取方法及系统
CN111625625A (zh) * 2020-05-27 2020-09-04 腾讯科技(深圳)有限公司 确定异常日志的方法、装置、计算机设备和存储介质
CN111769974B (zh) * 2020-06-11 2021-10-15 中国科学院计算技术研究所 一种云系统故障诊断方法
CN111769974A (zh) * 2020-06-11 2020-10-13 中国科学院计算技术研究所 一种云系统故障诊断方法
WO2021139235A1 (zh) * 2020-06-30 2021-07-15 平安科技(深圳)有限公司 系统异常检测方法、装置、设备及存储介质
CN112965968A (zh) * 2021-03-04 2021-06-15 湖南大学 一种基于注意力机制的异构数据模式匹配方法
CN112965968B (zh) * 2021-03-04 2023-10-24 湖南大学 一种基于注意力机制的异构数据模式匹配方法
CN113110351A (zh) * 2021-04-28 2021-07-13 广东省科学院智能制造研究所 一种工业生产现场异构状态数据采集系统及方法

Similar Documents

Publication Publication Date Title
CN109343990A (zh) 一种基于深度学习的云计算系统异常检测方法
Khan et al. HML-IDS: A hybrid-multilevel anomaly prediction approach for intrusion detection in SCADA systems
Nedelkoski et al. Anomaly detection from system tracing data using multimodal deep learning
CN110321371B (zh) 日志数据异常检测方法、装置、终端及介质
US10706229B2 (en) Content aware heterogeneous log pattern comparative analysis engine
Li et al. Safety risk monitoring of cyber-physical power systems based on ensemble learning algorithm
CN106101121B (zh) 一种全网络流量异常抽取方法
Xia et al. Loggan: a log-level generative adversarial network for anomaly detection using permutation event modeling
Gainaru et al. Event log mining tool for large scale HPC systems
CN106936812B (zh) 一种云环境下基于Petri网的文件隐私泄露检测方法
CN111860692B (zh) 一种基于K-mediod的物联网环境下的异常数据检测方法
CN105471647B (zh) 一种电力通信网故障定位方法
CN110297207A (zh) 智能电表的故障诊断方法、系统及电子装置
CN110011990A (zh) 内网安全威胁智能分析方法
Xia et al. LogGAN: A sequence-based generative adversarial network for anomaly detection based on system logs
CN111726351B (zh) 基于Bagging改进的GRU并行网络流量异常检测方法
Wang et al. A Log‐Based Anomaly Detection Method with Efficient Neighbor Searching and Automatic K Neighbor Selection
CN112988509A (zh) 一种告警消息过滤方法、装置、电子设备及存储介质
Astekin et al. Incremental analysis of large-scale system logs for anomaly detection
Itkin et al. User-assisted log analysis for quality control of distributed fintech applications
CN114327964A (zh) 业务系统的故障原因处理方法、装置、设备及存储介质
Cavallaro et al. Identifying anomaly detection patterns from log files: A dynamic approach
Jose et al. Anomaly detection on system generated logs—a survey study
CN106846170A (zh) 一种发电机组跳闸监测方法及其监测装置
Turgeman et al. Context-aware incremental clustering of alerts in monitoring systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190215