CN114416511A - 基于日志的系统异常检测方法、装置、介质及电子设备 - Google Patents
基于日志的系统异常检测方法、装置、介质及电子设备 Download PDFInfo
- Publication number
- CN114416511A CN114416511A CN202210089309.7A CN202210089309A CN114416511A CN 114416511 A CN114416511 A CN 114416511A CN 202210089309 A CN202210089309 A CN 202210089309A CN 114416511 A CN114416511 A CN 114416511A
- Authority
- CN
- China
- Prior art keywords
- log
- analyzed
- logs
- determining
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3452—Performance evaluation by statistical analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3495—Performance evaluation by tracing or monitoring for systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请实施例公开了一种基于日志的系统异常检测方法、装置、介质及电子设备。所述方法包括:获取待检测系统的当前日志,作为待分析日志;基于所述待分析日志中的时间信息,以设定时间间隔对所述待分析日志进行时间切片处理,并分别统计各所述时间切片内所述待分析日志的数量,作为所述待分析日志的日志数量特征;利用预设内容特征提取算法,提取待分析日志的日志内容特征;根据所述日志内容特征和所述日志数量特征,确定所述待检测系统的异常检测结果。执行本申请实施例,可以提高系统异常检测准确率。
Description
技术领域
本申请实施例涉及计算机应用技术领域,尤其涉及一种基于日志的系统异常检测方法、装置、介质及电子设备。
背景技术
应用系统一般由计算机硬件系统、系统软件、应用软件组成。应用系统日志是记录应用系统中硬件、软件和应用系统问题的信息。通过对应用系统日志进行分析,可以及时发现应用系统中存在的异常以及异常产生的原因。
发明内容
本申请实施例提供一种基于日志的系统异常检测方法、装置、介质及电子设备,通过从日志数量和日志内容两个方面的对待分析日志进行特征分析,可以达到提高系统异常检测准确率的目的。
第一方面,本申请实施例提供了一种基于日志的系统异常检测方法,所述方法包括:
获取待检测系统的当前日志,作为待分析日志;
基于所述待分析日志中的时间信息,以设定时间间隔对所述待分析日志进行时间切片处理,并分别统计各所述时间切片内所述待分析日志的数量,作为所述待分析日志的日志数量特征;
利用预设内容特征提取算法,提取待分析日志的日志内容特征;
根据所述日志内容特征和所述日志数量特征,确定所述待检测系统的异常检测结果。
第二方面,本申请实施例提供了一种基于日志的系统异常检测装置,所述装置包括:
当前日志获取模块,用于获取待检测系统的当前日志,作为待分析日志;
日志数量特征确定模块,用于基于所述待分析日志中的时间信息,以设定时间间隔对所述待分析日志进行时间切片处理,并分别统计各所述时间切片内所述待分析日志的数量,作为所述待分析日志的日志数量特征;
日志内容特征确定模块,用于利用预设内容特征提取算法,提取待分析日志的日志内容特征;
系统检测结果确定模块,用于根据所述日志内容特征和所述日志数量特征,确定所述待检测系统的异常检测结果。
第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所述的基于日志的系统异常检测方法。
第四方面,本申请实施例提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例所述的基于日志的系统异常检测方法。
本申请实施例所提供的技术方案,通过获取待检测系统的当前日志,作为待分析日志;基于待分析日志中的时间信息,以设定时间间隔对待分析日志进行时间切片处理,并分别统计各时间切片内待分析日志的数量,作为待分析日志的日志数量特征;利用预设内容特征提取算法,提取待分析日志的日志内容特征;根据日志内容特征和日志数量特征,确定待检测系统的异常检测结果。本申请实施例通过从日志数量和日志内容两个方面的对待分析日志进行特征分析,实现了对待检测系统的异常检测。考虑了因待检测系统异常造成日志数量异常的情况,提高了系统异常检测的准确率。
附图说明
图1是本申请实施例一提供的一种基于日志的系统异常检测方法的流程图;
图2是本申请实施例二提供的另一种基于日志的系统异常检测方法的流程图;
图3是本申请实施例三提供的又一种基于日志的系统异常检测方法的流程图;
图4是本申请实施例四提供的又一种基于日志的系统异常检测方法的流程图;
图5是本申请实施例五提供的一种基于日志的系统异常检测装置的结构示意图;
图6是本申请实施例七提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1是本申请实施例一提供的一种基于日志的系统异常检测方法的流程图,本实施例可适用于基于日志对应用系统进行异常检测的情况。该方法可以由本申请实施例所提供的基于日志的系统异常检测装置执行,该装置可以由软件和/或硬件的方式来实现,并可集成于运行此系统的电子设备中。
如图1所示,所述基于日志的系统异常检测方法包括:
S110、获取待检测系统的当前日志,作为待分析日志。
其中,待检测系统是指需要进行异常检测的应用系统。示例性的,待检测系统可以是商业银行的业务办理系统。待分析日志与待检测系统相对应,待分析日志是指待检测系统的当前日志。当前日志记录有当前时段内待检测系统硬件、软件的运行信息。当前日志是对待检测系统进行异常检测的数据基础。通过对待检测系统的当前日志进行分析,可以及时发现中待检测系统中存在的异常。
S120、基于所述待分析日志中的时间信息,以设定时间间隔对所述待分析日志进行时间切片处理,并分别统计各所述时间切片内所述待分析日志的数量,作为所述待分析日志的日志数量特征。
一般而言,待分析日志中记录有待检测系统中发生的事件信息,具体的可以包括事件标识、事件时间以及事件类别等。日志数量特征是指待分析日志的数量特征。可以知道的是,一般情况下,待检测系统中发生的事件的数量是保持在一定数量范围内的,相应的,待检测系统中日志的数量也会在一定数量范围内保持稳定。日志数量特征一定程度上可以反映待检测系统是否存在异常。示例性的,在待检测系统发生宕机的时段,或者待检测系统发生请求积压的情况都会导致待分析日志的数量在合理数量范围之外。
以当前时刻为时间起点,根据待分析日志中的时间信息,将待分析日志按照时间由近及远的顺序或者由近及远的顺序进行排序,再以设定时间间隔对待分析日志进行时间切片处理,分别统计落入各时间切片内的待分析日志的条数。将待分析日志的数量作为待分析日志的日志数量特征。
其中,设定时间间隔在这里不作限定,具体根据实际情况确定。示例性,设定时间间隔可以是5分钟。可以知道的是,在待分析日志确定的情况下,设定时间间隔越小得到的日志数量特征越多。
S130、利用预设内容特征提取算法,提取待分析日志的日志内容特征。
其中,日志内容特征用于反应待分析日志所记载的待检测系统中所发生事件的特征。待分析日志在待检测系统中一般以文本文件的形式存储。如上所述,待分析日志中记录有待检测系统中发生的事件信息,具体的可以包括事件标识、事件时间、事件描述以及事件类别等。
其中,事件类型用于描述待检测系统中所发生事件对于待检测系统的影响程度。示例性的,事件类型可以包括:错误、警告、信息等。其中,错误类型事件对应于重要的问题,如数据丢失或功能丧失。例如在启动期间系统服务加载失败、磁盘检测错误等。警告类型对应于不是非常重要但将来可能出现问题的事件,比如磁盘剩余空间较小,或者未找到安装打印机等。信息类型对应于描述应用程序、驱动程序或服务成功操作的事件,比如加载网络驱动程序、成功地建立了一个网络连接等。
日志内容特征可以是利用预设内容特征提取算法,对待分析日志进行处理得到。其中,预设内容特征提取算法用于从待分析日志中提取内容特征的算法,可选的,利用预设内容特征提取算法提取待分析日志中的词频,或者提取待分析日志中的关键词。预设内容特征提取算法不作为本申请的研究重点,其具体内容在这里不作限定,可以任意文本特征提取算法。
所述利用预设内容特征提取算法,提取待分析日志的日志内容特征,具体的,利用预设内容特征提取算法对待分析日志进行分词处理,去除待分析日志中的停用词,根据空格将待分析日志分解为单个的单词,将每个单词作为一个词集,得到待分析日志的词集;将待分析日志的词集进行向量化表示,即可得到待分析日志的日志内容特征。每条待分析日志均存在与之对应的日志内容特征。
S140、根据所述日志内容特征和所述日志数量特征,确定所述待检测系统的异常检测结果。
日志内容特征可以反映待分析日志所记载的待检测系统中发生事件的特征。根据日志内容特征可以确定待检测系统是否存在异常。日志内容特征用于反映待检测系统在设定时间间隔产生日志的数量特征,从日志数量的角度对待检测系统是否存在异常。根据日志数量特征对待检测系统进行异常检测,可以弥补因为待检测系统异常造成的日志丢失、日志内容信息不足,造成系统异常检测不准确的情况。
可选的,可以基于正则表达式的异常检测算法对日志内容特征和日志数量特征进行处理,实现对待检测系统进行异常检测;还可以利用相应的机器学习模型对日志内容特征和日志数量特征进行处理,实现对待检测系统进行异常检测。
本申请实施例所提供的技术方案,通过获取待检测系统的当前日志,作为待分析日志;基于待分析日志中的时间信息,以设定时间间隔对待分析日志进行时间切片处理,并分别统计各时间切片内待分析日志的数量,作为待分析日志的日志数量特征;利用预设内容特征提取算法,提取待分析日志的日志内容特征;根据日志内容特征和日志数量特征,确定待检测系统的异常检测结果。本申请实施例通过从日志数量和日志内容两个方面的对待分析日志进行特征分析,实现了对待检测系统的异常检测。考虑了因待检测系统异常造成日志数量异常的情况,提高了系统异常检测的准确率。
实施例二
图2是本申请实施例二提供的另一种基于日志的系统异常检测方法的流程图。本实施例在上述实施例的基础上进行进一步地优化。具体操作“根据所述日志内容特征和所述日志数量特征,确定所述待检测系统的异常检测结果”进行细化。
如图2所示,所述基于日志的系统异常检测方法包括:
S210、获取待检测系统的当前日志,作为待分析日志。
S220、基于所述待分析日志中的时间信息,以设定时间间隔对所述待分析日志进行时间切片处理,并分别统计各所述时间切片内所述待分析日志的数量,作为所述待分析日志的日志数量特征。
S230、利用预设内容特征提取算法,提取待分析日志的日志内容特征。
S240、将所述日志内容特征输入到预先训练完成的文本分类模型,以供所述文本分类模型输出所述待分析日志的内容分类结果。
其中,文本分类模型用于根据日志内容特征对待分析日志进行分类。将待分析日志的日志内容特征输入到预先训练完成的文本分类模型中,预先训练完成的文本分类模型输出待分析日志的内容分类结果。其中,待分析日志的内容分类结果包括异常类和正常类。异常类对应于记录有异常事件的待分析日志,相对的,正常类对应于未记录有异常事件的待分析日志。其中,异常事件是指待检测系统中发生的异常事件,如数据库异常。
预先训练完成的文本分类模型是利用带有标注数据的日志内容特征训练得到的,日志内容特征的标注数据用于指示日志内容特征对应的待分析日志是否记录有异常事件。预先训练完成的文本分类模型,其内容分类准确度满足实际业务需求。
在一个可选的实施例中,所述文本分类模型为fasttext模型。fasttext模型是一种具有高效的训练速度,可适合对大型数据进行处理的机器学习模型,相对于其他文本分类模型如SVM模型,Logistic Regression模型和neural network模型相比,fastText模型在保持分类效果的同时,大大缩短了训练时间。
fastText模型还加入了N-gram特征,弥补了词袋模型不能考虑单词之间顺序的缺点,将局部词序考虑在内,提升了文本分类效果。示例性的,“我爱她”这句话中的词袋模型特征是“我”、“爱”、“她”。这些特征和句子“她爱我”的特征是一样的。加入2-Ngram特征,第一句话的特征还有“我爱”和“爱她”,这样一来“我爱她”和“她爱我”就能区别开来了。
S250、将所述日志数量特征输入到预先训练完成的数量预测模型,以供所述数量预测模型输出所述待分析日志的数量置信区间。
其中,数量预测模型用于根据日志数量特征,对待分析日志的数量变化趋势进行预测。将待分析日志的日志数量特征输入到预先训练完成的数量预测模型中,预先训练完成的数量预测模型输出待分析日志的数量置信区间以及数量变化趋势曲线。其中,数量置信区间由置信区间上限和置信区间下限确定。数量置信区间为待检测系统未发生异常的情况下,待分析日志数量应处的数量区间范围。将各时间分片内待分析日志的实际数量与数量置信区间进行比较,可以确定在该时间分片对应的时段,待检测系统是否存在异常。
预先训练完成的数量预测模型是利用带有时序标注的日志数量特征训练得到的,日志数量特征的时序标注用于指示日志数量特征所属时段。预先训练完成的数量预测模型,其数量预测准确度满足实际业务需求。
在一个可选的实施例中,所述数量预测模型为Prophet模型。Prophet模型用于预测时间序列数据的模型。Prophet模型对缺失值,趋势的转变和大量的异常值是有极强的鲁棒性。
本申请实施例中,Prophet模型将时间序列分解成四个部分,分别为季节项、趋势项、剩余项和节假日项。其中,趋势项表示时间序列在非周期上的变化趋势;周期项表示季节性周期,例如每周或每年;节假日项用于反映节假日对于待分析日志数量的影响,表示在当前是否存在节假日;剩余项,或称为误差项,用于减小拟合误差。Prophet模型通过拟合上述四项,将四项的累加结果作为时间序列的预测值。
S260、根据所述内容分类结果和所述数量置信区间,确定所述待检测系统的异常检测结果。
若待分析日志的内容分类结果中存在异常类,则确定待检测系统的异常检测结果为存在异常;若存在任意时间分片内的待分析日志的数量在数量置信区间之外,则确定待检测系统的异常检测结果为存在异常;只有在待分析日志的内容分类结果全部为正常类,且任意时间分片内的待分析日志的数量均在数量置信区间之内,则确定待检测系统的异常检测结果为正常。
本申请实施例所提供的技术方案,通过利用预先训练完成的文本分类模型和数量预测模型,分别对日志内容特征和日志数量特征进行处理,提高了待分析日志的分析效率,缩短了系统异常的检测时间,可以及时发现系统存在的异常。
实施例三
图3是本申请实施例三提供的另一种基于日志的系统异常检测方法的流程图。本实施例在上述实施例的基础上进行进一步地优化。在通过文本分类模型和数量预测模型对待分析日志进行特征分析,实现系统异常检测的情况下,提供了文本分类模型的训练过程。
如图3所示,所述文本分类模型的训练过程包括:
S310、获取所述待检测系统的历史日志,作为所述文本分类模型的训练样本。
历史日志记录有历史时段内待检测系统硬件、软件的运行信息。历史日志是对文本分类模型进行训练的数据基础。文本分类模型的训练样本,可以基于历史日志得到。一条历史日志可以对应于一个训练样本,训练样本的数量在这里不作限定,可以知道的是,训练样本的数量会在影响文本分类模型的准确率。一定程度上,训练样本的数量越多文本分类模型的准确率越高。
S320、对所述训练样本进行频繁项集挖掘,得到所述训练样本的频繁项集,并根据所述频繁项集,确定所述训练样本的标注数据。
可以知道的是,文本分类模型是基于有监督学习的机器学习模型。因此文本分类模型的训练样本一般需要包括:日志内容特征和标注数据两个部分内容。
其中,日志内容特征可以利用预设内容特征提取算法从训练样本中提取。至于训练样本的标注数据,本申请通过对训练样本进行频繁项集挖掘,得到训练样本的频繁项集,根据频繁项集确定。
具体的,本申请采用频繁项挖掘算法如FP-Tree算法,对训练样本的频繁项进行挖掘,得到各训练样本的频繁项集。其中,频繁项集是指训练样本中频繁出现的项集,项集对应于训练样本中词语。每一个训练样本均存在对应的频繁项集,频繁项集为训练样本主要内容的提炼,可以根据训练样本的频繁项集确定训练样本的标注数据。其中,标注数据为异常类和正常类。
训练样本的标注数据可以采用人工标注的方式获得,但是可以理解的是,训练文本分类模型往往需要大量的训练样本,采用人工标注人力成本和时间成本高昂,且效率较低。为了提高训练样本标注效率,优选的,采用自动确定训练样本数据的方法。
然而,可以知道的是待检测系统的日志往往是半结构化的,具有异构性的。为了提高训练样本的标注效率,在一个可选的实施例中,根据所述频繁项集,确定所述训练样本的标注数据,包括:基于所述频繁项集之间的相似度对所述训练样本进行分类,并基于所述频繁项集确定各类训练样本对应的日志模板;基于运维知识库中日志模板的标注数据,确定各类日志模板的标注数据;基于各类模板的标注数据,确定所述训练样本的标注数据。
在各训练样本的频繁项集确定的情况下,计算任意两个频繁项集之间的相似度,将计算得到的相似度与预设相似度阈值进行比较,将相似度大于预设相似度阈值的频繁项集对应的训练样本归为一类。其中,频繁项集之间的相似度用于衡量任意两个频繁项集之间的相似程度。根据频繁项集的相似度将主要内容相似的训练样本进行聚类。基于同类训练样本的频繁项集,生成该类训练样本对应的日志模板,称为样本日志模板。
其中,运维知识库是由相关技术人员预先构建的,运维知识库中包括各类型日志模型,称为参考日志模板。每一个参考日志模板均存在对应的标注数据,用于指示该参考日志模板的内容类别,即该参考日志模板中是否记录有异常事件。
可以理解的是,运维知识库可以涵盖待检测系统常用的日志模板,运维知识库可以为训练样本的标注过程提供强大的数据支持。基于运维知识库中日志模板的标注数据,确定各类日志模板的标注数据,具体的,将训练样本对应的样本日志模板与运维知识库中的参考日志模板进行匹配,若匹配成功,则将运维知识库中参考日志模板对应的标注数据,作为样本日志模板的标注数据。
在样本日志模板的标注数据确定的情况下,将训练样本分别与日志模板的进行匹配,若匹配成功则将样本日志模板的标注数据,作为该训练样本的标注数据。
本申请基于各训练样本的相似度对训练样本进行分类,抽取各类训练样本对应的日志模板,结合运维知识库确定日志模型的标注数据,再根据日志模型的标注数据,确定各训练样本的标注数据,提高了训练样本的标注效率,降低了训练文本分类模型的准备成本。
S330、根据所述标注数据对所述训练样本进行采样,得到采样结果。
将标注数据为正常的训练样本作为正样本,将标注数据为异常的样本作为负样本。一般而言待检测系统的正常运行情况,要远多于待检测系统出现异常的情况,因此,训练样本负样本的数量要远少于正样本,正负样本的分布不均衡。可以理解的是,利用分布不均衡的正负样本对训练文本分类模型,会导致文本分类模型难以充分学习到正负样本的日志内容特征,影响文本分类模型的准确度率。为了进一步提高文本分类模型的准确率,本申请实施例根据标注数据对训练样本进行采样,使得正样本和负样本数量相近以均衡正样本和负样本。
S340、利用所述采样结果的日志内容特征和标注数据,对所述文本分类模型进行训练。
采样结果中的正样本的数量和负样本的数量,采样得到的正负样本分布均衡,利用采样得到的训练样本对文本分类模型进行训练。具体的将训练样本的日志内容特征和标注数据作为文本分类模型的输入,对文本分类模型进行训练。
可选的,为了保证文本训练模型的文本分类准确度可以满足业务需求,在文本分类模型训练过程中,对文本分类模型的分类效果进行评估。示例性的,基于下式结合准确率和召回率计算F1评分,根据F1评分评估文本分类模型的分类效果。
其中,式中precision和recall分别表示准确率和召回率。
将得到F1评分与业务指标进行比较,若F1评分满足业务指标则文本分类模型训练完成;相对的,若F1评分不满足业务指标,则在对调整文本分类模型的超参进行调整以后,继续对文本分类模型进行训练直到文本分类模型的F1评分满足业务指标。对文本分类模型的超参进行调整,具体的可以调整样本训练次数、学习率等参数。
本申请实施例在通过文本分类模型和数量预测模型对待分析日志进行特征分析,实现系统异常检测的情况下,提供了文本分类模型的训练过程。本申请实施例通过抽取各类训练样本对应的日志模板,结合运维知识库确定日志模型的标注数据,再根据日志模型的标注数据,确定各训练样本的标注数据,提高了训练样本的标注效率,降低了训练文本分类模型的准备成本。
实施例四
图4是本申请实施例四提供的另一种基于日志的系统异常检测方法的流程图。本实施例在上述实施例的基础上进行进一步地优化。在通过文本分类模型和数量预测模型对待分析日志进行特征分析,实现系统异常检测的情况下,提供了数量预测模型的训练过程。
如图4所示,所述数量预测模型的训练过程包括:
S410、获取所述待检测系统的历史日志,作为所述数量预测模型的训练样本。
S420、基于所述训练样本中的时间信息,以所述设定时间间隔对所述待训练样本进行时间切片处理,并分别统计各所述时间切片内所述训练样本的数量,作为所述训练样本的日志数量特征。
以当前时刻为时间起点,根据训练样本中的时间信息,将训练样本按照时间由近及远的顺序或者由近及远的顺序进行排序,再以设定时间间隔对训练样本进行时间切片处理,分别统计落入各时间切片内的训练样本的条数。将训练样本的数量作为训练样本的日志数量特征。
值得注意是,本申请基于相同的设定时间间隔,对训练样本和待分析日志进行时间切片。
S430、根据所述日志数量特征所属时间切片的时间顺序,确定所述日志数量特征的时序标签。
待检测系统的日志数量与时间相关,示例性的,在待检测系统为商业银行的业务办理系统的情况下,以一天为例,一天中工作时段的日志数量要远多于休息时段的日志数量,按照时间顺序绘制日志数量趋势曲线,可以发现日志数量变化与时间相关,在时间维度上日志数量具有可预测性。
因此,日志数量特征之间的时序,对于保证利用数量预测模型的日志数量预测准确度至关重要。
S440、利用所述日志数量特征和所述时序标签,对所述数量预测模型进行训练。
利用日志数量特征和时序标签,对数量预测模型进行训练。具体的,带有时序标签的日志数量特征,作为数量预测模型的输入,对数量预测模型进行训练。
可选的,为了保证数量预测模型的文本分类准确度可以满足业务需求,在数量预测模型训练过程中,对数量预测模型的预测效果进行评估。示例性的,基于平均绝对误差(MAE)评估数量预测模型的预测效果。
将得到平均绝对误差与业务指标进行比较,若平均绝对误差满足业务指标则数量预测模型训练完成;相对的,若平均绝对误差不满足业务指标,则在对调整数量预测模型的超参进行调整以后,继续对数量预测模型进行训练直到数量预测模型的平均绝对误差满足业务指标。对数量预测模型的超参进行调整,具体的可以调整设定时间间隔、光滑参数、趋势项、季节项和节假日项等参数。
本申请实施例在通过文本分类模型和数量预测模型对待分析日志进行特征分析,实现系统异常检测的情况下,提供了数量预测模型的训练过程。本申请考虑了因待检测系统异常造成日志数量异常的情况,提高了系统异常检测的准确率。
实施例五
图5是本申请实施例五提供的一种基于日志的系统异常检测装置,本实施例可适用于基于日志对应用系统进行异常检测的情况。所述装置可由软件和/或硬件实现,并可集成于智能终端等电子设备中。
如图5所示,该装置可以包括:当前日志获取模块510、日志数量特征确定模块520、日志内容特征确定模块530和系统检测结果确定模块540。
当前日志获取模块510,用于获取待检测系统的当前日志,作为待分析日志;
日志数量特征确定模块520,用于基于所述待分析日志中的时间信息,以设定时间间隔对所述待分析日志进行时间切片处理,并分别统计各所述时间切片内所述待分析日志的数量,作为所述待分析日志的日志数量特征;
日志内容特征确定模块530,用于利用预设内容特征提取算法,提取待分析日志的日志内容特征;
系统检测结果确定模块540,用于根据所述日志内容特征和所述日志数量特征,确定所述待检测系统的异常检测结果。
本申请实施例所提供的技术方案,通过获取待检测系统的当前日志,作为待分析日志;基于待分析日志中的时间信息,以设定时间间隔对待分析日志进行时间切片处理,并分别统计各时间切片内待分析日志的数量,作为待分析日志的日志数量特征;利用预设内容特征提取算法,提取待分析日志的日志内容特征;根据日志内容特征和日志数量特征,确定待检测系统的异常检测结果。本申请实施例通过从日志数量和日志内容两个方面的对待分析日志进行特征分析,实现了对待检测系统的异常检测。考虑了因待检测系统异常造成日志数量异常的情况,提高了系统异常检测的准确率。
可选的,系统检测结果确定模块540,包括:内容分类结果确定子模块,用于将所述日志内容特征输入到预先训练完成的文本分类模型,以供所述文本分类模型输出所述待分析日志的内容分类结果;数量置信区间确定子模块,用于将所述日志数量特征输入到预先训练完成的数量预测模型,以供所述数量预测模型输出所述待分析日志的数量置信区间;异常检测结果确定子模块,用于根据所述内容分类结果和所述数量置信区间,确定所述待检测系统的异常检测结果。
可选的,所述装置还包括:文本分类模型训练模块,用于在将所述日志内容特征输入到预先训练完成的文本分类模型之前,对所述文本分类模型进行训练。所述文本分类模型训练模块,包括第一训练样本获取子模块,用于获取所述待检测系统的历史日志,作为所述文本分类模型的训练样本;频繁项集挖掘子模块,用于对所述训练样本进行频繁项集挖掘,得到所述训练样本的频繁项集,并根据所述频繁项集,确定所述训练样本的标注数据;训练样本采样子模块,用于根据所述标注数据对所述训练样本进行采样,得到采样结果;文本分类模型训练子模块,用于利用所述采样结果的日志内容特征和标注数据,对所述文本分类模型进行训练。
可选的,训练数据确定子模块,包括:日志模板确定单元,用于基于所述频繁项集之间的相似度对所述训练样本进行分类,并基于所述频繁项集确定各类训练样本对应的日志模板;模板标注数据确定单元,用于基于运维知识库中日志模板的标注数据,确定各类日志模板的标注数据;样本标注数据确定单元,用于基于各类模板的标注数据,确定所述训练样本的标注数据。
可选的,所述装置还包括:数量预测模型训练模块,用于在将所述日志数量特征输入到预先训练完成的数量预测模型之前,对数量预测模型进行训练。
所述数量预测模型训练模块,包括:第二训练样本获取子模块,用于获取所述待检测系统的历史日志,作为所述数量预测模型的训练样本;日志数量特征确定子模块,用于基于所述训练样本中的时间信息,以所述设定时间间隔对所述待训练样本进行时间切片处理,并分别统计各所述时间切片内所述训练样本的数量,作为所述训练样本的日志数量特征;时序标签确定子模块,用于根据所述日志数量特征所属时间切片的时间顺序,确定所述日志数量特征的时序标签;数量预测模型训练子模块,用于利用所述日志数量特征和所述时序标签,对所述数量预测模型进行训练。
可选的,其中,所述文本分类模型为fasttext模型;所述数量预测模型为Prophet模型。
本发明实施例所提供的一种基于日志的系统异常检测装置可执行本发明任意实施例所提供的一种基于日志的系统异常检测方法,具备执行一种基于日志的系统异常检测方法相应的性能模块和有益效果。
实施例六
本申请实施例六还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种基于日志的系统异常检测方法,该方法包括:
获取待检测系统的当前日志,作为待分析日志;
基于所述待分析日志中的时间信息,以设定时间间隔对所述待分析日志进行时间切片处理,并分别统计各所述时间切片内所述待分析日志的数量,作为所述待分析日志的日志数量特征;
利用预设内容特征提取算法,提取待分析日志的日志内容特征;
根据所述日志内容特征和所述日志数量特征,确定所述待检测系统的异常检测结果
存储介质是指任何的各种类型的存储器电子设备或存储电子设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDR RAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到计算机系统。第二计算机系统可以提供程序指令给计算机用于执行。术语“存储介质”可以包括可以驻留在不同未知中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的基于日志的系统异常检测操作,还可以执行本申请任意实施例所提供的基于日志的系统异常检测方法中的相关操作。
实施例七
本申请实施例七提供了一种电子设备,该电子设备中可集成本申请实施例提供的基于日志的系统异常检测装置,该电子设备可以是配置于系统内的,也可以是执行系统内的部分或者全部性能的设备。图6是本申请实施例七提供的一种电子设备的结构示意图。如图6所示,本实施例提供了一种电子设备600,其包括:一个或多个处理器620;存储装置610,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器620执行,使得所述一个或多个处理器620实现本申请实施例所提供的基于日志的系统异常检测方法,该方法包括:
获取待检测系统的当前日志,作为待分析日志;
基于所述待分析日志中的时间信息,以设定时间间隔对所述待分析日志进行时间切片处理,并分别统计各所述时间切片内所述待分析日志的数量,作为所述待分析日志的日志数量特征;
利用预设内容特征提取算法,提取待分析日志的日志内容特征;
根据所述日志内容特征和所述日志数量特征,确定所述待检测系统的异常检测结果
当然,本领域技术人员可以理解,处理器620还实现本申请任意实施例所提供的基于日志的系统异常检测方法的技术方案。
图6显示的电子设备600仅仅是一个示例,不应对本申请实施例的性能和使用范围带来任何限制。
如图6所示,该电子设备600包括处理器620、存储装置610、输入装置630和输出装置640;电子设备中处理器620的数量可以是一个或多个,图6中以一个处理器620为例;电子设备中的处理器620、存储装置610、输入装置630和输出装置640可以通过总线或其他方式连接,图6中以通过总线650连接为例。
存储装置610作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块单元,如本申请实施例中的基于日志的系统异常检测方法对应的程序指令。
存储装置610可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个性能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置610可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置610可进一步包括相对于处理器620远程设置的存储器,这些远程存储器可以通过网络连接。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置630可用于接收输入的数字、字符信息或语音信息,以及产生与电子设备的用户设置以及性能控制有关的键信号输入。输出装置640可包括显示屏、扬声器等电子设备。
上述实施例中提供的基于日志的系统异常检测装置、介质及电子设备可执行本申请任意实施例所提供的基于日志的系统异常检测方法,具备执行该方法相应的性能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的基于日志的系统异常检测方法。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。
Claims (10)
1.一种基于日志的系统异常检测方法,其特征在于,所述方法包括:
获取待检测系统的当前日志,作为待分析日志;
基于所述待分析日志中的时间信息,以设定时间间隔对所述待分析日志进行时间切片处理,并分别统计各所述时间切片内所述待分析日志的数量,作为所述待分析日志的日志数量特征;
利用预设内容特征提取算法,提取待分析日志的日志内容特征;
根据所述日志内容特征和所述日志数量特征,确定所述待检测系统的异常检测结果。
2.根据权利要求1所述的方法,其特征在于,根据所述日志内容特征和所述日志数量特征,确定所述待检测系统的异常检测结果,包括:
将所述日志内容特征输入到预先训练完成的文本分类模型,以供所述文本分类模型输出所述待分析日志的内容分类结果;
将所述日志数量特征输入到预先训练完成的数量预测模型,以供所述数量预测模型输出所述待分析日志的数量置信区间;
根据所述内容分类结果和所述数量置信区间,确定所述待检测系统的异常检测结果。
3.根据权利要求2所述的方法,其特征在于,在将所述日志内容特征输入到预先训练完成的文本分类模型之前,所述方法还包括所述文本分类模型的训练过程:
获取所述待检测系统的历史日志,作为所述文本分类模型的训练样本;
对所述训练样本进行频繁项集挖掘,得到所述训练样本的频繁项集,并根据所述频繁项集,确定所述训练样本的标注数据;
根据所述标注数据对所述训练样本进行采样,得到采样结果;
利用所述采样结果的日志内容特征和标注数据,对所述文本分类模型进行训练。
4.根据权利要求3所述的方法,其特征在于,根据所述频繁项集,确定所述训练样本的标注数据,包括:
基于所述频繁项集之间的相似度对所述训练样本进行分类,并基于所述频繁项集确定各类训练样本对应的日志模板;
基于运维知识库中日志模板的标注数据,确定各类日志模板的标注数据;
基于各类模板的标注数据,确定所述训练样本的标注数据。
5.根据权利要求2所述的方法,其特征在于,在将所述日志数量特征输入到预先训练完成的数量预测模型之前,所述方法还包括所述数量预测模型的训练过程:
获取所述待检测系统的历史日志,作为所述数量预测模型的训练样本;
基于所述训练样本中的时间信息,以所述设定时间间隔对所述待训练样本进行时间切片处理,并分别统计各所述时间切片内所述训练样本的数量,作为所述训练样本的日志数量特征;
根据所述日志数量特征所属时间切片的时间顺序,确定所述日志数量特征的时序标签;
利用所述日志数量特征和所述时序标签,对所述数量预测模型进行训练。
6.根据权利要求2所述的方法,其特征在于,其中,所述文本分类模型为fasttext模型;所述数量预测模型为Prophet模型。
7.一种基于日志的系统异常检测装置,其特征在于,所述装置包括:
当前日志获取模块,用于获取待检测系统的当前日志,作为待分析日志;
日志数量特征确定模块,用于基于所述待分析日志中的时间信息,以设定时间间隔对所述待分析日志进行时间切片处理,并分别统计各所述时间切片内所述待分析日志的数量,作为所述待分析日志的日志数量特征;
日志内容特征确定模块,用于利用预设内容特征提取算法,提取待分析日志的日志内容特征;
系统检测结果确定模块,用于根据所述日志内容特征和所述日志数量特征,确定所述待检测系统的异常检测结果。
8.根据权利要求7所述的装置,其特征在于,所述系统检测结果确定模块,包括:
内容分类结果确定子模块,用于将所述日志内容特征输入到预先训练完成的文本分类模型,以供所述文本分类模型输出所述待分析日志的内容分类结果;
数量置信区间确定子模块,用于将所述日志数量特征输入到预先训练完成的数量预测模型,以供所述数量预测模型输出所述待分析日志的数量置信区间;
异常检测结果确定子模块,用于根据所述内容分类结果和所述数量置信区间,确定所述待检测系统的异常检测结果。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一项所述的基于日志的系统异常检测方法。
10.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-6中任一项所述的基于日志的系统异常检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210089309.7A CN114416511A (zh) | 2022-01-25 | 2022-01-25 | 基于日志的系统异常检测方法、装置、介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210089309.7A CN114416511A (zh) | 2022-01-25 | 2022-01-25 | 基于日志的系统异常检测方法、装置、介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114416511A true CN114416511A (zh) | 2022-04-29 |
Family
ID=81276500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210089309.7A Pending CN114416511A (zh) | 2022-01-25 | 2022-01-25 | 基于日志的系统异常检测方法、装置、介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114416511A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114756401A (zh) * | 2022-06-15 | 2022-07-15 | 国家超级计算天津中心 | 基于日志的异常节点检测方法、装置、设备及介质 |
CN115033463A (zh) * | 2022-08-12 | 2022-09-09 | 北京优特捷信息技术有限公司 | 一种系统异常类型确定方法、装置、设备和存储介质 |
CN115242457A (zh) * | 2022-06-28 | 2022-10-25 | 中国电信股份有限公司 | 一种日志数据的检测方法、装置、电子设备和存储介质 |
CN115426254A (zh) * | 2022-08-26 | 2022-12-02 | 中国银行股份有限公司 | 系统日志异常识别网络的建立、识别方法和装置 |
CN117764106A (zh) * | 2023-12-28 | 2024-03-26 | 北京新光微电科技有限公司 | 基于rfid的嵌入式抗金属电子标签 |
-
2022
- 2022-01-25 CN CN202210089309.7A patent/CN114416511A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114756401A (zh) * | 2022-06-15 | 2022-07-15 | 国家超级计算天津中心 | 基于日志的异常节点检测方法、装置、设备及介质 |
CN114756401B (zh) * | 2022-06-15 | 2022-09-09 | 国家超级计算天津中心 | 基于日志的异常节点检测方法、装置、设备及介质 |
CN115242457A (zh) * | 2022-06-28 | 2022-10-25 | 中国电信股份有限公司 | 一种日志数据的检测方法、装置、电子设备和存储介质 |
CN115033463A (zh) * | 2022-08-12 | 2022-09-09 | 北京优特捷信息技术有限公司 | 一种系统异常类型确定方法、装置、设备和存储介质 |
CN115033463B (zh) * | 2022-08-12 | 2022-11-22 | 北京优特捷信息技术有限公司 | 一种系统异常类型确定方法、装置、设备和存储介质 |
CN115426254A (zh) * | 2022-08-26 | 2022-12-02 | 中国银行股份有限公司 | 系统日志异常识别网络的建立、识别方法和装置 |
CN117764106A (zh) * | 2023-12-28 | 2024-03-26 | 北京新光微电科技有限公司 | 基于rfid的嵌入式抗金属电子标签 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114416511A (zh) | 基于日志的系统异常检测方法、装置、介质及电子设备 | |
US11636389B2 (en) | System and method for improving machine learning models by detecting and removing inaccurate training data | |
Shivaji et al. | Reducing features to improve code change-based bug prediction | |
WO2022110637A1 (zh) | 问答对话评测方法、装置、设备及存储介质 | |
CN112765003B (zh) | 一种基于app行为日志的风险预测方法 | |
Shah et al. | Towards benchmarking feature type inference for automl platforms | |
CN113537337A (zh) | 训练方法、异常检测方法、装置、设备和存储介质 | |
CN113988044B (zh) | 错题原因类别的判定方法 | |
CN115758183A (zh) | 日志异常检测模型的训练方法及装置 | |
CN116661954B (zh) | 虚拟机异常预测方法、装置、通信设备及存储介质 | |
CN116841779A (zh) | 异常日志检测方法、装置、电子设备和可读存储介质 | |
CN107368464B (zh) | 一种获取招标产品信息的方法及装置 | |
CN110688558A (zh) | 网页搜索的方法、装置、电子设备和存储介质 | |
CN114139636B (zh) | 异常作业处理方法及装置 | |
CN115470034A (zh) | 一种日志分析方法、设备及存储介质 | |
CN110458383B (zh) | 需求处理服务化的实现方法、装置及计算机设备、存储介质 | |
CN110727767B (zh) | 一种扩展文本样本的方法及系统 | |
CN110705597B (zh) | 基于事件因果关系抽取的网络苗头事件检测方法及系统 | |
CN113095589A (zh) | 一种人口属性确定方法、装置、设备及存储介质 | |
CN116932487B (zh) | 一种基于数据段落划分的量化式数据分析方法及系统 | |
US11983629B1 (en) | Prior injections for semi-labeled samples | |
US11880657B1 (en) | Systems and methods for information extraction accuracy analysis | |
CN111008874B (zh) | 技术趋势预测方法、系统及存储介质 | |
US20240220823A1 (en) | Machine learning insights based on identifier distributions | |
CN115062191A (zh) | 基于异构图的数据交互的异常行为检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |