CN111611146A - 一种微服务故障预测方法和装置 - Google Patents

一种微服务故障预测方法和装置 Download PDF

Info

Publication number
CN111611146A
CN111611146A CN202010558766.7A CN202010558766A CN111611146A CN 111611146 A CN111611146 A CN 111611146A CN 202010558766 A CN202010558766 A CN 202010558766A CN 111611146 A CN111611146 A CN 111611146A
Authority
CN
China
Prior art keywords
feature
data
calculating
log data
fault prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010558766.7A
Other languages
English (en)
Other versions
CN111611146B (zh
Inventor
肖勇
曾勇刚
杨劲锋
周密
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Southern Power Grid Co Ltd
Research Institute of Southern Power Grid Co Ltd
Original Assignee
China Southern Power Grid Co Ltd
Research Institute of Southern Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Southern Power Grid Co Ltd, Research Institute of Southern Power Grid Co Ltd filed Critical China Southern Power Grid Co Ltd
Priority to CN202010558766.7A priority Critical patent/CN111611146B/zh
Publication of CN111611146A publication Critical patent/CN111611146A/zh
Application granted granted Critical
Publication of CN111611146B publication Critical patent/CN111611146B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3457Performance evaluation by simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种微服务故障预测方法和装置,用于解决现有技术无法基于日志对微服务进行故障预测的问题。本发明包括:获取微服务的历史日志数据;从历史日志数据中提取特征数据;特征数据包括多个特征项;计算特征项的信息增益值;将信息增益值大于预设门限值的特征项作为目标特征项;采用目标特征项训练故障预测模型;获取当前日志数据,并将当前日志数据输入故障预测模型,生成故障预测结果。本发明通过从历史日志数据中提取特征数据;再从特征数据中提取信息增益值大于预设门限值的目标特征项作为样本数据,构建故障预测模型,从而通过故障预测模型实现对微服务将来一段时间的故障情况的预测,进而针对预测结果及时采取措施降低故障损失。

Description

一种微服务故障预测方法和装置
技术领域
本发明涉及微服务处理技术领域,尤其涉及一种微服务故障预测方法和装置。
背景技术
微服务的故障预测是通过分析当前基于微服务架构的电网计量系统的状态,从而判断未来一段时间内系统是否产生故障,并有效地防止因系统故障带来的影响。根据其分析对象的变化,故障预测在实际应用中主要分为两类:基于电网计量系统的历史故障数据进行预测和基于当前电网计量系统运行参数进行预测。
通过分析对微服务系统的故障预测研究可以得知,现有的大多数面向微服务系统的故障预测方法都没有充分利用微服务系统中日志数据所蕴含的信息。传统日志数据处理方案大多从日志处理和分析两方面挖掘日志中蕴含的有效信息,但基于日志进行微服务故障预测方面则少有涉足。
发明内容
本发明提供了一种微服务故障预测方法和装置,用于解决现有技术无法基于日志对微服务进行故障预测的问题。
本发明提供的一种微服务故障预测方法,包括:
获取所述微服务的历史日志数据;
从所述历史日志数据中提取特征数据;所述特征数据包括多个特征项;
计算所述特征项的信息增益值;
将所述信息增益值大于预设门限值的特征项作为目标特征项;
采用所述目标特征项训练故障预测模型;
获取当前日志数据,并将所述当前日志数据输入所述故障预测模型,生成故障预测结果。
可选地,所述从所述历史日志数据中提取特征数据的步骤,包括:
确定特征提取类型;
在所述历史日志数据中提取所述特征提取类型对应的特征数据。
可选地,所述计算所述特征项的信息增益值的步骤,包括:
计算所述特征数据的第一信息量;
计算所述特征项的条件熵;
计算所述信息量与所述条件熵的差值,将所述差值确定为所述特征项的信息增益值。
可选地,所述计算所述特征数据的第一信息量的步骤,包括:
获取每个所述特征项的第一出现概率以及对应的多个变量值;
采用所述第一出现概率和所述变量值计算所述特征数据的第一信息量。
可选地,所述计算所述特征项的条件熵的步骤,包括:
获取每个所述变量值对应的第二出现概率;
基于所述变量值,计算所述特征数据的第二信息量;
采用每个所述变量值对应的第二出现概率和第二信息量,计算所述特征项的条件熵。
可选地,所述的方法还包括:
将预设测试日志数据输入所述故障预测模型,得到预测结果;
计算所述预测结果的准确率、召回率和测评值;
采用所述准确率、所述召回率和所述测评值评估所述故障预测模型。
本发明提供的一种微服务故障预测装置,包括:
历史日志数据获取模块,用于获取所述微服务的历史日志数据;
特征数据提取模块,用于从所述历史日志数据中提取特征数据;所述特征数据包括多个特征项;
信息增益值计算模块,用于计算所述特征项的信息增益值;
目标特征项确定模块,用于将所述信息增益值大于预设门限值的特征项作为目标特征项;
故障预测模型训练模块,用于采用所述目标特征项训练故障预测模型;
故障预测结果生成模块,用于获取当前日志数据,并将所述当前日志数据输入所述故障预测模型,生成故障预测结果。
可选地,所述特征数据提取模块,包括:
特征提取类型确定子模块,用于确定特征提取类型;
特征数据提取子模块,用于在所述历史日志数据中提取所述特征提取类型对应的特征数据。
可选地,所述信息增益值计算模块,包括:
第一信息量计算子模块,用于计算所述特征数据的第一信息量;
条件熵计算子模块,用于计算所述特征项的条件熵;
信息增益值计算子模块,用于计算所述信息量与所述条件熵的差值,将所述差值确定为所述特征项的信息增益值。
可选地,所述第一信息量计算子模块,包括:
第一出现概率以及变量值获取单元,用于获取每个所述特征项的第一出现概率以及对应的多个变量值;
第一信息量计算单元,用于采用所述第一出现概率和所述变量值计算所述特征数据的第一信息量。
可选地,所述条件熵计算子模块,包括:
第二出现概率获取单元,用于获取每个所述变量值对应的第二出现概率;
第二信息量计算单元,用于基于所述变量值,计算所述特征数据的第二信息量;
条件熵计算单元,用于采用每个所述变量值对应的第二出现概率和第二信息量,计算所述特征项的条件熵。
可选地,所述的装置还包括:
预测结果获取模块,用于将预设测试日志数据输入所述故障预测模型,得到预测结果;
确率、召回率和测评值计算模块,用于计算所述预测结果的准确率、召回率和测评值;
评估模块,用于采用所述准确率、所述召回率和所述测评值评估所述故障预测模型。
从以上技术方案可以看出,本发明具有以下优点:本发明通过对微服务的历史日志数据进行分析,从中提取特征数据;再从特征数据中提取信息增益值大于预设门限值的目标特征项作为样本数据,构建故障预测模型,从而通过故障预测模型实现对微服务将来一段时间的故障情况的预测,进而针对预测结果及时采取措施降低故障损失。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种微服务故障预测方法的步骤流程图;
图2为本发明实施例提供的一种微服务故障预测方法的原理流程图;
图3为本发明实施例提供的一种微服务故障预测装置的结构框图。
具体实施方式
本发明实施例提供了一种微服务故障预测方法,用于解决现有技术无法基于日志对微服务进行故障预测的技术问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,图1为本发明实施例提供的一种微服务故障预测方法的步骤流程图。
本发明提供的一种微服务故障预测方法,包括:
步骤101,获取所述微服务的历史日志数据;
现有的面向微服务系统的大多数故障预测方法都没有充分利用微服务系统中日志数据所蕴含的信息。传统日志数据处理方案大多从日志处理和分析两方面挖掘日志中蕴含的有效信息,但基于日志进行微服务故障预测方面则少有涉足。本发明实施例主要基于微服务的历史日志数据来进行故障预测。因此本发明实施例需要导出电网计量系统的历史日志数据,并对其进行整理保存以便开展后续的工作。
需要说明的是,在微服务运行过程中会产生INFO,WARN,ERROR,FATAL四种级别日志。由于INFO和WARM日志的出现仅仅表示系统当前运行日志记录以及相关的信息警示,不表示有故障产生,而系统还能继续正常运行,所以这部分不作为故障预测的重点,ERROR表示已经出现异常,虽然系统还能运行,但不保障系统是否能继续工作下去,FATAL表示系统已经出现严重故障且难以自愈,如果继续运行则会产生无法估量的后果。本发明实施例主要针对FATAL类的故障进行预测。
在本发明实施例中,在收集到的电网计量系统历史日志数据中,往往有部分日志记录信息不全,如缺少返回内容长度,日志记录时间数值非法等情况,称为非法数据。这些非法数据会严重影响预测的准确性,所以需要将这部分错误数据进行清洗。
此外,将非法数据清洗后的数据集中可能存在一定的冗余或其他的噪声信息,所以还要对历史日志数据做筛选处理,主要对被认为是噪声数据的部分做筛选处理,以便更好地发现数据间的规律。在本发明实施例中,对历史日志数据的筛选主要有对INFO日志的筛选和对派生日志的筛选两种。筛选INFO日志主要是由于INFO日志的故障级别较低且对整个系统运行健康影响较小,故首先删除INFO级别的日志。对派生日志的筛选有助于进一步降低数据噪声干扰。在微服务架构中,容器节点与节点之间往往是级联调用,相互之间存在着一定的耦合性,当某个调用容器模块出现故障时,相关调用该故障容器的模块容器也会出现故障,前者称为Root故障,后者称为派生故障,Root故障和派生故障常常发生在同一时间段前后时间内,通过比对派生故障与Root故障之间的联系,可以将历史日志数据中的派生日志记录进行删除。
步骤102,从所述历史日志数据中提取特征数据;所述特征数据包括多个特征项;
在本发明实施例中,在获取得到历史日志数据后,可以从历史日志数据中提取特征数据,以根据特征数据训练故障预测模型。
在一个示例中,本发明实施例所提取的特征数据可以包括以下几种类型:
第一种特征类型:最近时间段内各个容器日志故障记录以及互异日志故障级别事件信息;其中,最近时间段是最接近当前系统运行时间点的一个时间间隔,互异日志是非短时间内重复告警的日志。
第二种特征类型:观察时间段内各个容器日志故障记录和各日志故障级别事件信息。
第三种特征类型:每个样本间隔内各个容器日志故障记录和互异日志故障级别事件信息;其中,样本间隔为对基本单位事件间隔进行更细粒度的时间划分后得到的时间间隔。
第四种特征类型:最近时间段、观察时间段和样本间隔中每个容器包含的不同故障级别的日志事件数量和每个容器中不同请求动作的日志事件数量。
第五种特征类型:观察时间段内的具体容器日志记录以及互异日志故障级别事件信息的统计分布。
第六种特征类型:时间属性也是影响系统故障的重要因素,所以将时间作为一项特征。
步骤103,计算所述特征项的信息增益值;
信息增益值是针对单个特征而言的,一个特征t给系统带来的信息量就是这个特征的信息增益,其为系统在有它和没它的情况下信息量的差值。基于信息增益值的大小不同,特征对故障预测模型的性能影响程度不同。
在本发明实施例中,在从历史日志数据中提取到特征数据后,需要计算特征数据中的每一个特征项的信息增益值,以确定每个特征对故障预测模型的影响程度。
在本发明实施例中,步骤103可以包括以下子步骤:
S11,计算所述特征数据的第一信息量;
S12,计算所述特征项的条件熵;
S13,计算所述信息量与所述条件熵的差值,将所述差值确定为所述特征项的信息增益值。
信息量是指信息多少的量度。在信息论中,信源输出的消息是随机的。即在未收到消息之前,是不能肯定信源到底发送什么样的消息。而通信的目的也就是要使接收者在接收到消息后,尽可能多的解除接收者对信源所存在的疑义(不定度),因此这个被解除的不定度实际上就是在通信中所要传送的信息量。
条件熵是指系统中某一特征项为定值的情况下系统的信息量。
在本发明实施中,特征项的信息增益值是指含有该特征项的特征数据的第一信息量与该特征项的条件熵之间的差值。
在一个示例中,子步骤S11可以进一步包括以下子步骤:
S111,获取每个所述特征项的第一出现概率以及对应的多个变量值;
S112,采用所述第一出现概率和所述变量值计算所述特征数据的第一信息量。
具体地,在本发明实施例中,特征数据中包括了多个特征类型的特征项,特征类型C是变量,它可能的取值是C1,C2,...,Cn,而每一个类型出现的概率是P(C1),P(C2)...P(Cn),n是类型的总数,因此特征数据的第一信息量可以用以下公式表示:
Figure BDA0002545498850000071
在一个示例中,子步骤S12可以进一步包括以下子步骤:
S121,获取每个所述变量值对应的第二出现概率;
S122,基于所述变量值,计算所述特征数据的第二信息量;
S123,采用每个所述变量值对应的第二出现概率和第二信息量,计算所述特征项的条件熵。
具体地,特征项的条件熵是指特征项的数值固定的情况下,包含该特征项的特征数据的信息量,考虑到特征项的取值可能有多种,因此需要基于每一个取值求取一次第二信息量,然后计算所求取的多个第二信息量的均值来确定特征项的条件熵。需要注意的是,由于特征项的每个取值的出现概率不同,因此求取多个第二信息量的均值的过程中需要考虑到特征项每个取值的第二出现概率,这这种基础上求取多个第二信息量的均值。
通过上述过程,可以计算得到特征数据中的每一个特征项的信息增益值,从而确定每个特征对故障预测模型的影响程度。
步骤104,将所述信息增益值大于预设门限值的特征项作为目标特征项;
门限值是一个临界数值,在本发明实施例中,当信息增益值超过门限值时,会对后续生成的故障预测模型的准确度产生消极影响。
在本发明实施例中,可以通过信息增益评估准则对特征项进行计算得出每一个特征项的信息增益值,然后对信息增益值进行排序,筛选信息增益值大于门限值的特征项。
在实际应用中,因为门限值是对日志特征项的信息增益值的排序结果进行截取,所述选择合适的门限值可以大大增加故障预测模型的准确率。
在一个示例中,门限值的选取规则为:使某一相关特征项的信息增益能够在一定程度上增加故障预测模型的准确度(如0.5%~1%,这个范围可以根据实际情况设置)的值。
步骤105,采用所述目标特征项训练故障预测模型;
在本发明实施例中,当获取到目标特征项后,可以将目标特征项作为预测算法数据输入并训练学习得到故障预测模型。
在一个示例中,可以采用K近邻(K-Nearest Neighbors,KNN)算法来创建故障预测模型。K近邻算法需要确定的三要素是k值的选取,距离度量的方式和分类决策规则。
在具体实现中,对于分类决策规则,一般都是使用多数表决法。
对于k值的选择,一般根据样本的分布,选择一个较小的值。例如,可以通过交叉验证选择一个合适的k值,将数据集随机均分为10份,依次选择某1份作为测试集,其他9份作为训练集,用测试集对训练出来的模型进行检测,并统计预测类型结果,重复10次实验,综合所有预测类型结果,就可以得到较为合适的k值。
对于距离的度量,通常采用欧式距离。在本发明实施例中,由于历史日志信息包括多种特征类型,而每一种特征类型都可以得到多种特征,每一种特征在进行门限值的截取之后,会作为样本的一个特征维度,将该样本的每一个特征作为一个特征维度组建一个向量,就是该样本的特征向量。
对于两个n维向量x和y,两者的欧式距离定义为:
Figure BDA0002545498850000091
其中,n是样本的特征向量的维度,i是该样本特征向量中每个维度上的特征项。
在本发明实施例中,在训练得到故障预测模型后,可以对故障预测模型进行预测性能评估。
具体的评估过程如下:
将预设测试日志数据输入所述故障预测模型,得到预测结果;
计算所述预测结果的准确率、召回率和测评值;
采用所述准确率、所述召回率和所述测评值评估所述故障预测模型。
在本发明实施例中,可以使用准确率(Precision)、召回率(Recall)和测评值F1作为预测性能评估标准。
在具体实现中,根据测试日志数据的实际类别和预测类别组合可以将样本划分为准确预测故障数TP、错误预测故障数FP、未准确预测故障数FN和准确预测非故障数FN,测试日志数据的样本总数N=TP+FP+TN+FN;预测结果定义矩阵如下表1所示:
Figure BDA0002545498850000092
表1
准确率主要表示预测结果中正确的百分比,其计算方式为TP/(TP+FP);召回率则表示在故障级别中被准确预测的百分比,其计算方式为TP/(TP+FN);F1值是将准确率和召回率结合的测评值,其计算方式为2*TP/(N+TP-TN)。
需要说明的是,微服务架构故障主要分为两部分:突发式传播故障和渐变式传播故障。其中渐变性传播故障主要是由部分微服务业务逻辑操作不当、网络负载过重、内存资源不足等因素造成的,对其运行时逻辑操作所产生的状态信息进行监测、获取并分析预测可以提前预知故障发生的可能性。本发明实施例的故障预测模型主要针对微服务中的渐变性传播故障,以预测是否出现FATAL故障级别日志判断系统未来的故障状态。
步骤106,获取当前日志数据,并将所述当前日志数据输入所述故障预测模型,生成故障预测结果。
在本发明实施例中,当训练得到故障预测模型后,将当前日志数据输入故障预测模型就可以得到未来一定时间间隔内的故障预测结果。
为方便本领域技术人员理解本发明实施例,以下通过具体示例进行说明。
请参阅图2,图2为本发明实施例一种微服务故障预测方法的原理流程图,具体包括以下流程:
1,采集历史日志数据;
2,对历史日志数据进行数据清洗,并将其分解为待学习数据集和测试评估数据集;
3,通过K近邻法和待学习数据集训练得到故障预测模型;
4,通过测试评估数据集对故障预测模型进行评估;
5,在训练得到故障预测模型后,当需要对将来的故障状态进行预测时,获取待预测数据集(一般为最近一段时间内产生的日志数据),将该待预测数据集输入故障预测模型中,得到预测分类结果。
本发明通过对微服务的历史日志数据进行分析,从中提取特征数据;再从特征数据中提取信息增益值大于预设门限值的目标特征项作为样本数据,构建故障预测模型,从而通过故障预测模型实现对微服务将来一段时间的故障情况的预测,进而针对预测结果及时采取措施降低故障损失。
请参阅图3,图3是本发明实施例一种微服务故障预测装置的结构框图。
本发明提供的一种微服务故障预测装置,包括:
历史日志数据获取模块301,用于获取所述微服务的历史日志数据;
特征数据提取模块302,用于从所述历史日志数据中提取特征数据;所述特征数据包括多个特征项;
信息增益值计算模块303,用于计算所述特征项的信息增益值;
目标特征项确定模块304,用于将所述信息增益值大于预设门限值的特征项作为目标特征项;
故障预测模型训练模块305,用于采用所述目标特征项训练故障预测模型;
故障预测结果生成模块306,用于获取当前日志数据,并将所述当前日志数据输入所述故障预测模型,生成故障预测结果。
在本发明实施例中,所述特征数据提取模块302,包括:
特征提取类型确定子模块,用于确定特征提取类型;
特征数据提取子模块,用于在所述历史日志数据中提取所述特征提取类型对应的特征数据。
在本发明实施例中,所述信息增益值计算模块303,包括:
第一信息量计算子模块,用于计算所述特征数据的第一信息量;
条件熵计算子模块,用于计算所述特征项的条件熵;
信息增益值计算子模块,用于计算所述信息量与所述条件熵的差值,将所述差值确定为所述特征项的信息增益值。
在本发明实施例中,所述第一信息量计算子模块,包括:
第一出现概率以及变量值获取单元,用于获取每个所述特征项的第一出现概率以及对应的多个变量值;
第一信息量计算单元,用于采用所述第一出现概率和所述变量值计算所述特征数据的第一信息量。
在本发明实施例中,所述条件熵计算子模块,包括:
第二出现概率获取单元,用于获取每个所述变量值对应的第二出现概率;
第二信息量计算单元,用于基于所述变量值,计算所述特征数据的第二信息量;
条件熵计算单元,用于采用每个所述变量值对应的第二出现概率和第二信息量,计算所述特征项的条件熵。
在本发明实施例中,所述的装置还包括:
预测结果获取模块,用于将预设测试日志数据输入所述故障预测模型,得到预测结果;
确率、召回率和测评值计算模块,用于计算所述预测结果的准确率、召回率和测评值;
评估模块,用于采用所述准确率、所述召回率和所述测评值评估所述故障预测模型。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种微服务故障预测方法,其特征在于,包括:
获取所述微服务的历史日志数据;
从所述历史日志数据中提取特征数据;所述特征数据包括多个特征项;
计算所述特征项的信息增益值;
将所述信息增益值大于预设门限值的特征项作为目标特征项;
采用所述目标特征项训练故障预测模型;
获取当前日志数据,并将所述当前日志数据输入所述故障预测模型,生成故障预测结果。
2.根据权利要求1所述的方法,其特征在于,所述从所述历史日志数据中提取特征数据的步骤,包括:
确定特征提取类型;
在所述历史日志数据中提取所述特征提取类型对应的特征数据。
3.根据权利要求2所述的方法,其特征在于,所述计算所述特征项的信息增益值的步骤,包括:
计算所述特征数据的第一信息量;
计算所述特征项的条件熵;
计算所述信息量与所述条件熵的差值,将所述差值确定为所述特征项的信息增益值。
4.根据权利要求3所述的方法,其特征在于,所述计算所述特征数据的第一信息量的步骤,包括:
获取每个所述特征项的第一出现概率以及对应的多个变量值;
采用所述第一出现概率和所述变量值计算所述特征数据的第一信息量。
5.根据权利要求4所述的方法,其特征在于,所述计算所述特征项的条件熵的步骤,包括:
获取每个所述变量值对应的第二出现概率;
基于所述变量值,计算所述特征数据的第二信息量;
采用每个所述变量值对应的第二出现概率和第二信息量,计算所述特征项的条件熵。
6.根据权利要求1所述的方法,其特征在于,所述的方法还包括:
将预设测试日志数据输入所述故障预测模型,得到预测结果;
计算所述预测结果的准确率、召回率和测评值;
采用所述准确率、所述召回率和所述测评值评估所述故障预测模型。
7.一种微服务故障预测装置,其特征在于,包括:
历史日志数据获取模块,用于获取所述微服务的历史日志数据;
特征数据提取模块,用于从所述历史日志数据中提取特征数据;所述特征数据包括多个特征项;
信息增益值计算模块,用于计算所述特征项的信息增益值;
目标特征项确定模块,用于将所述信息增益值大于预设门限值的特征项作为目标特征项;
故障预测模型训练模块,用于采用所述目标特征项训练故障预测模型;
故障预测结果生成模块,用于获取当前日志数据,并将所述当前日志数据输入所述故障预测模型,生成故障预测结果。
8.根据权利要求7所述的装置,其特征在于,所述特征数据提取模块,包括:
特征提取类型确定子模块,用于确定特征提取类型;
特征数据提取子模块,用于在所述历史日志数据中提取所述特征提取类型对应的特征数据。
9.根据权利要求8所述的装置,其特征在于,所述信息增益值计算模块,包括:
第一信息量计算子模块,用于计算所述特征数据的第一信息量;
条件熵计算子模块,用于计算所述特征项的条件熵;
信息增益值计算子模块,用于计算所述信息量与所述条件熵的差值,将所述差值确定为所述特征项的信息增益值。
10.根据权利要求7所述的装置,其特征在于,所述的装置还包括:
预测结果获取模块,用于将预设测试日志数据输入所述故障预测模型,得到预测结果;
确率、召回率和测评值计算模块,用于计算所述预测结果的准确率、召回率和测评值;
评估模块,用于采用所述准确率、所述召回率和所述测评值评估所述故障预测模型。
CN202010558766.7A 2020-06-18 2020-06-18 一种微服务故障预测方法和装置 Active CN111611146B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010558766.7A CN111611146B (zh) 2020-06-18 2020-06-18 一种微服务故障预测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010558766.7A CN111611146B (zh) 2020-06-18 2020-06-18 一种微服务故障预测方法和装置

Publications (2)

Publication Number Publication Date
CN111611146A true CN111611146A (zh) 2020-09-01
CN111611146B CN111611146B (zh) 2023-05-16

Family

ID=72195120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010558766.7A Active CN111611146B (zh) 2020-06-18 2020-06-18 一种微服务故障预测方法和装置

Country Status (1)

Country Link
CN (1) CN111611146B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308126A (zh) * 2020-10-27 2021-02-02 深圳前海微众银行股份有限公司 故障识别模型训练方法、故障识别方法、装置及电子设备
CN112612887A (zh) * 2020-12-25 2021-04-06 北京天融信网络安全技术有限公司 日志处理方法、装置、设备和存储介质
CN112884015A (zh) * 2021-01-26 2021-06-01 山西三友和智慧信息技术股份有限公司 一种面向供水管网分区计量系统日志信息的故障预测方法
CN115952064A (zh) * 2023-03-16 2023-04-11 华南理工大学 一种面向分布式系统的多组件故障解释方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699698A (zh) * 2014-01-16 2014-04-02 北京泰乐德信息技术有限公司 一种基于改进贝叶斯的轨道交通故障识别方法及系统
CN104778622A (zh) * 2015-04-29 2015-07-15 清华大学 Tps交易事件阈值的预测方法及预测系统
CN107179503A (zh) * 2017-04-21 2017-09-19 美林数据技术股份有限公司 基于随机森林的风电机组故障智能诊断预警的方法
CN107977727A (zh) * 2017-06-28 2018-05-01 中国人民解放军国防信息学院 一种基于社会发展和气候因素预测光缆网阻断概率的方法
CN108664010A (zh) * 2018-05-07 2018-10-16 广东省电信规划设计院有限公司 发电机组故障数据预测方法、装置和计算机设备
CN109634828A (zh) * 2018-12-17 2019-04-16 浪潮电子信息产业股份有限公司 故障预测方法、装置、设备及存储介质
CN110543462A (zh) * 2019-09-04 2019-12-06 陕西丝路云启智能科技有限公司 微服务可靠性预测方法、预测装置、电子设备及存储介质
CN110750377A (zh) * 2019-09-06 2020-02-04 深圳平安通信科技有限公司 一种故障定位方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699698A (zh) * 2014-01-16 2014-04-02 北京泰乐德信息技术有限公司 一种基于改进贝叶斯的轨道交通故障识别方法及系统
CN104778622A (zh) * 2015-04-29 2015-07-15 清华大学 Tps交易事件阈值的预测方法及预测系统
CN107179503A (zh) * 2017-04-21 2017-09-19 美林数据技术股份有限公司 基于随机森林的风电机组故障智能诊断预警的方法
CN107977727A (zh) * 2017-06-28 2018-05-01 中国人民解放军国防信息学院 一种基于社会发展和气候因素预测光缆网阻断概率的方法
CN108664010A (zh) * 2018-05-07 2018-10-16 广东省电信规划设计院有限公司 发电机组故障数据预测方法、装置和计算机设备
CN109634828A (zh) * 2018-12-17 2019-04-16 浪潮电子信息产业股份有限公司 故障预测方法、装置、设备及存储介质
CN110543462A (zh) * 2019-09-04 2019-12-06 陕西丝路云启智能科技有限公司 微服务可靠性预测方法、预测装置、电子设备及存储介质
CN110750377A (zh) * 2019-09-06 2020-02-04 深圳平安通信科技有限公司 一种故障定位方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
兰云龙: "基于深度学习的磁盘健康度评估与故障预测技术研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308126A (zh) * 2020-10-27 2021-02-02 深圳前海微众银行股份有限公司 故障识别模型训练方法、故障识别方法、装置及电子设备
CN112612887A (zh) * 2020-12-25 2021-04-06 北京天融信网络安全技术有限公司 日志处理方法、装置、设备和存储介质
CN112884015A (zh) * 2021-01-26 2021-06-01 山西三友和智慧信息技术股份有限公司 一种面向供水管网分区计量系统日志信息的故障预测方法
CN115952064A (zh) * 2023-03-16 2023-04-11 华南理工大学 一种面向分布式系统的多组件故障解释方法及装置
CN115952064B (zh) * 2023-03-16 2023-08-18 华南理工大学 一种面向分布式系统的多组件故障解释方法及装置

Also Published As

Publication number Publication date
CN111611146B (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
CN111611146B (zh) 一种微服务故障预测方法和装置
US6625589B1 (en) Method for adaptive threshold computation for time and frequency based anomalous feature identification in fault log data
US10373065B2 (en) Generating database cluster health alerts using machine learning
US8635498B2 (en) Performance analysis of applications
Liu et al. Microhecl: High-efficient root cause localization in large-scale microservice systems
EP2759938B1 (en) Operations management device, operations management method, and program
JP2003526859A5 (zh)
US9424288B2 (en) Analyzing database cluster behavior by transforming discrete time series measurements
KR102141391B1 (ko) 군집 평가에 기반한 고장 데이터의 관리 방법
CN111722952A (zh) 业务系统的故障分析方法、系统、设备和存储介质
CN107092654A (zh) 基于均值变化检测的报警正常与异常数据检测方法和装置
CN111314173A (zh) 监控信息异常的定位方法、装置、计算机设备及存储介质
KR101953558B1 (ko) 스마트 기기 결함 관리 장치 및 방법
CN116719664B (zh) 基于微服务部署的应用和云平台跨层故障分析方法及系统
CN115454778A (zh) 大规模云网络环境下的时序指标异常智能监控系统
Marvasti et al. An enterprise dynamic thresholding system
CN115576738A (zh) 一种基于芯片分析实现设备故障确定的方法及系统
CN115372816A (zh) 基于数据分析的配电开关设备运行故障预测系统及方法
CN117319047A (zh) 一种基于网络安全异常检测的网络路径分析方法及系统
CN113392893A (zh) 业务故障的定位方法、装置、存储介质及计算机程序产品
CN113098912B (zh) 用户账户异常的识别方法、装置、电子设备及存储介质
CN109844779A (zh) 用于分析测量-良率相关性的方法和系统
CN112016193B (zh) 一种盾构机系统的润滑失效在线预测方法及系统
CN117574292A (zh) 一种数据故障检测方法及系统
CN112732472A (zh) 异常根因定位方法、模型、电子设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant