CN116185684A - 一种服务器故障根因分析模型的构建方法及应用 - Google Patents

一种服务器故障根因分析模型的构建方法及应用 Download PDF

Info

Publication number
CN116185684A
CN116185684A CN202211722519.1A CN202211722519A CN116185684A CN 116185684 A CN116185684 A CN 116185684A CN 202211722519 A CN202211722519 A CN 202211722519A CN 116185684 A CN116185684 A CN 116185684A
Authority
CN
China
Prior art keywords
fault
server
root cause
log message
log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211722519.1A
Other languages
English (en)
Inventor
李俊峰
郑競力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202211722519.1A priority Critical patent/CN116185684A/zh
Publication of CN116185684A publication Critical patent/CN116185684A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本发明公开了一种服务器故障根因分析模型的构建方法及应用,属于服务器故障分析技术领域;本发明在采集故障样本数据时,考虑到故障发生前后服务器日志会受到影响,将故障时间窗口内的服务器运行日志合成一个日志消息作为原始故障样本数据,以实现原始故障样本数据的完整采集;在此基础上,通过数据增强的方式对数量较少的故障类型下的故障样本数据进行扩充,并通过特征词向量的方式进行特征表达后输入到机器学习模型中进行训练,使得所得的服务器故障根因分析模型能够很好地解决故障样本数据不均衡的问题,相较于传统的基于日志数据的故障根因分析方法,本发明进行服务器故障根因分析的准确率更高,具有更强的普适性。

Description

一种服务器故障根因分析模型的构建方法及应用
技术领域
本发明属于服务器故障分析技术领域,更具体地,涉及一种服务器故障根因分析模型的构建方法及应用。
背景技术
服务器运行日志是用于记录服务器硬件运行状态的记录数据,可用于获取服务器的运行状态或检查服务器系统问题,其重要性不可忽视。在集群与云计算平台中,服务器的节点数量逐渐增多,服务种类愈加复杂,长时间的运行,产生的日志规模也十分巨大。这些日志反应了服务器运行过程中各类部件的状态,能够在出现服务器故障时用来快速的定位出故障所在,这对于高效的修复故障、避免维修时间的浪费、降低服务器换件成本、提升系统可用性至关重要。
传统日志分析方法是通过逐行分析日志信息来定位系统故障或代码问题,而随着日志数据的结构多样化和存储分散化,运维人员在系统出现故障进行排查时,传统的日志分析方式无法满足故障检测的高效性和深入性要求,运维人员很难从海量复杂的日志中获取真正有价值的信息或快速确定故障位置。智能运维技术的出使海量日志分析与故障根因分析自动化成为可能,智能运维技术能极大地减少了人力成本,降低了操作风险,提高了运维效率。
智能运维是指通过机器学习等人工智能算法,自动地从海量运维样本数据中学习并总结规则,并做出决策的运维方式。但是由于故障发生的机率相对较少,在实际的日志数据采集中,日志数据中存在正常样本和故障样本不平衡的问题。除此之外,不同故障的发生概率也并不相同,比如内存故障与CPU故障发生的概率就明显存在不同。这种不均衡样本数据导致训练出来的机器学习模型精度较低,很难准确地对发生概率较小的故障进行根因分析。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种服务器故障根因分析模型的构建方法及应用,用以解决现有技术由于存在故障样本数据不均衡的问题所导致的故障根因分析的准确率较低的技术问题。
为了实现上述目的,第一方面,本发明提供了一种服务器故障根因分析模型的构建方法,包括以下步骤:
S1、获取多个服务器故障工单;对于每个故障工单,获取其故障时间窗口,并将故障时间窗口内的服务器运行日志合成一个日志消息后,与该故障工单的故障类型进行匹配形成一条故障样本数据;将各故障工单所对应的故障样本数据共同构成故障样本数据集;
S2、将故障样本数据集按照故障类型划分成多个子集;针对数据量小于预设阈值的每一个子集,对其下的每一个故障样本数据的日志消息分别进行数据增强,并将增强后的日志消息与其原始故障类别进行匹配后作为一条新的故障样本数据,加入到故障样本数据集中;
S3、为故障样本数据集中的各日志消息分别生成对应的特征词向量;分别将各日志消息的特征词向量与对应的故障类别进行匹配,得到词向量数据集;
S4、将词向量数据集输入到机器学习模型中进行训练,得到服务器故障根因分析模型。
进一步优选地,故障工单的故障时间窗口为[t-tth,t+tth],其中,t为故障工单所对应的故障发生时间;tth为预设最优故障分析时间。
进一步优选地,对日志消息进行数据增强的方法包括:在日志消息中随机选择n个单词,将n个单词替换为对应的同义词,得到增强后的日志消息;其中,1≤n≤Lmsg;Lmsg为日志消息中单词的总数量。
进一步优选地,对日志消息进行数据增强的方法包括:
A1、在日志消息中随机选择一个单词进行同义词替换;
A2、将步骤A1重复执行n2次,得到增强后的日志消息;其中,1≤n≤Lmsg;Lmsg为日志消息中单词的总数量。
进一步优选地,对日志消息进行数据增强的方法包括:
B1、在日志消息中随机选择2个单词进行位置交换;
B2、将步骤B1重复执行n3次,得到增强后的日志消息;其中,1≤n≤Lmsg;Lmsg为日志消息中单词的总数量。
进一步优选地,对日志消息进行数据增强的方法包括:为日志消息中的每个单词随机分配其被删除的概率后,在日志消息中随机选择一个单词,并基于其被删除的概率p来判断是否对其进行删除操作,若p大于预设概率,则将其删除,否则,将其保留。
进一步优选地,上述最优故障分析时间tth预设方法包括:预先设定多个候选故障分析时间,从中选取使服务器故障根因分析模型准确率最高的故障分析时间作为最优故障分析时间;
对应地,n=tthLmsg/(10*tmax);其中,tmax为最大候选故障分析时间所对应的故障时间窗口的时间长度。
进一步优选地,上述特征词向量为三元组词向量;第i个日志消息所对应的特征词向量中的第j个特征值为:
Figure BDA0004030109120000031
其中,Fij=nij/Li,nij为语料词典中的第j个三元组词在第i个日志消息中出现的次数;Li为第i个日志消息中三元组词的总数量;Count为故障样本数据集中日志消息的总数量;mj为语料词典中的第j个三元组词在所有日志消息中出现的次数;语料词典为故障样本数据集各日志消息中所有不同的三元组词所构成的集合。
进一步优选地,上述机器学习模型包括串联的输入层、RNN网络、后处理模块和输出层;后处理模块包括:多个级联的后处理单元;后处理单元包括串联的Dense层和Droupout层;
其中,Droupout层用于随机删除部分网络结点,以避免过拟合;每个神经元被删除的概率p==2/lgN;N为词向量数据集的大小。
第二方面,本发明提供了一种服务器故障根因分析方法,包括:将待分析故障的故障时间窗口内的服务器运行日志合成一个日志消息,并为该日志消息生成对应的特征词向量,将特征词向量输入至服务器故障根因分析模型中,得到待分析故障的故障类型;
其中,服务器故障根因分析模型采用本发明第一方面所提供的服务器故障根因分析模型的构建方法构建得到。
进一步优选地,待分析故障的故障时间窗口为[t-tth,t+tth],其中,t为待分析故障所对应的故障发生时间;tth为预设最优故障分析时间。
第三方面,本发明提供了一种服务器故障根因分析系统,包括:存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时执行本发明第二方面所提供的服务器故障根因分析方法。
第四方面,本发明还提供了一种机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现本发明第一方面所提供的服务器故障根因分析模型的构建方法和/或本发明第二方面所提供的服务器故障根因分析方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
1、本发明提供了一种服务器故障根因分析模型的构建方法,在采集故障样本数据时,考虑到故障发生前后服务器日志会受到影响,将故障时间窗口内的服务器运行日志合成一个日志消息作为原始故障样本数据,以实现原始故障样本数据的完整采集;在此基础上,通过数据增强的方式对数量较少的故障类型下的故障样本数据进行扩充,并通过特征词向量的方式进行特征表达后输入到机器学习模型中进行训练,使得所得的服务器故障根因分析模型能够很好地解决故障样本数据不均衡的问题,相较于传统的基于日志数据的故障根因分析方法,本发明进行服务器故障根因分析的准确率更高,具有更强的普适性。
2、本发明所提供的服务器故障根因分析模型的构建方法,考虑到故障发生前后服务器日志会受到影响,通过确定前后受影响的时间段,得到最优故障分析时间,并以故障发生时间为中心,向前推移最优故障分析时间加上向后推移最优故障分析时间,得到最优的故障时间窗口,通过采集故障时间窗口内的服务器运行日志,能够实现完备有效的原始数据采集。
3、在本发明所提供的服务器故障根因分析模型的构建方法中,考虑到日志标签长度随着故障时间窗口长度的变化而变化,会导致在数据增强时变量n很难确定,如果日志过短,而n比较大,就会出现过多的短日志被同义词替换,造成过多的相似日志,增强的数据缺乏多样性,因此,在数据增强时,本发明将n的取值、最优的故障时间窗口以及日志长度关联,具体地,考虑到当窗口增大时,一般日志包含的文字会更多,需要被处理的n也适当大一些,所以使n随着tth的增大而增大;除此之外,本发明通过将Lmsg/(10*tmax)作为增大比例,从而将n控制在了一个适当范围内,进而使得增强后的数据更具有多样性。
4、由于用三元词组比一个单词涵盖更多信息,计算三元组词向量比计算单词词向量更有意义,也能够进一步提高特征提取的准确度;另外,考虑到日志文档是一种特殊文档,文档中包含大量计算机相关词汇,而其他词汇较少,日志语料库的规模也比一般自然语言语料库规模小很多,因此,本发明所提供的服务器故障根因分析模型的构建方法在计算词向量时,采用三元组词向量方法,在提高精确度的同时也不会使得计算开销过大而影响计算效率。
附图说明
图1为本发明实施例1提供的服务器故障根因分析模型的构建方法流程图;
图2为本发明实施例1提供的故障时间窗口示意图;
图3为本发明实施例1提供的7层RNN模型示意图;
图4为本发明实施例1提供的分别将7层RNN模型与其他不同的机器学习模型用于进行服务器故障根因分析所得的F1指标结果示意图;
图5为本发明实施例1提供的分别采用本发明实施例和对比例1所提供的模型构建方法构建服务器故障根因分析模型,并在第三届阿里云磐久智维算法大赛实验数据集合上进行服务器故障根因分析所得的结果示意图;其中,(a)为基于对比例1所得的不进行数据增强操作的故障根因分类结果;(b)为基于本发明实施例所得的进行数据增强操作后的故障根因分类结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
实施例1、
一种服务器故障根因分析模型的构建方法,如图1所示,包括以下步骤:
S1、获取多个服务器故障工单;对于每个故障工单,获取其故障时间窗口,并将故障时间窗口内的服务器运行日志合成一个日志消息后,与该故障工单的故障类型进行匹配形成一条故障样本数据;将各故障工单所对应的故障样本数据共同构成故障样本数据集;
服务器运行日志记录每台服务器状态以及其所执行活动的列表,故障工单数据记录发生故障的服务器、故障时间以及故障类型。考虑到故障发生前后服务器日志会受到影响,我们把受影响的这个时间段称为最优故障分析时间。以故障发生时间为中心,向前推移最优故障分析时间加上向后推移最优故障分析时间,该时间段为故障时间窗口。具体地,如图2所示,故障工单的故障时间窗口为[t-tth,t+tth],其中,t为故障工单所对应的故障发生时间;tth为预设最优故障分析时间;需要说明的是,预设最优故障分析时间不能太大,如果时间太长,就失去实际意义了;但是如果太短,信息又不充分,因此,本实施例中取值为2h。
S2、将故障样本数据集按照故障类型划分成多个子集;针对数据量小于预设阈值的每一个子集,对其下的每一个故障样本数据的日志消息分别进行数据增强,并将增强后的日志消息与其原始故障类别进行匹配后作为一条新的故障样本数据,加入到故障样本数据集中;
本实施例中,选择故障类别数小于500的故障样本数据进行数据增强。
在一种可选实施方式下,对日志消息进行数据增强的方法包括:在日志消息中随机选择n个单词,将n个单词替换为对应的同义词,得到增强后的日志消息;其中,1≤n≤Lmsg;Lmsg为日志消息中单词的总数量。
需要说明的是,由于单词的同义词可能有多个,在上述方式中,可以将单词替换为某一指定的同义词,也可以为单词构建对应的同义词集合,从同义词集合中随机选择一同义词进行替换。
在一种可选实施方式下,对日志消息进行数据增强的方法包括:
A1、在日志消息中随机选择一个单词进行同义词替换;
A2、将步骤A1重复执行n次,得到增强后的日志消息;其中,1≤n≤Lmsg;Lmsg为日志消息中单词的总数量。
需要说明的是,由于单词的同义词可能有多个,在上述方式中,可以将单词替换为某一指定的同义词,也可以为单词构建对应的同义词集合,从同义词集合中随机选择一同义词进行替换。
在一种可选实施方式下,对日志消息进行数据增强的方法包括:
B1、在日志消息中随机选择2个单词进行位置交换;
B2、将步骤B1重复执行n次,得到增强后的日志消息;其中,1≤n≤Lmsg;Lmsg为日志消息中单词的总数量。
在一种可选实施方式下,对日志消息进行数据增强的方法包括:为日志消息中的每个单词随机分配其被删除的概率后,在日志消息中随机选择一个单词,并基于其被删除的概率p来判断是否对其进行删除操作,若p大于预设概率,则将其删除,否则,将其保留;其中,0<p<1。
需要说明的是,上述几种数据增强的实施方式可以单独执行也可以多种方式叠加执行。
优选地,在确定所述最优故障分析时间tth时,预先设定多个候选故障分析时间(对应多个候选故障时间窗口),从中选取使服务器故障根因分析模型准确率最高的故障分析时间作为最优故障分析时间,来确定上述故障工单的故障时间窗口;
对应地,在上述几种数据增强方法中n的确定方式如下:n=tthLmsg/(10*tmax);其中,tmax为最大候选故障分析时间所对应的故障时间窗口的时间长度,即候选故障时间窗口长度的最大值。需要说明的是,由于日志标签长度随着故障时间窗口长度的变化而变化,会导致在数据增强时变量n很难确定。如果日志过短,而n比较大,就会出现过多的短日志被同义词替换,造成过多的相似日志,增强的数据缺乏多样性,本发明通过充分考虑了日志消息的长度,通过将n的取值、最优的故障时间窗口以及日志长度关联,得到了一个合适大小的n,使得增强后数据的多样性更强,进一步提高了模型的准确性。
S3、为故障样本数据集中的各日志消息分别生成对应的特征词向量;分别将各日志消息的特征词向量与对应的故障类别进行匹配,得到词向量数据集;
本发明中,特征词向量可以为三元组词向量、TF-IDF词向量、word2vec等。优选地,生成三元组词向量。具体地,第i个日志消息所对应的特征词向量中的第j个特征值为:
Figure BDA0004030109120000091
其中,Fij=nij/Li,nij为语料词典中的第j个三元组词在第i个日志消息中出现的次数;Li为第i个日志消息中三元组词的总数量;Count为故障样本数据集中日志消息的总数量;mj为语料词典中的第j个三元组词在所有日志消息中出现的次数;语料词典为故障样本数据集各日志消息中所有不同的三元组词所构成的集合。
在一种可选实施方式下,首先统计故障样本数据集中每一个日志消息中三元组词的总数量L,取最大值maxL,根据maxL以及合成日志消息创建语料词典;
计算语料词典中每个三元组词在故障样本数据集各日志消息中出现的次数n,并计算对应的词频F=n/L;并统计故障样本数据集中日志消息的总数量Count,以及语料词典中每个三元组词在故障样本数据集的所有合成日志消息出现的次数m,从而计算语料词典中每个三元组词的特征值value=F/log(Count/m);
针对每条合成日志消息构造maxL阶1维张量V,从语料词典第一个三元组词开始,计算value,如果该三元组词不在日志消息中,value直接取值为0,填写V[i]=value,循环计算语料词典各三元组词的value,最终生成每条合成日志消息特征词向量V。根据所有合成日志消息特征词向量V生成maxL阶maxL维度张量的日志信息生成特征词向量数据集。
S4、将词向量数据集输入到机器学习模型中进行训练,得到服务器故障根因分析模型。
优选地,上述机器学习模型包括串联的输入层、RNN网络、后处理模块和输出层;后处理模块包括:多个级联的后处理单元;后处理单元包括串联的Dense层和Droupout层。其中,Dense层用于对输入的特征进行非线性变化,以提取特征之间的关联;Droupout层用于随机删除部分网络结点,以避免过拟合。后处理单元的具体数量根据具体情况确定。本实施例中给出了当后处理单元的数量为2的实施例(记为7层RNN模型),具体地,上述机器学习模型的结构示意图如图3所示,具体构建步骤如下:
(1)、构建输入层,该层输入超参数是maxL,输出超参数maxL和60,60是本实施例设置的模型超参数。
(2)、构建RNN,该层输入大小为maxL乘60的矩阵,输出超参数数量为1000,1000是本实施例设置的模型超参数。
(3)、构建第一Dense层,该层的输入超参数数量为1000,输出超参数数量为100,100是本实施例设置的模型超参数。
(4)、构建第一Droupout层,该层的输入超参数数量为100,输出超参数数量为100。
(5)、构建第二Dense层,该层的输入超参数数量为100,输出超参数数量为100。
(6)、构建第二Droupout层,该层的输入超参数数量为100,输出超参数数量为100。
(7)、构建输出层,该层的输入超参数数量为100,输出超参数数量为故障种类的总数量。
需要说明的是,考虑到日志信息与一般自然语言文本信息的区别,其样本数据量有限,在模型训练时容易出现过拟合现象,本发明使用了Droupout层,每次训练都随机删掉一些神经元,只使用部分神经元进行训练,经过多轮训练后的模型预测效果会更好。每个神经元被删除的概率与训练时所采用的词向量数据集的大小成反比。给出公式如下:N代表词向量数据集的大小,一般大于1000,p代表每个神经元被删除的概率,具体地,p=P(N)=2/lgN。一般来说,日志样本数据集大小在几千到上万,经上述步骤处理后的词向量数据集大小也在几千到上万,如果是1000,那么p=2/3,如果是10000,那么p=2/4,不会出现概率非常小或非常大的极端情况,进一步提高了训练的准确率。
将本发明所提供的7层RNN模型与其他不同的机器学习模型进行对比,得到如图4所示的结果示意图;其中,横坐标表示不同机器学习模型;纵轴坐标表示对应地进行服务器故障根因分析的F1指标;从图4可以看出,本发明所提供的7层RNN模型的性能明显优于其他机器学习模型。
为了进一步说明本发明所提供的服务器故障根因分析模型的性能,下面结合对比例进行详述:
在对比例1中服务器故障根因分析模型的构建方法为在本发明实施例所提供的服务器故障根因分析模型的构建方法的基础上删除数据增强操作所对应的步骤S2。分别采用本发明实施例和对比例1所提供的模型构建方法构建服务器故障根因分析模型,并在第三届阿里云磐久智维算法大赛实验数据集合上进行服务器故障根因分析,所得的结构如图5所示;其中,图(a)为基于对比例1所得的不进行数据增强操作的故障根因分类结果;图(b)为基于本发明实施例所得的进行数据增强操作后的故障根因分类结果。图(a)和图(b)中的0、1、2、3分别代表第三届阿里云磐久智维算法大赛实验数据集合中的四类故障类型所对应的数据集,分别在这四个故障类型所对应的数据集上对比本发明实施例和对比例1,同时也在这四个故障类型所对应的数据集的混合数据集上对比了本发明实施例和对比例1。通过对比图(a)和图(b)可以看出,本发明实施例的准确率整体优于对比例1的准确率,进一步说明了本发明中所提出的对日志消息进行数据增强操作的有效性。
综上,通过本发明所构建的服务器故障根因分析模型能够很好地解决了故障样本数据不均衡的问题,相较于传统的基于日志数据的故障根因分析方法,本发明的故障分析准确率更高,具有更强的普适性。
实施例2、
一种服务器故障根因分析方法,包括:将待分析故障的故障时间窗口内的服务器运行日志合成一个日志消息,并为该日志消息生成对应的特征词向量,将特征词向量输入至服务器故障根因分析模型中,得到待分析故障的故障类型;
其中,服务器故障根因分析模型采用本发明实施例1所提供的服务器故障根因分析模型的构建方法构建得到。
待分析故障的故障时间窗口为[t-tth,t+tth],其中,t为待分析故障所对应的故障发生时间;tth为预设最优故障分析时间,本实施例中取值为2h。
需要说明的是,本实施例中生成特征词向量的方法与对比文件1中生成特征词向量的方法相同。
相关技术方案同实施例1,这里不做赘述。
实施例3、
一种服务器故障根因分析系统,包括:存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时执行本发明实施例2所提供的服务器故障根因分析方法。
相关技术方案同实施例2,这里不做赘述。
实施例4、
一种机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现本发明实施例1所提供的服务器故障根因分析模型的构建方法和/或本发明实施例2所提供的服务器故障根因分析方法。
相关技术方案同实施例1和实施例2,这里不做赘述。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种服务器故障根因分析模型的构建方法,其特征在于,包括以下步骤:
S1、获取多个服务器故障工单;对于每个故障工单,获取其故障时间窗口,并将故障时间窗口内的服务器运行日志合成一个日志消息后,与该故障工单的故障类型进行匹配形成一条故障样本数据;将各故障工单所对应的故障样本数据共同构成故障样本数据集;
S2、将所述故障样本数据集按照故障类型划分成多个子集;针对数据量小于预设阈值的每一个子集,对其下的每一个故障样本数据的日志消息分别进行数据增强,并将增强后的日志消息与其原始故障类别进行匹配后作为一条新的故障样本数据,加入到故障样本数据集中;
S3、为所述故障样本数据集中的各日志消息分别生成对应的特征词向量;分别将各日志消息的特征词向量与对应的故障类别进行匹配,得到词向量数据集;
S4、将所述词向量数据集输入到机器学习模型中进行训练,得到服务器故障根因分析模型。
2.根据权利要求1所述的服务器故障根因分析模型的构建方法,其特征在于,故障工单的故障时间窗口为[t-tth,t+tth],其中,t为故障工单所对应的故障发生时间;tth为预设最优故障分析时间。
3.根据权利要求2所述的服务器故障根因分析模型的构建方法,其特征在于,对日志消息进行数据增强的方法包括方式一、方式二、方式三和方式四中的一种或多种;
所述方式一包括:在日志消息中随机选择n个单词,将n个单词替换为对应的同义词,得到增强后的日志消息;其中,1≤n≤Lmsg;Lmsg为日志消息中单词的总数量;
所述方式二包括:
A1、在日志消息中随机选择一个单词进行同义词替换;
A2、将所述步骤A1重复执行n次,得到增强后的日志消息;其中,1≤n≤Lmsg;Lmsg为日志消息中单词的总数量;
所述方式三包括:
B1、在日志消息中随机选择2个单词进行位置交换;
B2、将所述步骤B1重复执行n次,得到增强后的日志消息;其中,1≤n≤Lmsg;Lmsg为日志消息中单词的总数量;
所述方式四包括:为日志消息中的每个单词随机分配其被删除的概率后,在日志消息中随机选择一个单词,并基于其被删除的概率p来判断是否对其进行删除操作,若p大于预设概率,则将其删除,否则,将其保留。
4.根据权利要求3所述的服务器故障根因分析模型的构建方法,其特征在于,所述最优故障分析时间tth预设方法包括:预先设定多个候选故障分析时间,从中选取使所述服务器故障根因分析模型准确率最高的故障分析时间作为所述最优故障分析时间;
对应地,n=tthLmsg/(10*tmax);其中,tmax为最大候选故障分析时间所对应的故障时间窗口的时间长度。
5.根据权利要求1-4任意一项所述的服务器故障根因分析模型的构建方法,其特征在于,所述特征词向量为三元组词向量;第i个日志消息所对应的特征词向量中的第j个特征值为:
Figure FDA0004030109110000021
其中,Fij=nij/Li,nij为语料词典中的第j个三元组词在第i个日志消息中出现的次数;Li为第i个日志消息中三元组词的总数量;Count为所述故障样本数据集中日志消息的总数量;mj为所述语料词典中的第j个三元组词在所有日志消息中出现的次数;所述语料词典为所述故障样本数据集各日志消息中所有不同的三元组词所构成的集合。
6.根据权利要求1-4任意一项所述的服务器故障根因分析模型的构建方法,其特征在于,所述机器学习模型包括串联的输入层、RNN网络、后处理模块和输出层;所述后处理模块包括多个级联的后处理单元;所述后处理单元包括串联的Dense层和Droupout层;
其中,Droupout层用于随机删除部分网络结点,以避免过拟合;每个神经元被删除的概率p==2/lgN;N为所述词向量数据集的大小。
7.一种服务器故障根因分析方法,其特征在于,包括:将待分析故障的故障时间窗口内的服务器运行日志合成一个日志消息,并为该日志消息生成对应的特征词向量,将特征词向量输入至服务器故障根因分析模型中,得到所述待分析故障的故障类型;
其中,服务器故障根因分析模型采用权利要求1-6任意一项所述的服务器故障根因分析模型的构建方法构建得到。
8.根据权利要求7所述的服务器故障根因分析方法,其特征在于,所述待分析故障的故障时间窗口为[t-tth,t+tth],其中,t为所述待分析故障所对应的故障发生时间;tth为预设最优故障分析时间。
9.一种服务器故障根因分析系统,其特征在于,包括:存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时执行权利要求7或8所述的服务器故障根因分析方法。
10.一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现权利要求1-6任意一项所述的服务器故障根因分析模型的构建方法和/或权利要求7-8任意一项所述的服务器故障根因分析方法。
CN202211722519.1A 2022-12-30 2022-12-30 一种服务器故障根因分析模型的构建方法及应用 Pending CN116185684A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211722519.1A CN116185684A (zh) 2022-12-30 2022-12-30 一种服务器故障根因分析模型的构建方法及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211722519.1A CN116185684A (zh) 2022-12-30 2022-12-30 一种服务器故障根因分析模型的构建方法及应用

Publications (1)

Publication Number Publication Date
CN116185684A true CN116185684A (zh) 2023-05-30

Family

ID=86451560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211722519.1A Pending CN116185684A (zh) 2022-12-30 2022-12-30 一种服务器故障根因分析模型的构建方法及应用

Country Status (1)

Country Link
CN (1) CN116185684A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117724858A (zh) * 2024-02-18 2024-03-19 天津先进技术研究院 地理空间分析模型调度方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117724858A (zh) * 2024-02-18 2024-03-19 天津先进技术研究院 地理空间分析模型调度方法、装置、设备及介质
CN117724858B (zh) * 2024-02-18 2024-05-28 天津先进技术研究院 地理空间分析模型调度方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN111881983B (zh) 基于分类模型的数据处理方法、装置、电子设备及介质
CN111311401A (zh) 一种基于LightGBM的金融违约概率预测模型
CN111581086B (zh) 一种基于RankNet的混合软件错误定位方法及系统
CN116185684A (zh) 一种服务器故障根因分析模型的构建方法及应用
CN109740722A (zh) 一种基于Memetic算法的网络表示学习方法
CN115358481A (zh) 一种企业外迁预警识别的方法、系统及装置
CN115063035A (zh) 基于神经网络的客户评估方法、系统、设备及存储介质
CN111476274A (zh) 一种大数据预测分析的方法、系统、装置及存储介质
Si et al. Establishment and improvement of financial decision support system using artificial intelligence and big data
CN113743453A (zh) 一种基于随机森林的人口数量预测方法
WO2020259391A1 (zh) 一种数据库脚本性能测试的方法及装置
LU505740A1 (en) Data monitoring method and system
Feng et al. Web service QoS classification based on optimized convolutional neural network
CN114862531A (zh) 一种基于深度学习的企业财务风险预警方法及系统
CN111259117B (zh) 短文本批量匹配方法及装置
CN113987126A (zh) 基于知识图谱的检索方法及装置
CN115080732A (zh) 投诉工单处理方法、装置、电子设备和存储介质
Lai et al. Government affairs message text classification based on RoBerta and TextCNN
Zou et al. An improved model for spam user identification
CN116542801B (zh) 一种财务数据分析方法及系统
CN112650770B (zh) 基于query workload分析的MySQL参数推荐方法
CN116049700B (zh) 基于多模态的运检班组画像生成方法及装置
Wang et al. Estimation-based optimizations for the semantic compression of RDF knowledge bases
CN112685324B (zh) 一种生成测试方案的方法及系统
CN112989606B (zh) 数据算法模型检验方法、系统及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination