CN113821408A - 一种服务器告警处理方法及相关设备 - Google Patents

一种服务器告警处理方法及相关设备 Download PDF

Info

Publication number
CN113821408A
CN113821408A CN202111114007.2A CN202111114007A CN113821408A CN 113821408 A CN113821408 A CN 113821408A CN 202111114007 A CN202111114007 A CN 202111114007A CN 113821408 A CN113821408 A CN 113821408A
Authority
CN
China
Prior art keywords
alarm
server
current
target
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111114007.2A
Other languages
English (en)
Inventor
陈文兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202111114007.2A priority Critical patent/CN113821408A/zh
Publication of CN113821408A publication Critical patent/CN113821408A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3048Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the topology of the computing system or computing system component explicitly influences the monitoring activity, e.g. serial, hierarchical systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开提供的一种服务器告警处理方法及相关设备,可以获得服务器的当前告警文本信息;对所述当前告警文本信息进行文本预处理,获得当前告警文本向量;将所述当前告警文本向量输入至预先训练好的LSTM算法模型中进行分类预测,确定所述服务器是否发生故障,若所述服务器发生故障,则确定所述服务器发生故障的故障类型;至少根据所述故障类型,在预先构建的告警处置建议库中确定目标告警处置方案。本公开通过在服务器故障时产生的告警文本信息提供目标告警处置方案,有助于及时对服务器故障进行应急处置,进而提升服务器的日常监控和事故异常处置的工作效率。

Description

一种服务器告警处理方法及相关设备
技术领域
本公开涉及计算机技术领域,尤其涉及一种服务器告警处理方法及相关设备。
背景技术
随着银行数据中心运维规模不断扩大,数据中心的服务器的投产规模也随之不断扩大,这对快速响应服务器故障、及时恢复设备正常运行提出了更高的要求。
在服务器规模扩大和智能监测水平提升的同时,服务器告警数据出现爆发式增长,监控到的告警信息的数量呈现几何级增长的趋势。当告警信息较多时,容易遗漏重要告警信息,并且无法在短时间内做出准确识别,容易出现设备故障或异常的漏判误判的情况,导致应急处置不及时的问题。
因此,如何快速、准确地对服务器告警事件提供处置方案,成为提升日常监控和事故异常处置的工作效率的关键。
发明内容
鉴于上述问题,本公开提供一种克服上述问题或者至少部分地解决上述问题的一种服务器告警处理方法及相关设备,技术方案如下:
一种服务器告警处理方法,包括:
获得服务器的当前告警文本信息;
对所述当前告警文本信息进行文本预处理,获得当前告警文本向量;
将所述当前告警文本向量输入至预先训练好的LSTM算法模型中进行分类预测,确定所述服务器是否发生故障,若所述服务器发生故障,则确定所述服务器发生故障的故障类型;
至少根据所述故障类型,在预先构建的告警处置建议库中确定目标告警处置方案。
可选的,所述至少根据所述故障类型,在预先构建的告警处置建议库中确定目标告警处置方案,包括:
在预先构建的告警处置建议库中获得与所述故障类型对应的至少一个预设告警处置方案的处置建议文本向量;
计算所述当前告警文本向量与各所述处置建议文本向量的余弦相似度;
利用预设聚类算法对各所述余弦相似度进行聚类,获得聚类结果;
根据所述聚类结果,在所述至少一个预设告警处置方案中确定目标告警处置方案。
可选的,在所述至少根据所述故障类型,在预先构建的告警处置建议库中确定目标告警处置方案之后,所述方法还包括:
按照所述目标告警处置方案对所述服务器进行处置。
可选的,在所述至少根据所述故障类型,在预先构建的告警处置建议库中确定目标告警处置方案之后,所述方法还包括:
将所述目标告警处置方案推荐至目标终端进行展示。
可选的,所述方法还包括:
响应于用户在所述目标终端对展示的所述目标告警处置方案的目标触发操作,按照所述目标告警处置方案对所述服务器进行处置。
可选的,所述获得服务器的当前告警文本信息,包括:
按照预设滑动时间窗口,在所述服务器的运行数据中获得当前告警文本信息。
可选的,所述对所述当前告警文本信息进行文本预处理,获得当前告警文本向量,包括:
对所述当前告警文本信息进行分词以及去停用词处理,获得当前告警文本词语列表;
对所述当前告警文本词语列表进行向量化处理,获得当前告警文本向量。
一种服务器告警处理装置,包括:当前告警文本信息获得单元、当前告警文本向量获得单元、告警分类预测单元以及目标告警处置方案确定单元,
所述当前告警文本信息获得单元,用于获得服务器的当前告警文本信息;
所述当前告警文本向量获得单元,用于对所述当前告警文本信息进行文本预处理,获得当前告警文本向量;
所述告警分类预测单元,用于将所述当前告警文本向量输入至预先训练好的LSTM算法模型中进行分类预测,确定所述服务器是否发生故障,若所述服务器发生故障,则确定所述服务器发生故障的故障类型;
所述目标告警处置方案确定单元,用于至少根据所述故障类型,在预先构建的告警处置建议库中确定目标告警处置方案。
一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时实现如上述任一项所述的服务器告警处理方法。
一种电子设备,所述电子设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行如上述任一项所述的服务器告警处理方法。
借由上述技术方案,本公开提供的一种服务器告警处理方法及相关设备,可以获得服务器的当前告警文本信息;对所述当前告警文本信息进行文本预处理,获得当前告警文本向量;将所述当前告警文本向量输入至预先训练好的LSTM算法模型中进行分类预测,确定所述服务器是否发生故障,若所述服务器发生故障,则确定所述服务器发生故障的故障类型;至少根据所述故障类型,在预先构建的告警处置建议库中确定目标告警处置方案。本公开通过在服务器故障时产生的告警文本信息提供目标告警处置方案,有助于及时对服务器故障进行应急处置,进而提升服务器的日常监控和事故异常处置的工作效率。
上述说明仅是本公开技术方案的概述,为了能够更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为了让本公开的上述和其它目的、特征和优点能够更明显易懂,以下特举本公开的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本公开的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本公开实施例提供的服务器告警处理方法的一种实施方式的流程示意图;
图2示出了本公开实施例提供的服务器告警处理方法的另一种实施方式的流程示意图;
图3示出了本公开实施例提供的服务器告警处理方法的另一种实施方式的流程示意图;
图4示出了本公开实施例提供的服务器告警处理方法的另一种实施方式的流程示意图;
图5示出了本公开实施例提供的LSTM算法模型的一种结构示意图;
图6示出了本公开实施例提供的服务器告警处理方法的另一种实施方式的流程示意图;
图7示出了本公开实施例提供的服务器告警处理装置的一种结构示意图;
图8示出了本公开实施例提供的电子设备的一种结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本公开实施例提供的服务器告警处理方法的一种实施方式的流程示意图,该服务器告警处理方法可以包括:
S100、获得服务器的当前告警文本信息。
其中,服务器可以是X86服务器。服务器的告警文本信息可以是记录服务器运行状态的中文文本数据。通常情况下,告警文本信息中包括服务器设备名以及故障描述信息。服务器的告警文本信息具有短时间内连续输出的特征。由于服务器输出的告警文本信息是按时间顺序排列的,因此可以实时提取一个固定时间步长内的告警文本信息作为当前告警文本信息。
可选的,基于图1所示的方法,如图2所示,本公开实施例提供的服务器告警处理方法的另一种实施方式的流程示意图,步骤S100可以包括:
S110、按照预设滑动时间窗口,在服务器的运行数据中获得当前告警文本信息。
其中,预设滑动时间窗口设置有时间步长。在通常情况下,设置的时间步长不超过15秒。可以理解的是,当一个服务器发生故障时,在一个滑动时间窗口内可能会产生物理盘、逻辑盘以及服务器上对应的应用的相关告警。本公开实施例通过预设滑动时间窗口采集当前告警文本信息,可以尽量使得采集到的当前告警文本信息为同一故障类型的告警信息。
S200、对当前告警文本信息进行文本预处理,获得当前告警文本向量。
可选的,基于图1所示的方法,如图3所示,本公开实施例提供的服务器告警处理方法的另一种实施方式的流程示意图,步骤S200可以包括:
S210、对当前告警文本信息进行分词以及去停用词处理,获得当前告警文本词语列表。
具体的,本公开实施例可以利用隐马尔可夫模型(Hidden MarkovModel,HMM)中的Viterbi算法进行分词以及去除停用词。进一步地,本公开实施例可以利用jieba工具对当前告警文本信息进行分词,生成按时间排序的一系列中文词语组成的告警词语信息。具体的,本公开实施例可以利用预先构建的服务器告警分词词典库,通过jieba工具进行分词。例如:服务器告警分词词典库可以包括“dict={‘物理盘’,‘逻辑盘’,‘阵列控制器’,‘错误关键字’,‘CPU’...}”。本公开实施例通过预先建立的停用词表,剔除告警词语信息中在停用词表中存在的词语,实现数据清洗,从而获得当前告警文本词语列表。
S220、对当前告警文本词语列表进行向量化处理,获得当前告警文本向量。
其中,当前告警文本向量为当前告警文本信息对应的分布式向量表示。
具体的,本公开实施例可以利用预先训练好的word2vec模型对当前告警文本词语列表进行向量化处理,获得当前告警文本向量。进一步地,本公开实施例可以通过公式:
Figure BDA0003274644550000061
获得当前告警文本向量,其中,d为当前告警文本词语列表;word_count为当前告警文本词语列表中的词语的数量;t为当前告警文本词语列表中的词语;vec(t)为词语的向量;word2vec(d)为当前告警文本向量。
本公开实施例通过对当前告警文本信息进行分词并去除停用词后的当前告警文本词语列表进行向量化处理,可以获得反映当前告警文本信息在时间特征上分布式向量表达的当前告警文本向量,以便后续确定服务器的故障类型。
S300、将当前告警文本向量输入至预先训练好的LSTM算法模型中进行分类预测,确定服务器是否发生故障,若服务器发生故障,则确定服务器发生故障的故障类型。
其中,长短期记忆网络(Long Short-Term Memory,LSTM)是一种时间循环神经网络。LSTM算法具有处理时间相关序列的功能,能够处置服务器短时间内触发的连续出现的告警信息。告警信息按照时间顺序排列,因此具有时间顺序关系。由于时间上相邻的多个告警信息包含了重要特征,因此,本公开实施例可以将告警文本向量输入至LSTM算法模型,以对服务器的故障进行预测。
LSTM层的输入为训练数据集中各历史告警文本信息对应的历史告警文本向量,将其表示为X={x1,x2,...,xn},其中,X是历史告警文本向量,xi为历史告警文本信息经过分词以及去停用词处理后获得的历史告警文本词语列表中编号为i的词语对应的分布式向量表示,n是历史告警文本词语列表包含的词语的数量。
其中,LSTM算法模型主要包括:遗忘门(forget gate)、输入门(input gate)、输出门(output gate)以及记忆单元(cell)。
输入门中当前时刻网络输入中保存到记忆单元中的信息量计算公式如下:
Figure BDA0003274644550000062
其中,it为输入门的输出;xt为当前输入;ht-1为前一个隐含层的输出;
Figure BDA0003274644550000063
为xt的权重;
Figure BDA0003274644550000064
为ht-1的权重;bi为输入门的偏置;σ表示sigmoid激活函数。
输入门输出一个临时记忆单元的计算公式如下:
Figure BDA0003274644550000071
其中,ct为临时记忆单元;
Figure BDA0003274644550000072
为xt的权重;
Figure BDA0003274644550000073
为ht-1的权重;bc为ct的偏置。
遗忘门中前一时刻记忆单元保留到当前时刻记忆单元中的信息量计算公式如下:
ft=σ(wxfxt+whfht-1+bf)
其中,ft为遗忘门的输出;wxf为xt的权重;whf为ht-1的权重;bf为遗忘门的偏置。
当前时刻输入作用于输入门得到的临时记忆单元。当前时刻记忆单元计算公式如下:
ct=ft×ct-1+it×c't
其中,ct-1为前一时刻及前一单元的输出值。
输出门和隐含层的输出表达式如下:
Figure BDA0003274644550000074
ht=ot×tanh(ct)
其中,ot为输出门的输出;ht为当前隐含层的输出;
Figure BDA0003274644550000075
为xt的权重;
Figure BDA0003274644550000076
为ht-1的权重;bo为ot的偏置。
可选的,如图4所示,本公开实施例对LSTM算法模型的训练过程可以包括:
S01、在监控系统中采集服务器的历史告警信息。
S02、基于历史告警信息构建训练数据集,并对训练数据集中的数据标注故障类型分类标记以及故障类型处置分类,构建告警处置建议库。
S03、按照预设滑动时间窗口从历史告警文本信息中提取出历史告警文本信息,确定各历史告警文本信息对应的故障类型标签,构建告警事件样本库。
S04、对历史告警文本信息进行文本预处理,获得历史告警文本向量。
本公开实施例可以对历史告警文本信息进行分词以及去停用词处理,获得历史告警文本词语列表,再对历史告警文本词语列表进行向量化处理,获得历史告警文本向量。
S05、将历史告警文本向量输入至LSTM算法模型进行分类预测训练,获得训练好的LSTM算法模型。
可选的,结合图5所示的LSTM算法模型的一种结构示意图,本公开实施例在LSTM算法模型中进行分类预测的具体过程可以包括:LSTM的输入为告警文本向量化的vector,将其表示为x={X1,X2...Xn},n为告警信息文本数量和故障类型分类标记y={Y1,Y2},Y1表示有故障,Y2表示无故障,如阵列卡故障,物理盘故障等等。“遗忘门”根据上一个时刻的输出和当前输入信息,通过sigmoid产生的值(取值范围为0到1,0表示完全不输出,1表示全部输出),来控制可以通过的“临时记忆单元”的信息,决定是否让上一个时刻学习到的信息通过或部分通过。“输入门”一般包括两层:tanh层生成新的候选值(取值范围为-1到1),sigmoid层的输出值乘到tanh层的输出上,起到缩放的作用。将两层输出产生的值结合起来,排除掉不需要的信息并添加新的信息,对旧的“临时记忆单元”进行更新,生成新的细胞状态。使用tanh对先前学到的信息压缩至-1到1之间,再通过sigmoid层决定最终的模型输出,得到预测的结果,判断该告警文本信息对应的服务器是否发生故障。
本公开实施例通过预先训练好的LSTM算法模型进行分类预测,能够根据服务器对应的当前告警文本向量,准确确定出服务器是否故障以及故障类型,有助于及时发现服务器故障,并为及时、准确地提供相应的故障处置提供依据。
可以理解的是,本公开实施例在确定服务器未发生故障的情况下,可以直接结束本次告警处理。
S400、至少根据故障类型,在预先构建的告警处置建议库中确定目标告警处置方案。
可以理解的是,在确定故障类型之后,可以在告警处置建议库中查询该故障类型对应的故障类型分类标记对应的预设告警处置方案。其中,告警处置方案为根据故障类型预先设置的解决故障的方案。告警处置方案可以根据需求进行具体设置,本公开实施例在此不对告警处置方案的具体内容进行限定。
可选的,基于图1所示的方法,如图6所示,本公开实施例提供的服务器告警处理方法的另一种实施方式的流程示意图,步骤S400可以包括:
S410、在预先构建的告警处置建议库中获得与故障类型对应的至少一个预设告警处置方案的处置建议文本向量。
具体的,本公开实施例可以预先对告警处置建议库中的告警处置方案进行文字预处理,获得各告警处置档案对应的处置建议文本向量,并将该处置建议文本向量对应存储在告警处置建议库中。
S420、计算当前告警文本向量与各处置建议文本向量的余弦相似度。
具体的,本公开实施例可以根据公式:
Figure BDA0003274644550000091
计算余弦相似度,其中,i为处置建议文本向量的编号;si为当前告警文本向量与编号为i的处置建议文本向量的余弦相似度;m为处置建议文本向量的数量;n为本体词数(向量维数);wj为当前告警文本向量的第j维坐标;wji为编号为i的处置建议文本向量的第j维坐标;当前告警文本向量与各处置建议文本向量得到的余弦相似度从小到大排列组成m维相似度向量S∈R1×m,具体表示为:
S=[s1,s2,...,sn],s1≤...≤si≤...≤sn
S430、利用预设聚类算法对各余弦相似度进行聚类,获得聚类结果。
其中,预设聚类算法可以为K-Means算法。
本公开实施例利用K-Means算法对各余弦相似度进行聚类的具体过程可以包括:初始化聚类中心点Cmin、Cmid和Cmax。分别计算相似度向量S中的各元素si与Cmin、Cmid和Cmax的欧氏距离:|si-Cmin|、|si-Cmid|和|si-Cmax|,求最小值,根据各元素si对应的最小值对应的聚类中心点,分别将各元素si归入相应的聚类中心点所代表的相似度集。更新聚类中心点:求smin、smid和smax的重心,分别赋值至Cmin、Cmid和Cmax。用更新后的聚类中心点重新聚类,循环执行直至smin、smid和smax均不再变化的,从而完成聚类。
S440、根据聚类结果,在至少一个预设告警处置方案中确定目标告警处置方案。
具体的,本公开实施例可以根据聚类结果,将si∈smax对应的故障类型确定为当前正在发生的故障,推荐该故障类型对应的告警处置方案为第一处置方案,即优先考虑需要处置的方案;将si∈smid对应的故障类型确定为当前可能存在相关性的故障,推荐该故障类型对应的告警处置方案为第二处置方案,即可能存在相关性的处置方案;将si∈smin对应的故障类型确定为当前相关性不高的故障,推荐该故障类型对应的告警处置方案为第三处置方案,即相关性不高的处置方案。
本公开提供的一种服务器告警处理方法,可以获得服务器的当前告警文本信息;对所述当前告警文本信息进行文本预处理,获得当前告警文本向量;将所述当前告警文本向量输入至预先训练好的LSTM算法模型中进行分类预测,确定所述服务器是否发生故障,若所述服务器发生故障,则确定所述服务器发生故障的故障类型;至少根据所述故障类型,在预先构建的告警处置建议库中确定目标告警处置方案。本公开通过在服务器故障时产生的告警文本信息提供目标告警处置方案,有助于及时对服务器故障进行应急处置,进而提升服务器的日常监控和事故异常处置的工作效率。
本公开实施例可以预先对告警处置方案设置对应的可自动运行的处置程序,在确定目标告警处置方案之后,主动运行或被动触发运行该目标告警处置方案对应的处置程序对服务器进行处置。
可选的,本公开实施例可以在确定目标告警处置方案之后,按照目标告警处置方案对服务器进行处置。
本公开实施例通过自动按照目标告警处置方案对服务器进行处置,可以及时消除服务器的故障,有利于服务器的正常运行。
可选的,本公开实施例可以在确定目标告警处置方案之后,将目标告警处置方案推荐至目标终端进行展示。
可选的,本公开实施例还可以响应于用户在目标终端对展示的目标告警处置方案的目标触发操作,按照目标告警处置方案对服务器进行处置。
本公开实施例通过将目标告警处置方案推荐至目标终端进行展示,便于相关运维人员及时通过目标终端获知服务器发生故障,并检验目标告警处置方案是否可以正确、有效地解决该故障,保证服务器的故障能够得到有效处理。
虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
与上述方法实施例相对应,本公开实施例还提供一种服务器告警处理装置,其结构如图7所示,包括:当前告警文本信息获得单元100、当前告警文本向量获得单元200、告警分类预测单元300以及目标告警处置方案确定单元400。
所述当前告警文本信息获得单元100,用于获得服务器的当前告警文本信息。
可选的,所述当前告警文本信息获得单元100,具体用于按照预设滑动时间窗口,在所述服务器的运行数据中获得当前告警文本信息。
所述当前告警文本向量获得单元200,用于对所述当前告警文本信息进行文本预处理,获得当前告警文本向量。
可选的,所述当前告警文本向量获得单元200包括:当前告警文本词语列表获得子单元和当前告警文本向量获得子单元。
所述当前告警文本词语列表获得子单元,用于对所述当前告警文本信息进行分词以及去停用词处理,获得当前告警文本词语列表。
所述当前告警文本向量获得子单元,用于对所述当前告警文本词语列表进行向量化处理,获得当前告警文本向量。
所述告警分类预测单元300,用于将所述当前告警文本向量输入至预先训练好的LSTM算法模型中进行分类预测,确定所述服务器是否发生故障,若所述服务器发生故障,则确定所述服务器发生故障的故障类型。
所述目标告警处置方案确定单元400,用于至少根据所述故障类型,在预先构建的告警处置建议库中确定目标告警处置方案。
可选的,所述目标告警处置方案确定单元400包括:处置建议文本向量获得子单元、余弦相似度计算子单元、聚类子单元以及目标告警处置方案确定子单元。
所述处置建议文本向量获得子单元,用于在预先构建的告警处置建议库中获得与所述故障类型对应的至少一个预设告警处置方案的处置建议文本向量。
所述余弦相似度计算子单元,用于计算所述当前告警文本向量与各所述处置建议文本向量的余弦相似度。
所述聚类子单元,用于利用预设聚类算法对各所述余弦相似度进行聚类,获得聚类结果。
所述目标告警处置方案确定子单元,用于根据所述聚类结果,在所述至少一个预设告警处置方案中确定目标告警处置方案。
可选的,该服务器告警处理装置还可以包括:第一处置单元。
所述第一处置单元,用于所述目标告警处置方案确定单元400在所述至少根据所述故障类型,在预先构建的告警处置建议库中确定目标告警处置方案之后,按照所述目标告警处置方案对所述服务器进行处置。
可选的,该服务器告警处理装置还可以包括:处置方案展示单元。
所述处置方案展示单元,用于所述目标告警处置方案确定单元400在所述至少根据所述故障类型,在预先构建的告警处置建议库中确定目标告警处置方案之后,将所述目标告警处置方案推荐至目标终端进行展示。
可选的,该服务器告警处理装置还可以包括:第二处置单元。
所述第二处置单元,用于响应于用户在所述目标终端对展示的所述目标告警处置方案的目标触发操作,按照所述目标告警处置方案对所述服务器进行处置。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
所述服务器告警处理装置包括处理器和存储器,上述当前告警文本信息获得单元100、当前告警文本向量获得单元200、告警分类预测单元300以及目标告警处置方案确定单元400等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来通过在服务器故障时产生的告警文本信息提供目标告警处置方案,有助于及时对服务器故障进行应急处置,进而提升服务器的日常监控和事故异常处置的工作效率。
本公开实施例提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现所述服务器告警处理方法。
本公开实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述服务器告警处理方法。
如图8所示,本公开实施例提供了一种电子设备1000,电子设备1000包括至少一个处理器1001、以及与处理器1001连接的至少一个存储器1002、总线1003;其中,处理器1001、存储器1002通过总线1003完成相互间的通信;处理器1001用于调用存储器1002中的程序指令,以执行上述的服务器告警处理方法。本文中的电子设备可以是服务器、PC、PAD、手机等。
本公开还提供了一种计算机程序产品,当在电子设备上执行时,适于执行初始化有服务器告警处理方法步骤的程序。
本公开是参照根据本公开实施例的方法、装置、电子设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器,使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
在一个典型的配置中,电子设备包括一个或多个处理器(CPU)、存储器和总线。电子设备还可以包括输入/输出接口、网络接口等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
在本公开的描述中,需要理解的是,如若涉及术语“上”、“下”、“前”、“后”、“左”和“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的位置或元件必须具有特定方位、以特定的方位构成和操作,因此不能理解为本公开的限制。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本公开的实施例可提供为方法、系统或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本公开的实施例而已,并不用于限制本公开。对于本领域技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本公开的权利要求范围之内。

Claims (10)

1.一种服务器告警处理方法,其特征在于,包括:
获得服务器的当前告警文本信息;
对所述当前告警文本信息进行文本预处理,获得当前告警文本向量;
将所述当前告警文本向量输入至预先训练好的LSTM算法模型中进行分类预测,确定所述服务器是否发生故障,若所述服务器发生故障,则确定所述服务器发生故障的故障类型;
至少根据所述故障类型,在预先构建的告警处置建议库中确定目标告警处置方案。
2.根据权利要求1所述的方法,其特征在于,所述至少根据所述故障类型,在预先构建的告警处置建议库中确定目标告警处置方案,包括:
在预先构建的告警处置建议库中获得与所述故障类型对应的至少一个预设告警处置方案的处置建议文本向量;
计算所述当前告警文本向量与各所述处置建议文本向量的余弦相似度;
利用预设聚类算法对各所述余弦相似度进行聚类,获得聚类结果;
根据所述聚类结果,在所述至少一个预设告警处置方案中确定目标告警处置方案。
3.根据权利要求1所述的方法,其特征在于,在所述至少根据所述故障类型,在预先构建的告警处置建议库中确定目标告警处置方案之后,所述方法还包括:
按照所述目标告警处置方案对所述服务器进行处置。
4.根据权利要求1所述的方法,其特征在于,在所述至少根据所述故障类型,在预先构建的告警处置建议库中确定目标告警处置方案之后,所述方法还包括:
将所述目标告警处置方案推荐至目标终端进行展示。
5.根据权利要求4所述的方法,其特征在于,还包括:
响应于用户在所述目标终端对展示的所述目标告警处置方案的目标触发操作,按照所述目标告警处置方案对所述服务器进行处置。
6.根据权利要求1所述的方法,其特征在于,所述获得服务器的当前告警文本信息,包括:
按照预设滑动时间窗口,在所述服务器的运行数据中获得当前告警文本信息。
7.根据权利要求1所述的方法,其特征在于,所述对所述当前告警文本信息进行文本预处理,获得当前告警文本向量,包括:
对所述当前告警文本信息进行分词以及去停用词处理,获得当前告警文本词语列表;
对所述当前告警文本词语列表进行向量化处理,获得当前告警文本向量。
8.一种服务器告警处理装置,其特征在于,包括:当前告警文本信息获得单元、当前告警文本向量获得单元、告警分类预测单元以及目标告警处置方案确定单元,
所述当前告警文本信息获得单元,用于获得服务器的当前告警文本信息;
所述当前告警文本向量获得单元,用于对所述当前告警文本信息进行文本预处理,获得当前告警文本向量;
所述告警分类预测单元,用于将所述当前告警文本向量输入至预先训练好的LSTM算法模型中进行分类预测,确定所述服务器是否发生故障,若所述服务器发生故障,则确定所述服务器发生故障的故障类型;
所述目标告警处置方案确定单元,用于至少根据所述故障类型,在预先构建的告警处置建议库中确定目标告警处置方案。
9.一种计算机可读存储介质,其上存储有程序,其特征在于,所述程序被处理器执行时实现如权利要求1至7中任一项所述的服务器告警处理方法。
10.一种电子设备,所述电子设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行如权利要求1至7中任一项所述的服务器告警处理方法。
CN202111114007.2A 2021-09-23 2021-09-23 一种服务器告警处理方法及相关设备 Pending CN113821408A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111114007.2A CN113821408A (zh) 2021-09-23 2021-09-23 一种服务器告警处理方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111114007.2A CN113821408A (zh) 2021-09-23 2021-09-23 一种服务器告警处理方法及相关设备

Publications (1)

Publication Number Publication Date
CN113821408A true CN113821408A (zh) 2021-12-21

Family

ID=78915189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111114007.2A Pending CN113821408A (zh) 2021-09-23 2021-09-23 一种服务器告警处理方法及相关设备

Country Status (1)

Country Link
CN (1) CN113821408A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114422327A (zh) * 2022-01-14 2022-04-29 杭州立思辰安科科技有限公司 一种告警处置建议生成方法、装置、系统和计算机可读存储介质
CN115687031A (zh) * 2022-11-15 2023-02-03 北京优特捷信息技术有限公司 一种告警描述文本的生成方法、装置、设备及介质
CN118012725A (zh) * 2024-04-09 2024-05-10 西安热工研究院有限公司 一种可信管理平台告警管理方法、系统、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090747A (zh) * 2019-12-03 2020-05-01 国家电网有限公司 一种基于神经网络分类的电力通信故障应急处置方法
CN111274395A (zh) * 2020-01-19 2020-06-12 河海大学 基于卷积和长短期记忆网络的电网监控告警事件识别方法
CN111522997A (zh) * 2020-03-12 2020-08-11 国电南瑞南京控制系统有限公司 一种基于模型和文件服务的预案编制与告警推送系统和方法
CN112052151A (zh) * 2020-10-09 2020-12-08 腾讯科技(深圳)有限公司 故障根因分析方法、装置、设备及存储介质
CN112685215A (zh) * 2021-01-22 2021-04-20 浪潮云信息技术股份公司 一种云平台异常日志分析方法
CN112838946A (zh) * 2020-12-17 2021-05-25 国网江苏省电力有限公司信息通信分公司 基于通信网故障智能感知与预警模型的构建方法
WO2021109578A1 (zh) * 2019-12-02 2021-06-10 北京天元创新科技有限公司 业务运维中告警的预测方法、装置与电子设备
CN113065352A (zh) * 2020-06-29 2021-07-02 国网浙江省电力有限公司杭州供电公司 一种电网调度工作文本的操作内容识别方法
CN113283704A (zh) * 2021-04-23 2021-08-20 内蒙古电力(集团)有限责任公司乌兰察布电业局 基于知识图谱的电网故障智能处置系统及方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021109578A1 (zh) * 2019-12-02 2021-06-10 北京天元创新科技有限公司 业务运维中告警的预测方法、装置与电子设备
CN111090747A (zh) * 2019-12-03 2020-05-01 国家电网有限公司 一种基于神经网络分类的电力通信故障应急处置方法
CN111274395A (zh) * 2020-01-19 2020-06-12 河海大学 基于卷积和长短期记忆网络的电网监控告警事件识别方法
CN111522997A (zh) * 2020-03-12 2020-08-11 国电南瑞南京控制系统有限公司 一种基于模型和文件服务的预案编制与告警推送系统和方法
CN113065352A (zh) * 2020-06-29 2021-07-02 国网浙江省电力有限公司杭州供电公司 一种电网调度工作文本的操作内容识别方法
CN112052151A (zh) * 2020-10-09 2020-12-08 腾讯科技(深圳)有限公司 故障根因分析方法、装置、设备及存储介质
CN112838946A (zh) * 2020-12-17 2021-05-25 国网江苏省电力有限公司信息通信分公司 基于通信网故障智能感知与预警模型的构建方法
CN112685215A (zh) * 2021-01-22 2021-04-20 浪潮云信息技术股份公司 一种云平台异常日志分析方法
CN113283704A (zh) * 2021-04-23 2021-08-20 内蒙古电力(集团)有限责任公司乌兰察布电业局 基于知识图谱的电网故障智能处置系统及方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114422327A (zh) * 2022-01-14 2022-04-29 杭州立思辰安科科技有限公司 一种告警处置建议生成方法、装置、系统和计算机可读存储介质
CN115687031A (zh) * 2022-11-15 2023-02-03 北京优特捷信息技术有限公司 一种告警描述文本的生成方法、装置、设备及介质
CN118012725A (zh) * 2024-04-09 2024-05-10 西安热工研究院有限公司 一种可信管理平台告警管理方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN113821408A (zh) 一种服务器告警处理方法及相关设备
US20210256420A1 (en) System and method for improving machine learning models by detecting and removing inaccurate training data
Hodge et al. A survey of outlier detection methodologies
US20220405645A1 (en) Machine Learning-Based Infrastructure Anomaly And Incident Detection Using Multi-Dimensional Machine Metrics
US8886574B2 (en) Generalized pattern recognition for fault diagnosis in machine condition monitoring
US8365019B2 (en) System and method for incident management enhanced with problem classification for technical support services
Guo et al. Breast cancer diagnosis using genetic programming generated feature
US20160321557A1 (en) Anomaly detection in spatial and temporal memory system
EP3786855A1 (en) Automated data processing and machine learning model generation
Wisaeng A comparison of different classification techniques for bank direct marketing
KR101948634B1 (ko) 스마트 컴퓨팅을 위한 시스템 자원의 장애 예측 방법
US20220138504A1 (en) Separation maximization technique for anomaly scores to compare anomaly detection models
US20220114464A1 (en) Systems and methods for counterfactual explanation in machine learning models
CN111651340B (zh) 告警数据规则挖掘方法、装置及电子设备
Lee et al. Early failure detection of paper manufacturing machinery using nearest neighbor‐based feature extraction
Namitha et al. Learning in the presence of concept recurrence in data stream clustering
CN112100617B (zh) 一种异常sql检测方法及装置
Rao et al. A novel feature-based SHM assessment and predication approach for robust evaluation of damage data diagnosis systems
Kaur et al. Relevance feedback based CBIR system using SVM and BAYES classifier
Wang et al. A multiscale concept drift detection method for learning from data streams
CN113778792B (zh) 一种it设备的告警归类方法及系统
Buza et al. Speeding up the success approach for massive industrial datasets
DS et al. Comparative analysis of machine learning-based algorithms for detection of anomalies in IIoT
CN112988699B (zh) 模型训练方法、数据标签的生成方法及装置
Kuncheva et al. Pattern recognition and classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination