CN115617554A - 基于时间感知的系统故障预测方法、装置、设备及介质 - Google Patents

基于时间感知的系统故障预测方法、装置、设备及介质 Download PDF

Info

Publication number
CN115617554A
CN115617554A CN202211225819.9A CN202211225819A CN115617554A CN 115617554 A CN115617554 A CN 115617554A CN 202211225819 A CN202211225819 A CN 202211225819A CN 115617554 A CN115617554 A CN 115617554A
Authority
CN
China
Prior art keywords
time
abnormal
sequence
fault prediction
downtime
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211225819.9A
Other languages
English (en)
Inventor
王雨农
夏坤
邓凌飞
马旭华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Cloud Computing Ltd
Original Assignee
Alibaba Cloud Computing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Cloud Computing Ltd filed Critical Alibaba Cloud Computing Ltd
Priority to CN202211225819.9A priority Critical patent/CN115617554A/zh
Publication of CN115617554A publication Critical patent/CN115617554A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请实施例提供了基于时间感知的系统故障预测方法、装置、设备及介质,应用于云计算系统,所述方法包括:获取故障预测模型和实时采集的实时系统数据;故障预测模型基于时间相关性矩阵和异常相关性矩阵进行结合生成,其中,时间相关性矩阵用于提取系统异常的异常发生时间信息,异常相关性矩阵用于提取所发生的系统异常的语义信息;根据实时系统数据和故障预测模型,得到针对云计算系统的故障预测结果。通过将所提取的语义信息和时间信息进行融合,采用所引入的时间信息对日志模式进行更充分的挖掘,提高对实时采集的实时系统数据进行系统故障预测的预测结果的准确性。

Description

基于时间感知的系统故障预测方法、装置、设备及介质
技术领域
本申请涉及云计算技术领域,特别是涉及一种基于时间感知的系统故障预测方法、一种基于时间感知的系统故障预测装置、相应的一种电子设备以及相应的一种计算机可读存储介质。
背景技术
云计算系统能够将服务器进行集中管理和使用,实现提高计算资源的利用效率的效果。对于云计算系统所管理的服务器,其中,NC(Node Controller,云计算系统中用于统计故障宕机的单个单元,即故障宕机单元)宕机故障是影响云计算系统稳定性的重要因素之一,不可预料的突然宕机将会给用户造成严重损失,为了维护云计算系统的稳定性,通常可提前预测云计算系统中服务器的故障并及时对故障进行运维。
目前,系统日志是对云计算系统中服务器的故障进行提前预测的重要依据之一,通常可通过模型学习已有故障NC的系统日志的报出模式实现,但是云计算系统内不同的故障起因将会产出不同的异常日志模式,当不同的异常日志模式混杂时模型无法进行有效学习,导致对云计算系统故障的预测结果不准确。
发明内容
鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于时间感知的系统故障预测方法、一种基于时间感知的系统故障预测装置、相应的一种电子设备以及相应的一种计算机可读存储介质。
本申请实施例公开了一种基于时间感知的系统故障预测方法,应用于云计算系统,所述方法包括:
获取故障预测模型和实时采集的实时系统数据;所述故障预测模型基于时间相关性矩阵和异常相关性矩阵进行结合生成,其中,所述时间相关性矩阵用于提取系统异常的异常发生时间的时间信息,所述异常相关性矩阵用于提取所发生的系统异常的语义信息;
根据所述实时系统数据和所述故障预测模型,得到针对所述云计算系统的故障预测结果。
可选地,所述根据所述实时系统数据和所述故障预测模型,得到针对所述云计算系统的故障预测结果,包括:
将所述实时系统数据作为输入项输入至所述故障预测模型,输出针对所述云计算系统的故障预测结果;所述故障预测结果包括宕机结果和不宕机结果。
可选地,所述故障预测模型通过如下方式生成:
获取云计算系统中各个故障宕机单元针对系统异常报出的异常日志,根据所述异常日志获取异常序列和异常时间戳序列;所述异常序列用于表示所述云计算系统发生系统宕机与除了系统宕机以外的其他系统异常的相关性,所述异常时间戳序列用于表示所述云计算系统发生系统宕机与除了系统宕机以外的其他系统异常的时间相关性;
根据所述异常序列映射生成异常相关性矩阵,并根据所述异常时间戳序列映射生成时间相关性矩阵;
基于所述时间相关性矩阵和所述异常相关性矩阵的结合,得到故障预测模型。
可选地,所述根据所述异常日志获取异常序列和异常时间戳序列,包括:
获取各个故障宕机单元报出所述异常日志的报出顺序,以及将所报出的异常日志映射得到异常事件,其中各个异常事件在异常事件库中具有各自对应的数值标识;
将所映射得到的异常事件所对应的数值标识,按照所述报出顺序的倒序顺序进行排序组成异常标识序列;
对所述异常标识序列按照预设时间间隔和预设采样窗口长度进行采样得到异常序列,并基于所述异常序列中各个数值标识所对应的系统异常的异常发生时间生成异常时间戳序列。
可选地,所述异常标识序列包含宕机样本和非宕机样本,其中所述宕机样本为所述云计算系统发生的系统宕机所对应的数值标识样本,所述非宕机样本为所述云计算系统发生的除了系统宕机以外的其他系统异常所对应的数值标识样本;
所述对所述异常标识序列按照预设时间间隔和预设采样窗口长度进行采样,得到异常序列,包括:
按照所述预设时间间隔在所述异常标识序列上确定若干个采样位置;
从所述若干个采样位置中获取与所述宕机样本对应的目标采样位置,并将所述目标采样位置作为采样起始位置;
保留以所述采样起始位置开始在预设采样窗口长度内的宕机样本,以及以所述采样起始位置开始按照预设比例随机保留所述异常标识序列上的非宕机样本,得到针对系统宕机的异常序列。
可选地,所述异常标识序列包含宕机样本和非宕机样本,其中所述宕机样本为所述云计算系统发生的系统宕机所对应的数值标识样本,所述非宕机样本为所述云计算系统发生的除了系统宕机以外的其他系统异常所对应的数值标识样本;
所述基于所述异常序列中各个数值标识所对应的系统异常的异常发生时间生成异常时间戳序列,包括:
获取所述异常序列中各个数值标识样本所对应的系统异常的异常发生时间,并获取对所述异常序列的各个数值标识样本进行采样的采样时间;
计算所述异常序列中各个数值标识样本的异常发生时间,和对所述异常序列的各个数值标识样本进行采样的采样时间的时间差值;所述时间差值存在不同时间单位的数值标识;
将所述时间差值中不同时间单位的数值标识进行分层编码,得到编码向量;
对所述编码向量进行求和,得到时间编码;所述时间编码包括针对各个时间差值的时间编码;
将所述针对各个时间差值的时间编码组合生成异常时间戳序列。
可选地,所述根据所述异常序列映射生成异常相关性矩阵,包括:
获取在所述异常序列中所包含的各个数值标识样本的位置顺序,并按照所述位置顺序确定各个数值标识样本的位置编码;
将所述异常序列中所包含的各个数值标识样本和所述各个数值标识样本对应的位置编码分别映射得到第一向量和第二向量;
将所述第一向量和所述第二向量进行相加,得到异常相关性矩阵。
可选地,所述时间戳序列包括多个时间编码,所述根据所述异常时间戳序列映射生成时间相关性矩阵,包括:
计算各个时间编码之间的相关关系,基于所述各个时间编码之间的相关关系组成时间相关性矩阵;其中,所述各个时间编码之间的相关关系基于各个时间编码中任一时间编码的转置矩阵和另一时间编码的乘积后的值,与预设相关阈值的大小关系确定。
可选地,所述故障预测模型具有分类器模块,所述分类器模块用于指示所述故障预测模块判定所述云计算系统的故障预测结果;所述基于所述时间相关性矩阵和所述异常相关性矩阵的结合,得到故障预测模型,包括:
将所述时间相关性矩阵和所述异常相关性矩阵进行结合,得到输出序列;
获取所述分类器模块的参数,根据所述输出序列和所述分类器模块的参数,生成故障预测模型。
可选地,所述故障预测模型具有多层时间感知注意力模块,所述时间感知注意力模块用于指示所述故障预测模型基于时间感知进行系统故障检测;所述将所述时间相关性矩阵和所述异常相关性矩阵进行结合,得到输出序列,包括:
将所述时间相关性矩阵和所述异常相关性矩阵进行求和,得到权重矩阵;
将所述时间相关性矩阵和所述异常相关性矩阵作为所述时间感知注意力模块的第一层的输入项,与所述权重矩阵相乘,得到第一层的输出项;
从所述时间感知注意力模块的第二层开始,按照前一层的输入项和前一层的输出项的和作为下一层的输入项,并与所述权重矩阵相乘得到下一层的输出项,直至按照前一层的输入项和前一层的输出项的和与权重矩阵相乘,得到顶层的输出项为止;
将顶层的输出项的特征向量组成输出序列。
可选地,所述根据所述输出序列和所述分类器模块的参数,生成故障预测模型,包括:
获取所述输出序列中位于首个位置的目标特征向量,将所获取的目标特征向量输入至所述分类器模块进行分类,输出分类结果;
根据所述分类结果和针对所述输出序列的标注结果,确定用于训练所述故障预测模型的交叉熵损失;
通过梯度下降算法反传所述交叉熵损失的梯度,更新所述故障预测模型的参数,生成故障预测模型。
本申请实施例还公开了一种基于时间感知的系统故障预测装置,应用于云计算系统,所述装置包括:
实时系统数据获取模块,用于获取实时采集的实时系统数据;
故障预测模型获取模块,用于获取故障预测模型;所述故障预测模型基于时间相关性矩阵和异常相关性矩阵进行结合生成,其中,所述时间相关性矩阵用于提取系统异常的异常发生时间的时间信息,所述异常相关性矩阵用于提取所发生的系统异常的语义信息;
故障预测模块,用于根据所述实时系统数据和所述故障预测模型,得到针对所述云计算系统的故障预测结果。
可选地,所述故障预测模块包括:
故障预测结果生成子模块,用于将所述实时系统数据作为输入项输入至所述故障预测模型,输出针对所述云计算系统的故障预测结果;所述故障预测结果包括宕机结果和不宕机结果。
可选地,所述装置还包括:
故障预测模型生成模块,用于基于时间相关性矩阵和异常相关性矩阵进行结合,生成故障预测模型。
可选地,所述故障预测模型生成模块包括:
异常序列获取子模块,用于云计算系统中各个故障宕机单元针对系统异常报出的异常日志,根据所述异常日志获取异常序列和异常时间戳序列;所述异常序列用于表示所述云计算系统发生系统宕机与除了系统宕机以外的其他系统异常的相关性,所述异常时间戳序列用于表示所述云计算系统发生系统宕机与除了系统宕机以外的其他系统异常的时间相关性;
相关性矩阵生成子模块,用于根据所述异常序列映射生成异常相关性矩阵,并根据所述针对异常的时间戳序列映射生成时间相关性矩阵;
故障预测模型生成子模块,用于基于所述时间相关性矩阵和所述异常相关性矩阵的结合,得到故障预测模型。
可选地,所述异常序列获取子模块包括:
异常事件映射单元,用于获取各个故障宕机单元报出所述异常日志的报出顺序,以及将所报出的异常日志映射得到异常事件,其中各个异常事件在异常事件库中具有各自对应的数值标识;
序列组成单元,用于将所映射得到的异常事件所对应的数值标识,按照所述报出顺序的倒序顺序进行排序组成异常标识序列;
异常序列生成单元,用于对所述异常标识序列按照预设时间间隔和预设采样窗口长度进行采样得到异常序列,并基于所述异常序列中各个数值标识所对应的系统异常的异常发生时间生成异常时间戳序列。
可选地,所述异常标识序列包含宕机样本和非宕机样本,其中所述宕机样本为所述云计算系统发生的系统宕机所对应的数值标识样本,所述非宕机样本为所述云计算系统发生的除了系统宕机以外的其他系统异常所对应的数值标识样本;所述异常序列生成单元包括:
采样位置确定子单元,用于按照所述预设时间间隔在所述异常标识序列上确定若干个采样位置;
采样起始位置确定子单元,用于从所述若干个采样位置中获取与所述宕机样本对应的目标采样位置,并将所述目标采样位置作为采样起始位置;
异常序列生成子单元,用于保留以所述采样起始位置开始在预设采样窗口长度内的宕机样本,以及以所述采样起始位置开始按照预设比例随机保留所述异常标识序列上的非宕机样本,得到针对系统宕机的异常序列。
可选地,所述异常标识序列包含宕机样本和非宕机样本,其中所述宕机样本为所述云计算系统发生的系统宕机所对应的数值标识样本,所述非宕机样本为所述云计算系统发生的除了系统宕机以外的其他系统异常所对应的数值标识样本;
可选地,所述异常序列生成单元包括:
采样时间获取子单元,用于获取所述异常序列中各个数值标识样本所对应的系统异常的异常发生时间,并获取对所述异常序列的各个数值标识样本进行采样的采样时间;
时间差值计算子单元,用于计算所述异常序列中各个数值标识样本的异常发生时间,和对所述异常序列的各个数值标识样本进行采样的采样时间的时间差值;所述时间差值存在不同时间单位的数值标识;
编码向量生成子单元,用于将所述时间差值中不同时间单位的数值标识进行分层编码,得到编码向量;
时间编码生成子单元,用于对所述编码向量进行求和,得到时间编码;所述时间编码包括针对各个时间差值的时间编码;
时间戳序列生成子单元,用于将所述针对各个时间差值的时间编码组合生成异常时间戳序列。
可选地,所述相关性矩阵生成子模块包括:
位置编码确定单元,用于获取在所述异常序列中所包含的各个数值标识样本的位置顺序,并按照所述位置顺序确定各个数值标识样本的位置编码;
向量映射单元,用于将所述异常序列中所包含的各个数值标识样本和所述各个数值标识样本对应的位置编码分别映射得到第一向量和第二向量;
异常相关性矩阵生成单元,用于将所述第一向量和所述第二向量进行相加,得到异常相关性矩阵。
可选地,所述时间戳序列包括多个时间编码,所述相关性矩阵生成子模块包括:
时间相关性矩阵生成单元,用于计算各个时间编码之间的相关关系,基于所述各个时间编码之间的相关关系组成时间相关性矩阵;其中,所述各个时间编码之间的相关关系基于各个时间编码中任一时间编码的转置矩阵和另一时间编码的乘积后的值,与预设相关阈值的大小关系确定。
可选地,所述故障预测模型具有分类器模块,所述分类器模块用于指示所述故障预测模块判定所述云计算系统的故障预测结果;所述故障预测模型生成子模块包括:
矩阵结合单元,用于将所述时间相关性矩阵和所述异常相关性矩阵进行结合,得到输出序列;
故障预测模型生成单元,用于获取所述分类器模块的参数,根据所述输出序列和所述分类器模块的参数,生成故障预测模型。
可选地,所述故障预测模型具有多层时间感知注意力模块,所述时间感知注意力模块用于指示所述故障预测模型基于时间感知进行系统故障检测;所述矩阵结合单元包括:
权重矩阵生成子单元,用于将所述时间相关性矩阵和所述异常相关性矩阵进行求和,得到权重矩阵;
输出项获取子单元,用于将所述时间相关性矩阵和所述异常相关性矩阵作为所述时间感知注意力模块的第一层的输入项,与所述权重矩阵相乘,得到第一层的输出项;
迭代计算子单元,用于从所述时间感知注意力模块的第二层开始,按照前一层的输入项和前一层的输出项的和作为下一层的输入项,并与所述权重矩阵相乘得到下一层的输出项,直至按照前一层的输入项和前一层的输出项的和与权重矩阵相乘,得到顶层的输出项为止;
输出序列组成子单元,用于将顶层的输出项的特征向量组成输出序列。
在本申请的一种实施例中,故障预测模型生成单元可以包括如下子单元:
分类结果输出子单元,用于获取所述输出序列中位于首个位置的目标特征向量,将所获取的目标特征向量输入至所述分类器模块进行分类,输出分类结果;
交叉熵损失确定子单元,用于根据所述分类结果和针对所述输出序列的标注结果,确定用于训练所述故障预测模型的交叉熵损失;
故障预测模型生成子单元,用于通过梯度下降算法反传所述交叉熵损失的梯度,更新所述故障预测模型的参数,生成故障预测模型。
本申请实施例还公开了一种电子设备,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现任一项所述基于时间感知的系统故障预测方法。
本申请实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现任一项所述基于时间感知的系统故障预测方法。
本申请实施例包括以下优点:
在本申请实施例中,通过计算异常相关性矩阵和时间相关性矩阵并结合构建生成故障预测模型,其基于异常相关性矩阵提取所发生的系统异常的语义信息,以及基于时间相关性矩阵提取系统异常的异常发生时间的时间信息,将所提取的语义信息和时间信息进行融合,采用所引入的时间信息对日志模式进行更充分的挖掘,提高对实时采集的实时系统数据进行系统故障预测的预测结果的准确性。
附图说明
图1是本申请的一种基于时间感知的系统故障预测方法实施例的步骤流程图;
图2是本申请的另一种基于时间感知的系统故障预测方法实施例的步骤流程图;
图3是本申请实施例提供的故障预测模型的训练框架示意图;
图4是本申请实施例提供的基于时间感知的系统故障预测的应用场景示意图;
图5是本申请的一种基于时间感知的系统故障预测装置实施例的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
为便于本领域技术人员理解本申请,下面对本申请下述各实施例中涉及的术语或名词做出解释:
Attention:注意力机制,其可用于对重点关注的目标区域投入更多的注意力资源,以获得更多所需关注的目标的细节信息,并抑制其它无用信息,在本申请实施例中通常可将注意力机制作为接口,提供挖掘序列中元素间相关性信息。
Transformer:基于Attention的机器学习模型,常用于自然语言处理和图像处理任务。
BERT:Bidirectional Encoder Representations from Transformers,双向编码Transformer模型,常用于自然语言处理和图像处理任务。
XgBoost:Extreme GradientBoosting,一种常用的集成学习算法。
TAAT:Time-awareAttentionbased Transformer,为本申请实施例提出的时间感知注意力机制的Transformer算法。
NC:Node Controller,指的是云计算系统中用于统计故障宕机的单个单元。
ECS:Elastic Compute Service,云服务器。
NLP:Natural Language Processing,自然语言处理。
LogBERT模型:在本申请实施例中表现为在BERT模型基础上,基于统计特征的机器学习故障预测的模型。
XgBoost模型:在本申请实施例中表现为采用常用的集成学习算法,实现基于统计特征的机器学习故障预测的模型。
TAAT模型:在本申请实施例中表现为以BERT模型为基础,采用时间感知注意力机制的Transformer算法实现机器学习故障预测的模型。
Attention Score:指的是Transformer模型中Attention过程计算得到的相关性矩阵,在本申请实施例中指代的是异常相关性矩阵和时间相关性矩阵的和。
系统日志是对云计算系统中服务器的故障进行提前预测的重要依据之一,通常可采用基于统计特征的机器学习故障预测算法,具体可以表现为通过模型学习已有故障NC的系统日志的报出模式实现。但是云计算系统内不同的故障起因将会产出不同的异常日志模式,例如日志种类、频次、产生顺序等,同时异常日志并非等时间间隔地报出,这些因素将会对模型的学习造成影响,特别是在由多种故障原因引起的不同的异常日志模式混杂的情况,例如内存引起的宕机异常系统日志的不断积累,在由CPU引起的宕机中将会在短时间内突发某些关键的异常日志时,不同的模式混杂在一起导致模型无法进行有效学习,增加模型对故障预测结果的虚报率,且导致对云计算系统故障的预测结果不准确,不能实现对系统故障进行精准高效地运维。
在相关的基于统计特征的机器学习故障预测算法中,可以表现为通过LogBERT模型和/或XgBoost模型学习已有故障NC的系统日志的报出模式,利用系统的异常日志完成故障预测任务。
具体地,LogBERT模型使用自然语言处理的方式对日志文本进行处理,具体采用BERT模型作为特征提取器,并提前使用大量的日志文本数据构建辅助学习任务,例如遮蔽文本中某个词训练模型生成被遮住的词,或者预测两个日志文本是否接连报出等,用于训练BERT模型使其学习日志文本的组成逻辑,再将训练后得到的模型用于故障预测任务的学习和测试。然而,LogBERT模型存在提前使用大量日志文本构建辅助学习任务的预训练过程,预训练过程增加模型训练的耗时,且对日志文本编码的复杂过程也增加了所使用模型的复杂度,使得所使用的模型复杂度较高而导致的模型体量过大,以及所使用的BERT模型中的Attention注意力机制并未利用日志发生的时间信息,所训练得到的模型并不适用挖掘复杂的异常模式。
XgBoost模型主要是利用统计特征处理故障预测问题,具体统计各台NC中一个固定时间窗口内各个异常日志发生的次数,作为NC的统计特征,再将此特征送入XgBoost分类器中进行训练,并将所训练的模型进行线上测试。然而,XgBoost模型所提取的统计特征包含的是异常发生的频次信息,并未包含发生顺序等信息,也并未挖掘不同异常日志模式中异常日志的时间间隔信息和相互间的相关关系,由于XgBoost模型没有充分挖掘异常发生时刻间的关系,也没有和语义信息相结合,所能提取的特征表达模式受到限制。
由上述可知,LogBERT模型和XgBoost模型利用系统的异常日志进行故障预测任务,但在进行故障学习的过程中,LogBERT模型并未利用系统日志的报出时间信息,也并不能提取出频次、时间间隔相关的特征,而XgBoost模型使用的是手工提取的统计特征,利用异常发生的频次信息的特征作为预测依据,无法反应异常发生的顺序,例如反应日志报出的先后关系等信息,对日志序列的信息挖掘不够充分。
本申请实施例的核心思想之一在于基于系统日志报出的不同模式,在模型基于统计特征的机器学习故障预测算法的基础上充分利用日志报出的时序信息,通过融合提取的语义和时间信息,以及引入日志报出的时间间隔等时序信息,提高对云计算系统故障的预测结果的准确性。具体将基于日志序列的故障预测问题转化为自然语言处理问题,基于时间感知注意力机制Transformer算法,并利用BERT提取日志序列中语义和时序信息,同时改进BERT中的注意力机制,使其融合语义和时间这两部分的信息,对日志模式进行更充分的挖掘,能够提取更复杂的、更具代表性的特征表达,能够准确预测机器是否即将发生故障,最终训练得到一个更精准的预测模型,提升预测模型的性能。进一步地,对日志文本抽象化处理,构建相应的异常事件库对日志进行编码,其基于单独的异常事件库进行构建以免去BERT模型对日志文本编码的预训练的复杂过程,降低模型的计算复杂度,使得训练得到的模型体量更小,训练测试速度更快以及效率更高。
参照图1,示出了本申请的一种基于时间感知的系统故障预测方法实施例的步骤流程图,应用于云计算系统,侧重于故障预测模型的使用过程,具体可以包括如下步骤:
步骤101,获取故障预测模型和实时采集的实时系统数据;
在本申请实施例中,在原有的故障预测模型中,可以在基于单独的异常事件库进行构建以免去BERT模型直接对日志文本编码的复杂过程的同时,通过计算异常相关性矩阵和时间相关性矩阵并结合,在模型中融合提取的语义信息和时间信息,引入日志报出的时间间隔等时序信息,提高故障预测模型对系统故障预测结果的准确性。
为了所采用的故障预测模型在进行故障预测的过程中,能够在融合所提取的语义信息和时间信息的基础上赋予故障预测模型更复杂的、更具代表性的特征表达,所获取的故障预测模型可以是基于时间相关性矩阵和异常相关性矩阵进行结合生成的模型。以让模型基于两者相关性矩阵的结合能够同时从异常序列和时间戳序列中提取相关信息,寻找异常间相关性时的同时还能够考虑异常自身的含义和异常发生的时间,这种能力是原始的Attention机制或者Transformer模型并不具有的,实现对BERT模型中的注意力机制的改进。
其中,时间相关矩阵可用于提取系统异常的异常发生时间的时间信息,其具体可以基于异常时间戳序列生成,异常时间戳序列主要可用于表示云计算系统发生系统宕机与除了系统宕机以外的其他系统异常的时间相关性;而异常相关性矩阵可用于提取所发生的系统异常的语义信息,其具体可以基于异常序列生成,异常序列主要可用于表示云计算系统发生系统宕机与除了系统宕机以外的其他系统异常的相关性。在实际应用中,异常相关性矩阵所提取的语义信息,主要是对基于系统异常所构建的异常事件进行提取实现,异常事件可基于对系统所发生的异常情况(即系统异常)的抽象化实现,系统所发生的异常情况通常由异常日志记录,可对异常日志记录抽象得到符合某个正则表达式的短语实现对异常事件的构建,则异常序列可基于异常事件排序得到,而异常时间戳序列与异常序列中的异常事件的异常发生时间相关。
在对故障预测模型的具体使用过程中,在获取基于时间相关性矩阵和异常相关性矩阵进行结合生成的故障预测模型后,可以获取实时采集的实时系统数据,其所采集的实时系统数据可以通过在实时链路上对每台故障宕机单元NC按照预设时间间隔,例如5分钟进行采样得到,以便将所实时采集的样本送入训练好的故障预测模型进行预测。
步骤102,根据实时系统数据和故障预测模型,得到针对云计算系统的故障预测结果。
在将实时采集的样本送入训练好的故障预测模型,即将实时系统数据作为输入项输入至故障预测模型后,训练好的故障预测模型可以对所输入的实时系统数据进行故障预测,预测云计算系统是否会发生故障,并基于预测结果决定是否提前对宕机故障进行运维以实现用户对宕机的无感化,从而优化用户的体验。
在实际应用中,NC宕机故障是影响云计算系统稳定性的重要因素之一,不可预料的突然宕机将会给用户造成严重损失,为了维护云计算系统的稳定性,此时可以通过故障预测模型基于所输入的实时系统数据推断云计算系统当前的NC是否会在接下来的一段时间内发生宕机,输出故障预测结果。
其中,所输出的故障预测结果包括宕机结果和不宕机结果,宕机结果指的是判定这台NC未来一段时间内有宕机风险,此时可以提前对宕机故障进行运维以实现用户对宕机的无感化,不宕机结果指的是这台NC未来一段时间内不存在宕机风险,此时暂时不进行任何操作。
需要说明的是,未来一段时间的具体数值可基于实际情况进行确定;且在用于采集实时系统数据的实时链路中,整个链路所涉及的数据监控、采集、聚合、存储等操作均为线上处理环节,待故障预测模型预测完成后,可以将存在宕机风险的机器推送至运维机构,以便运维机构进行运维、轮转或者下线等操作。
在本申请实施例中,通过计算异常相关性矩阵和时间相关性矩阵并结合构建生成故障预测模型,其基于异常相关性矩阵提取所发生的系统异常的语义信息,以及基于时间相关性矩阵提取系统异常的异常发生时间信息,将所提取的语义信息和异常发生时间信息进行融合,采用所引入的时间信息对日志模式进行更充分的挖掘,提高对实时采集的实时系统数据进行系统故障预测的预测结果的准确性。
参照图2,示出了本申请的另一种基于时间感知的系统故障预测方法实施例的步骤流程图,应用于云计算系统,侧重于故障预测模型的生成/训练过程,具体可以包括如下步骤:
步骤201,获取云计算系统中各个故障宕机单元针对系统异常报出的异常日志,根据异常日志获取异常序列和异常时间戳序列;
本申请实施例提出的时间感知注意力机制的Transformer算法TAAT可以在原有的故障预测模型中,可以在基于单独的异常事件库进行构建以免去BERT模型直接对日志文本编码的复杂过程的同时,通过计算异常相关性矩阵和时间相关性矩阵并结合,在模型中融合提取的语义信息和异常发生时间信息,引入日志报出的时间间隔等时序信息,提高故障预测模型对系统故障预测结果的准确性。而在实际应用中,时间感知注意力机制的Transformer算法的使用可基于故障预测模型的执行实现,此时可以对故障预测模型进行生成/训练,以使得所生成的故障预测模型能够具有执行时间感知注意力机制的Transformer算法的能力。
具体地,参照图3,示出了本申请实施例提供的故障预测模型的训练框架示意图,具体可以以BERT模型为基础,融合日志序列的语义信息和时间信息(包含日志报出的时间间隔等时序信息)以获得更具代表性的特征表达,同时替换原有的编码环节以加快模型计算速度。
其中,通常可预先收集各种异常日志,并对异常日志中的日志文本抽象化处理,基于抽象化处理构建相应的异常事件,对所构建的异常事件进行相应的数值标识的编码操作,实现对针对各个异常事件的异常事件库的预先构建,即异常事件库可以包含针对各种异常事件的数值标识,以便后续在进行对异常日志进行的数据预处理时,能够可以基于单独的异常事件库进行构建以免去BERT模型对日志文本编码的预训练的复杂过程,基于“系统异常的异常日志—异常事件—数值标识”的编码减小模型的体量,加快训练的测试速度,实现替换原有的编码环节的目的。
在具体实现中,对云计算系统中各个故障宕机单元NC针对系统异常报出的异常日志进行的数据预处理过程,表现为对异常序列和异常时间戳序列的获取,其中,异常序列用于表示云计算系统发生系统宕机与除了系统宕机以外的其他系统异常的相关性,异常序列包含按照预设时间间隔和预设采样窗口长度采样的系统宕机相应的异常事件,还可能包含了系统宕机以外的其他系统异常的异常事件,由于这些异常事件在序列中存在排序顺序,其可以受到不同异常事件在相应异常日志报出顺序的因素的影响,进而指示系统宕机与除了系统宕机以外的其他系统异常的相关性;异常时间戳序列用于表示云计算系统发生系统宕机与除了系统宕机以外的其他系统异常的时间相关性,异常时间戳序列与异常序列中的异常事件的异常发生时间相关,通常包含异常序列中各个系统异常所对应异常事件的时间差值,进而在表示云计算系统发生系统宕机与除了系统宕机以外的其他系统异常的相关性的基础上,对云计算系统发生系统宕机与除了系统宕机以外的其他系统异常的时间相关性进行指示。
在本发明的一种实施例中,可以将异常日志映射得到异常事件,然后从预先构建的异常事件库中获取所映射得到的异常事件各自对应的数值标识,异常事件对应的数值标识通常可表现为对应的整数,此时可以在获取各个故障宕机单元报出所述异常日志的报出顺序后,按照报出顺序的倒序顺序对所映射得到的异常事件所对应的数值标识,即对应的整数排序组成异常标识序列,以便基于对所组成的异常标识序列按照预设时间间隔和预设采样窗口长度进行采样,得到异常序列,以及基于异常序列中各个数值标识所对应的系统异常的异常发生时间生成异常时间戳序列。
在实际应用中,对异常事件的映射过程,可以通过正则表达式将报出的异常日志映射得到异常事件,表现为通过检测器实时获取NC报出的异常日志,并根据专家知识和正则表达式将各种异常日志一一对应地抽象为一个短语,所抽象得到的短语,即可称为异常事件。具体地,对每一条日志,可以确定此日志和其他日志共有的关键词,比如Error、hardware等词,然后可以再根据所出现的关键词的种类将其划分为不同的异常名称,得到用于命名异常事件的短语,示例性地,将原日志文本“mce:[Hardware Error]:Machinecheckevents logged”抽象为异常事件“dmesg_unrecover_mce”。由于线上报出的异常日志是描述计算机状态的语句,包含很多冗余信息,而通过对日志文本的抽象可提取其中的关键信息,同时也可对线上报出的异常日志进行有选择地筛选,比如选择具有Error字段的日志进行解析。需要说明的是,抽象得到的异常事件往往是一类异常日志的统一描述。
在映射得到异常事件之后,可以基于预先构建的异常事件库进行相应的数值标识的转化,其中,预先构建的异常事件库与自然语言处理中的语料库类似,包含各种异常事件种类,且各个异常事件可以对应一个数值标识,即整数,由于在异常事件库中的异常事件以短语形式呈现,不利于故障预测模型对其进行直接训练,而通常采用向量的形式对故障预测模型进行输入,此时可以根据异常事件库将各个异常事件转化为数字以用于训练,例如将异常事件“dmesg_unrecover_mce”转化为32。
需要说明的是,对异常进行数字转化的过程是类比NLP任务,即表现为按照词表将每个单词映射为一个数字的过程,示例性地,所构建的异常事件库中存在800种异常事件,则可以按照1~800的顺序对其表示的意义进行对应异常事件的转化,其中一个数字代表一个异常事件,那么在后续加入embedding层进行编码的前提下,可采用各个数字代表这个异常在embedding编码矩阵的行下标,而编码+embedding的过程可以理解为对异常做one-hot编码后再进行的线形映射过程。
在基于异常事件库中将所报出的异常日志所对应的异常事件转化为对应的数字后,为了保证能够让故障预测模型先看到最近时间段发生的系统异常,同时由于故障预测模型所允许输入的序列长度通常有限,此时可以在截断长序列的情况下保证优先时刻更近的异常,具体表现为将异常事件对应的整数,按照异常日志的报出顺序的倒序排序组成异常标识序列;然后可以对所组成的异常标识序列按照预设时间间隔和预设采样窗口长度进行采样,得到异常序列,并根据异常序列得到异常时间戳序列。具体地,可以表现为将每台NC报出的异常所转化的数字按倒序排列组成一个异常标识序列。
其中,云计算系统所发生的系统异常可以包括宕机(即常说的“当机”/“死机”),也可以包括其他故障,那么基于所报出的异常日志所生成的异常标识序列,可以包含宕机样本和非宕机样本,其中宕机样本可以指的是云计算系统发生的系统宕机所对应的数值标识样本,非宕机样本可以指的是云计算系统发生的除了系统宕机以外的其他系统异常所对应的数值标识样本。
此时,可以按照预设时间间隔在所组成的异常标识序列上确定若干个采样位置,然后从若干个采样位置中获取与宕机样本对应的目标采样位置,即处于宕机时刻的目标采样位置,并将此目标采样位置作为采样起始位置,然后再保留以采样起始位置开始在预设采样窗口长度内的宕机样本,以及以采样起始位置开始按照预设比例随机保留所组成的异常标识序列上的非宕机样本,得到针对系统宕机的异常序列。
示例性地,在按照倒序排列组成异常标识序列后,可以按照预设时间间隔,例如5分钟为时间间隔,以预设采样窗口长度,例如3天为采样长度,在整段序列上有重叠地进行采样,表现为假设5分钟一个采样位置点,每个采样位置包含采样时间往前3天内的系统异常的情况下,由于相邻两个采样位置的时间间隔远小于预设采样窗口长度,在采样位置A所采集的序列包含在当前采样时间,例如在12:03往前3天(即72小时)的序列时,与采样位置A相邻的采样位置B的采样时间,例如在12:08往前3天的序列(即72小时)时,采样位置B所采集的在12:03-12:08这5分钟时间段内的序列是采样位置A无法采集到的,而采样位置B与采样位置A在除了这5分钟以外可能存在2天23小时55分钟的序列是重合的,保证新发生的异常和前边所存在的异常进行关联性保留,那么可以对宕机样本(正样本)保留采样起始位置在宕机时刻3天内的数据,对正常样本(负样本)在整段序列上随机保留一定比例的样本,得到形如“[start],32,91,……,256”的异常序列,对负样本的随机保留是为了保留训练样本的多样性,降采样是为了减小类别不平衡比例。其中,[start]为起始符,没有具体含义。
需要说明的是,负样本指的是没有宕机NC的生命周期上采集的样本,这种情况下的样本均为负,而正样本指的是发生宕机NC在宕机时刻开始预设采样窗口长度,例如与3天内所采集的样本,此时异常事件仅仅是系统日志抽象后获取,异常的发生并不意味着宕机,而本申请实施例所训练的故障预测模型是用于预测一个样本发生样本序列中这些异常后会不会有宕机风险的模型,即宕机样本属于正样本,非宕机样本(即正常样本)属于负样本,在所组成的序列是基于所报出的异常事件所转化为数字组成的情况下,所组成的序列上同样也存在不属于宕机样本的正常样本。
而对于异常时间戳序列的生成过程,其可以表现为如图3所示的时间嵌入编码(Time Embedding)实现,可以通过获取异常序列中各个数值标识样本所对应的系统异常发生时间,并获取对所述异常序列的各个数值标识样本进行采样的采样时间,以计算异常序列中各个数值标识样本的异常发生时间,和对异常序列的各个数值标识样本进行采样的采样时间的时间差值,所计算得到的时间差值存在不同时间单位(包含天、小时、分钟和秒)的数值标识,此时可以按照不同时间单位,即按照天、小时、分钟和秒对数值标识进行分层编码,得到编码向量,然后对分层编码后的编码向量进行求和得到时间编码,例如假设时间差为1天3小时2分钟10秒,则分为4层分别对1、3、2、10四个数字进行编码得到4个向量并求和,以融合每个时间粒度的信息,即便天、小时这两层之间相同数字的含义不同,但由于其均属于时间信息,此时可基于求和操作实现融合,由于时间编码包括针对各个时间差值的时间编码,此时可以将各个时间差值的时间编码组合生成异常时间戳序列,生成异常时间戳序列的方式可以表现为初始化一个矩阵,然后将不同时间单位的时间数值,例如1、3、2、10作为这个矩阵行的索引,其中,在将每个数字进行编码得到相应的向量后,可以分别对应一个行向量,以基于所对应的行向量表示各个时间粒度的信息。
需要说明的是,同一个系统异常可能在不同的采样时刻被采样,在此情况下表,相同系统异常的时间戳也会相应地发生改变。
步骤202,根据异常序列映射生成异常相关性矩阵,并根据异常时间戳序列映射生成时间相关性矩阵;
为了使得故障预测模型能够在融合所提取的语义信息和时间信息的基础上赋予故障预测模型更复杂的、更具代表性的特征表达,故障预测模型可以是基于时间相关性矩阵和异常相关性矩阵进行结合生成。
具体地,由于时间相关矩阵可用于提取系统异常的异常发生时间信息,异常相关性矩阵可用于提取所发生的系统异常的语义信息,此时可以对异常相关性矩阵和时间相关矩阵进行生成。具体表现为根据异常序列映射生成异常相关性矩阵,并根据异常时间戳序列映射生成时间相关性矩阵。
在将异常序列映射生成异常相关性矩阵的过程中,可以获取在异常序列中所包含的各个数值标识样本的位置顺序,并按照位置顺序确定各个数值标识样本的位置编码,以便将异常序列中所包含的各个数值标识样本和各个数值标识样本对应的位置编码分别映射得到第一向量和第二向量,通过将第一向量和第二向量相加,生成异常相关性矩阵。其位置编码指的是在所生成的异常序列中各个数值标识样本的位置顺序,由于在异常序列的生成过程受报出顺序的影响,按照所生成的异常序列中的位置顺序所加入的位置编码同样可表征报出顺序,其作用是为了后续在进行编码的时候能够加入日志报出先后顺序的因素影响。
在实际应用中,异常相关性矩阵的生成可通过如图3所示的异常事件嵌入编码(Exception Embedding)实现,具体可以向异常加入顺序排列的位置编码,将异常事件和位置编码分别映射为两个向量,例如第一向量x1、第二向量x2,并将第一向量x1和第二向量x2相加作为最后的输出,以依照Transformer和BERT模型的操作,融合二者的信息。
示例性地,对于异常序列“[start],32,91,……,256”,按照排序顺序所加入的位置编码为“*,1,2,……,L”,L是序列长度,假设异常32映射为第一向量x1,位置1映射为第二向量x2,以此类推,映射后的向量输出为“x1+x2,……”,此向量输出即为异常相关性矩阵,所映射得到的矩阵还为模型可训练的参数。其中,映射成向量的过程,可以表现为假设故障预测模型的第一层为embedding层,在对故障预测模型开始训练时可以随机初始化的矩阵,异常序列中各个异常(在实际中采用所转化的数字)对应其中一行向量,此为映射过程,而向量将会随着模型训练而改变,实现对异常表达的学习过程,例如序列为“1,2”,embedding层随机初始化为[[1.2,0.8,1.5],[1.6,-0.9,0.7]],那么两个异常映射后向量分别为:[1.2,0.8,1.5]和[1.6,-0.9,0.7]。
而在将异常时间戳序列映射生成时间相关性矩阵的过程中,所采用的时间戳序列包括多个时间编码,此时可以计算各个时间编码互相之间的相关关系,以基于各个时间编码互相之间的相关关系组成时间相关性矩阵。
在实际应用中,时间相关矩阵的生成可通过如图3所示的时间相关性估计(TimeRelation Estimation)实现,具体可以将Time Embedding的输出,即时间戳序列作为输入,利用attention机制,计算序列中各个时间编码互相之间的相关关系,组成时间相关性矩阵R*。各个时间编码互相之间的相关关系,可以表现为各个时间编码中任一时间编码与另一时间编码的相关关系,例如异常时间戳序列中位置i和j的两个异常发生时间的编码的相关性,其相关关系可基于相关度确定,相关度可通过预设相关阈值进行判定,具体地,可以基于各个时间编码中任一时间编码的转置矩阵和另一时间编码的乘积后的值,与预设相关阈值的大小关系确定,其对应位置的值越高,则代表相关性越高,即代表两个异常编码越接近,互相之间有关联。示例性地,可以基于异常时间戳序列中位置i和j的两个异常发生时间的编码的相关性,确定所生成的时间相关矩阵中第i行第j列的元素,以便将所生成的时间关系矩阵作为输入项送入模型每层的主结构中,即如图3所示的时间感知注意力模块中。
步骤203,基于时间相关性矩阵和异常相关性矩阵的结合,得到故障预测模型。
在根据异常序列映射生成异常相关性矩阵,并根据异常时间戳序列映射生成时间相关性矩阵,可以将时间相关性矩阵和异常相关性矩阵进行结合,以便所生成的故障预测模型能够融合所提取的语义信息和时间信息。
具体地,故障预测模型具有分类器模块,分类器模块可用于指示故障预测模块判定云计算系统的故障预测结果。首先可以根据时间相关性矩阵和异常相关性矩阵进行结合,得到输出序列,然后可以根据输出序列和分类器模块的参数,生成具有执行时间感知注意力机制的Transformer算法的能力的故障预测模型。
在实际应用中,时间相关性矩阵和异常相关性矩阵的结合可通过如图3所示的时间感知注意力模块(Time-awareAttentionBlock,简称TAABlock)实现,故障预测模型所具有的多层时间感知注意力模块可用于指示故障预测模型基于时间感知进行系统故障检测。此时可将时间相关性矩阵和异常相关性矩阵进行求和,以融合提取的语义和时间信息,让故障预测模型具有同时从异常序列和异常时间戳序列中提取信息,以及具有在寻找异常间相关性时的同时还能够考虑异常自身的含义和异常发生的时间的能力。其中,时间相关性矩阵是用Attention机制计算时间戳序列中各个时间戳之间的相关性,组成形式是一个序列长度维度的方阵,异常相关性矩阵也是用独立的Attention模块计算异常序列中各个异常的相关性矩阵,组成形式是一个和时间相关性矩阵维度相同的方阵,而位置编码在编码过程中已经融合到异常序列编码中,即异常相关性矩阵已经是异常的embedding与位置编码embedding的和,此时所进行的求和可以表现为相关性矩阵间的矩阵乘法。
对时间相关性矩阵和异常相关性矩阵所进行的求和,可以作为Transformer模型中的Attention Score,Attention Score特指Transformer模型中Attention过程计算得到的相关性矩阵,其具体可以看作模型计算得到的一个动态权重矩阵,以便在后续步骤中是采用Attention Score与输入项相乘,为输入项进行加权。需要说明的是,整个Attention的过程可以理解为输入项自身乘自身的转置求出动态权重矩阵(即Attention Score)再用这个权重矩阵给自身加权,加权后输入的维度不变,后续再送入全连接层和分类器模块进行分类。
在求和得到Attention Score之后,可以利用Transformer的计算方法计算最终的输出,具体表现为第二层到第L层的TAABlock则以第L层的输出和输入地和作为第L+1层的输入。具体表现为将时间相关性矩阵和异常相关性矩阵作为时间感知注意力模块的第一层的输入项,即第一层的TAABlock以时间相关性矩阵和异常相关性矩阵(即图3所示的Exception Embedding的输出)作为输入,此时可以将时间相关性矩阵和异常相关矩阵进行求和后,再将其进行求和后得到的矩阵,作为第一层的输入项与权重矩阵相乘,得到第一层的输出项,那么可以从第二层开始,可以按照前一层的输入项和前一层的输出项的和作为下一层的输入项,并与权重矩阵相乘得到下一层的输出项,直至按照前一层的输入项和前一层的输出项的和与权重矩阵相乘,得到顶层的输出项为止。示例性地,对于第二层而言,其按照前一层的输入项与前一层的输出项的和,其中,前一层的输入项可以表现为第一层将时间相关性矩阵和异常相关矩阵进行求和后得到的矩阵,前一层的输出项可以表现为在将时间相关性矩阵和异常相关矩阵进行求和后得到的矩阵再与权重矩阵相乘得到的矩阵,对于后续层的计算可以参照第二层递推得到,本申请实施例对此不加以限制。
在本申请的一种实施例中,故障预测模型中所具有的顶层的时间感知注意力模块,即最后一层的时间感知注意力模块所输出的输出项表现为矩阵形式,而矩阵形式相当于特殊的向量,即其可以转化为特征向量进行标识,此时可以将输出项中各个行向量的特征向量组成输出序列,此时可以将获取输出序列中位于首个位置目标特征向量,即起始符对应的特征向量,将所获取的目标特征向量输入至分类器进行分类,输出分类结果,然后可以根据分类结果和针对输出序列的标注结果,确定用于训练故障预测模型的交叉熵损失,以便通过梯度下降算法反传交叉熵损失的梯度,更新故障预测模型的参数,生成故障预测模型。
在实际应用中,可以最后一层TAABlock的输出序列的起始符对应的特征向量(class token)作为这个序列的代表,送入如图3所示的分类器(Classifier)进行分类,其中起始符不对应任何异常,但在计算相关性矩阵时计算每个异常与起始符的相关关系并以此为基础对起始符的向量进行了加权,那么起始符可以看作独立在各个异常之外的,但又可以代表所有异常的组合的一个符号,因此采用此起始符所对应的特征向量用于分类。
故障预测是一个二分类任务,例如起始符的特征送入分类器,会得到一个输出,每个样本的标签是0或者1,分为宕机结果和不宕机结果,此时可以用标签和输出做交叉熵运算。具体地,在进行训练时可以采用的损失函数为交叉熵损失,此时可以利用梯度下降算法反传损失的梯度以更新模型的参数,模型梯度下降更新的参数从前往后包括embedding层初始化矩阵的值、异常和时间戳分别经过的Attention机制的参数、全连接层的参数,以及分类器的参数等。在进行测试时,模型的输出为模型预测为正样本的置信度,此时可以设置一个预设阈值,当置信度大于预设阈值的样本被认为是正样本,即对应的NC即将要宕机。
示例性地,在以一段时间内的离线测试数据进行模型训练时,预设阈值的设定参考的是降采样后正负样本的比例大约为1:10,此时可以采用0.9作为预设阈值,且经验证这个预设阈值能保证模型的精准。
在本申请实施例中,基于系统日志报出的不同模式,在模型基于统计特征的机器学习故障预测算法的基础上充分利用日志报出的时序信息,通过融合提取的语义和时间信息,以及引入日志报出的时间间隔等时序信息,提高对云计算系统故障的预测结果的准确性。具体将基于日志序列的故障预测问题转化为自然语言处理问题,基于时间感知注意力机制Transformer算法,并利用BERT提取日志序列中语义和时序信息,同时改进BERT中的注意力机制,使其融合语义和时间这两部分的信息,对日志模式进行更充分的挖掘,能够提取更复杂的、更具代表性的特征表达,能够准确预测机器是否即将发生故障,最终训练得到一个更精准的预测模型,提升预测模型的性能。进一步地,对日志文本抽象化处理,构建相应的异常事件库对日志进行编码,其基于单独的异常事件库进行构建以免去BERT模型对日志文本编码的预训练的复杂过程,降低模型的计算复杂度,使得训练得到的模型体量更小,训练测试速度更快以及效率更高。
参照图4,示出了本申请实施例提供的基于时间感知的系统故障预测的应用场景示意图,基于时间感知的系统故障预测可以应用在云计算系统,涉及云计算平台410和云计算服务器集群411。
在实际应用中,云计算平台410可以将从云计算服务器集群411采集的离线数据集,按照对异常日志进行异常事件的映射、将异常事件转化为数值标识、构建异常事件库、组成异常标识序列以及按照预设时间间隔和预设采样窗口长度进行重采样生成异常序列,以及根据异常序列生成异常时间戳序列的步骤,对离线数据集所包含的异常日志进行预处理,以作为训练集训练模型并保存;然后可以按照如图3所示的故障预测模型的训练框架示意图进行故障预测模型的训练/生成,使得所生成的故障预测模型能够具有执行时间感知注意力机制的Transformer算法的能力。
在进行故障预测时,可以表现为云计算平台410获取实时采集的实时系统数据,其所采集的实时系统数据可以通过在实时链路上对每台NC按照预设时间间隔,例如5分钟进行采样得到,然后基于所获取的故障预测模型执行时间感知注意力机制的Transformer算法,预测系统是否会发生故障,并基于预测结果决定是否提前对宕机故障进行运维以实现用户对宕机的无感化,从而优化用户的体验。
具体地,NC宕机故障是影响云计算系统稳定性的重要因素之一,不可预料的突然宕机将会给用户造成严重损失,为了维护云计算系统的稳定性,此时可以通过故障预测模型基于所输入的实时系统数据推断当前的NC是否会在接下来的一段时间内发生宕机,输出故障预测结果。其中,所输出的故障预测结果包括宕机结果和不宕机结果,宕机结果指的是判定这台NC未来一段时间内有宕机风险,此时可以提前对宕机故障进行运维以实现用户对宕机的无感化,不宕机结果指的是这台NC未来一段时间内不存在宕机风险,此时暂时不进行任何操作。
在本申请实施例中,本申请实施例所提出的TAAT算法,能够充分利用异常序列中的语义和异常时间信息,以提取更有代表性的特征表达,从而使训练得到的分类器的性能更好,故障预测的精准率和召回率更高,使云计算系统能更快更多更准地找出即将宕机的NC进行运维,从而减少宕机率或者降低宕机对用户带来的损失,大大增加云计算系统的稳定性和可靠性。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
参照图5,示出了本申请的一种基于时间感知的系统故障预测装置实施例的结构框图,应用于云计算系统,具体可以包括如下模块:
实时系统数据获取模块501,用于获取实时采集的实时系统数据;
故障预测模型获取模块502,用于获取故障预测模型;所述故障预测模型基于时间相关性矩阵和异常相关性矩阵进行结合生成,其中,所述时间相关性矩阵用于提取系统异常的异常发生时间信息,所述异常相关性矩阵用于提取所发生的系统异常的语义信息;
故障预测模块503,用于根据所述实时系统数据和所述故障预测模型,得到针对所述云计算系统的故障预测结果。
在本申请的一种实施例中,故障预测模块503可以包括如下子模块:
故障预测结果生成子模块,用于将所述实时系统数据作为输入项输入至所述故障预测模型,输出针对所述云计算系统的故障预测结果;所述故障预测结果包括宕机结果和不宕机结果。
在本申请的一种实施例中,所述装置还可以包括如下模块:
故障预测模型生成模块,用于基于时间相关性矩阵和异常相关性矩阵进行结合,生成故障预测模型。
在本申请的一种实施例中,故障预测模型生成模块可以包括如下子模块:
异常序列获取子模块,用于云计算系统中各个故障宕机单元针对系统异常报出的异常日志,根据所述异常日志获取异常序列和异常时间戳序列;所述异常序列用于表示所述云计算系统发生系统宕机与除了系统宕机以外的其他系统异常的相关性,所述异常时间戳序列用于表示所述云计算系统发生系统宕机与除了系统宕机以外的其他系统异常的时间相关性;
相关性矩阵生成子模块,用于根据所述异常序列映射生成异常相关性矩阵,并根据所述针对异常的时间戳序列映射生成时间相关性矩阵;
故障预测模型生成子模块,用于基于所述时间相关性矩阵和所述异常相关性矩阵的结合,得到故障预测模型。
在本申请的一种实施例中,异常序列获取子模块可以包括如下单元:
异常事件映射单元,用于获取各个故障宕机单元报出所述异常日志的报出顺序,以及将所报出的异常日志映射得到异常事件,其中各个异常事件在异常事件库中具有各自对应的数值标识;
序列组成单元,用于将所映射得到的异常事件所对应的数值标识,按照所述报出顺序的倒序顺序进行排序组成异常标识序列;
异常序列生成单元,用于对所述异常标识序列按照预设时间间隔和预设采样窗口长度进行采样得到异常序列,并基于所述异常序列中各个数值标识所对应的系统异常的异常发生时间生成异常时间戳序列。
在本申请的一种实施例中,所述异常标识序列包含宕机样本和非宕机样本,其中所述宕机样本为所述云计算系统发生的系统宕机所对应的数值标识样本,所述非宕机样本为所述云计算系统发生的除了系统宕机以外的其他系统异常所对应的数值标识样本;异常序列生成单元可以包括如下子单元:
采样位置确定子单元,用于按照所述预设时间间隔在所述异常标识序列上确定若干个采样位置;
采样起始位置确定子单元,用于从所述若干个采样位置中获取与所述宕机样本对应的目标采样位置,并将所述目标采样位置作为采样起始位置;
异常序列生成子单元,用于保留以所述采样起始位置开始在预设采样窗口长度内的宕机样本,以及以所述采样起始位置开始按照预设比例随机保留所述异常标识序列上的非宕机样本,得到针对系统宕机的异常序列。
在本申请的一种实施例中,所述异常标识序列包含宕机样本和非宕机样本,其中所述宕机样本为所述云计算系统发生的系统宕机所对应的数值标识样本,所述非宕机样本为所述云计算系统发生的除了系统宕机以外的其他系统异常所对应的数值标识样本;
异常序列生成单元可以包括如下子单元:
采样时间获取子单元,用于获取所述异常序列中各个数值标识样本所对应的系统异常的异常发生时间,并获取对所述异常序列的各个数值标识样本进行采样的采样时间;
时间差值计算子单元,用于计算所述异常序列中各个数值标识样本的异常发生时间,和对所述异常序列的各个数值标识样本进行采样的采样时间的时间差值;所述时间差值存在不同时间单位的数值标识;
编码向量生成子单元,用于将所述时间差值中不同时间单位的数值标识进行分层编码,得到编码向量;
时间编码生成子单元,用于对所述编码向量进行求和,得到时间编码;所述时间编码包括针对各个时间差值的时间编码;
时间戳序列生成子单元,用于将所述针对各个时间差值的时间编码组合生成异常时间戳序列。
在本申请的一种实施例中,相关性矩阵生成子模块可以包括如下单元:
位置编码确定单元,用于获取在所述异常序列中所包含的各个数值标识样本的位置顺序,并按照所述位置顺序确定各个数值标识样本的位置编码;
向量映射单元,用于将所述异常序列中所包含的各个数值标识样本和所述各个数值标识样本对应的位置编码分别映射得到第一向量和第二向量;
异常相关性矩阵生成单元,用于将所述第一向量和所述第二向量进行相加,得到异常相关性矩阵。
在本申请的一种实施例中,所述时间戳序列包括多个时间编码,相关性矩阵生成子模块可以包括如下单元:
时间相关性矩阵生成单元,用于计算各个时间编码之间的相关关系,基于所述各个时间编码之间的相关关系组成时间相关性矩阵;其中,所述各个时间编码之间的相关关系基于各个时间编码中任一时间编码的转置矩阵和另一时间编码的乘积后的值,与预设相关阈值的大小关系确定。
在本申请的一种实施例中,所述故障预测模型具有分类器模块,所述分类器模块用于指示所述故障预测模块判定所述云计算系统的故障预测结果;故障预测模型生成子模块可以包括如下单元:
矩阵结合单元,用于将所述时间相关性矩阵和所述异常相关性矩阵进行结合,得到输出序列;
故障预测模型生成单元,用于获取所述分类器模块的参数,根据所述输出序列和所述分类器模块的参数,生成故障预测模型。
在本申请的一种实施例中,所述故障预测模型具有多层时间感知注意力模块,所述时间感知注意力模块用于指示所述故障预测模型基于时间感知进行系统故障检测;矩阵结合单元可以包括如下子单元:
权重矩阵生成子单元,用于将所述时间相关性矩阵和所述异常相关性矩阵进行求和,得到权重矩阵;
输出项获取子单元,用于将所述时间相关性矩阵和所述异常相关性矩阵作为所述时间感知注意力模块的第一层的输入项,与所述权重矩阵相乘,得到第一层的输出项;
迭代计算子单元,用于从所述时间感知注意力模块的第二层开始,按照前一层的输入项和前一层的输出项的和作为下一层的输入项,并与所述权重矩阵相乘得到下一层的输出项,直至按照前一层的输入项和前一层的输出项的和与权重矩阵相乘,得到顶层的输出项为止;
输出序列组成子单元,用于将顶层的输出项的特征向量组成输出序列。
在本申请的一种实施例中,故障预测模型生成单元可以包括如下子单元:
分类结果输出子单元,用于获取所述输出序列中位于首个位置的目标特征向量,将所获取的目标特征向量输入至所述分类器模块进行分类,输出分类结果;
交叉熵损失确定子单元,用于根据所述分类结果和针对所述输出序列的标注结果,确定用于训练所述故障预测模型的交叉熵损失;
故障预测模型生成子单元,用于通过梯度下降算法反传所述交叉熵损失的梯度,更新所述故障预测模型的参数,生成故障预测模型。
本申请实施例提出的基于时间感知的系统故障预测装置,通过计算异常相关性矩阵和时间相关性矩阵并结合构建生成故障预测模型,其基于异常相关性矩阵提取所发生的异常事件的语义信息,以及基于时间相关性矩阵提取异常发生的时间信息,将所提取的语义信息和时间信息进行融合,采用所引入的时间信息对日志模式进行更充分的挖掘,提高对实时采集的实时系统数据进行系统故障预测的预测结果的准确性。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例还提供了一种电子设备,包括:
包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述基于时间感知的系统故障预测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述基于时间感知的系统故障预测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性地包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种基于时间感知的系统故障预测方法、一种基于时间感知的系统故障预测装置、相应的一种电子设备以及相应的一种计算机可读存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (14)

1.一种基于时间感知的系统故障预测方法,其特征在于,应用于云计算系统,所述方法包括:
获取故障预测模型和实时采集的实时系统数据;所述故障预测模型基于时间相关性矩阵和异常相关性矩阵进行结合生成,其中,所述时间相关性矩阵用于提取系统异常的异常发生时间信息,所述异常相关性矩阵用于提取所发生的系统异常的语义信息;
根据所述实时系统数据和所述故障预测模型,得到针对所述云计算系统的故障预测结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述实时系统数据和所述故障预测模型,得到针对所述云计算系统的故障预测结果,包括:
将所述实时系统数据作为输入项输入至所述故障预测模型,输出针对所述云计算系统的故障预测结果;所述故障预测结果包括宕机结果和不宕机结果。
3.根据权利要求1所述的方法,其特征在于,所述故障预测模型通过如下方式生成:
获取云计算系统中各个故障宕机单元针对系统异常报出的异常日志,根据所述异常日志获取异常序列和异常时间戳序列;所述异常序列用于表示所述云计算系统发生系统宕机与除了系统宕机以外的其他系统异常的相关性,所述异常时间戳序列用于表示所述云计算系统发生系统宕机与除了系统宕机以外的其他系统异常的时间相关性;
根据所述异常序列映射生成异常相关性矩阵,并根据所述异常时间戳序列映射生成时间相关性矩阵;
基于所述时间相关性矩阵和所述异常相关性矩阵的结合,得到故障预测模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述异常日志获取异常序列和异常时间戳序列,包括:
获取各个故障宕机单元报出所述异常日志的报出顺序,以及将所报出的异常日志映射得到异常事件,其中各个异常事件在异常事件库中具有各自对应的数值标识;
将所映射得到的异常事件所对应的数值标识,按照所述报出顺序的倒序顺序进行排序组成异常标识序列;
对所述异常标识序列按照预设时间间隔和预设采样窗口长度进行采样得到异常序列,并基于所述异常序列中各个数值标识所对应的系统异常的异常发生时间生成异常时间戳序列。
5.根据权利要求4所述的方法,其特征在于,所述异常标识序列包含宕机样本和非宕机样本,其中所述宕机样本为所述云计算系统发生的系统宕机所对应的数值标识样本,所述非宕机样本为所述云计算系统发生的除了系统宕机以外的其他系统异常所对应的数值标识样本;
所述对所述异常标识序列按照预设时间间隔和预设采样窗口长度进行采样,得到异常序列,包括:
按照所述预设时间间隔在所述异常标识序列上确定若干个采样位置;
从所述若干个采样位置中获取与所述宕机样本对应的目标采样位置,并将所述目标采样位置作为采样起始位置;
保留以所述采样起始位置开始在预设采样窗口长度内的宕机样本,以及以所述采样起始位置开始按照预设比例随机保留所述异常标识序列上的非宕机样本,得到针对系统宕机的异常序列。
6.根据权利要求4或5所述的方法,其特征在于,所述异常标识序列包含宕机样本和非宕机样本,其中所述宕机样本为所述云计算系统发生的系统宕机所对应的数值标识样本,所述非宕机样本为所述云计算系统发生的除了系统宕机以外的其他系统异常所对应的数值标识样本;
所述基于所述异常序列中各个数值标识所对应的系统异常的异常发生时间生成异常时间戳序列,包括:
获取所述异常序列中各个数值标识样本所对应的系统异常的异常发生时间,并获取对所述异常序列的各个数值标识样本进行采样的采样时间;
计算所述异常序列中各个数值标识样本的异常发生时间,和对所述异常序列的各个数值标识样本进行采样的采样时间的时间差值;所述时间差值存在不同时间单位的数值标识;
将所述时间差值中不同时间单位的数值标识进行分层编码,得到编码向量;
对所述编码向量进行求和,得到时间编码;所述时间编码包括针对各个时间差值的时间编码;
将所述针对各个时间差值的时间编码组合生成异常时间戳序列。
7.根据权利要求3所述的方法,其特征在于,所述根据所述异常序列映射生成异常相关性矩阵,包括:
获取在所述异常序列中所包含的各个数值标识样本的位置顺序,并按照所述位置顺序确定各个数值标识样本的位置编码;
将所述异常序列中所包含的各个数值标识样本和所述各个数值标识样本对应的位置编码分别映射得到第一向量和第二向量;
将所述第一向量和所述第二向量进行相加,得到异常相关性矩阵。
8.根据权利要求3所述的方法,其特征在于,所述时间戳序列包括多个时间编码,所述根据所述异常时间戳序列映射生成时间相关性矩阵,包括:
计算各个时间编码之间的相关关系,基于所述各个时间编码之间的相关关系组成时间相关性矩阵;其中,所述各个时间编码之间的相关关系基于各个时间编码中任一时间编码的转置矩阵和另一时间编码的乘积后的值,与预设相关阈值的大小关系确定。
9.根据权利要求3所述的方法,其特征在于,所述故障预测模型具有分类器模块,所述分类器模块用于指示所述故障预测模块判定所述云计算系统的故障预测结果;所述基于所述时间相关性矩阵和所述异常相关性矩阵的结合,得到故障预测模型,包括:
将所述时间相关性矩阵和所述异常相关性矩阵进行结合,得到输出序列;
获取所述分类器模块的参数,根据所述输出序列和所述分类器模块的参数,生成故障预测模型。
10.根据权利要求9所述的方法,其特征在于,所述故障预测模型具有多层时间感知注意力模块,所述时间感知注意力模块用于指示所述故障预测模型基于时间感知进行系统故障检测;所述将所述时间相关性矩阵和所述异常相关性矩阵进行结合,得到输出序列,包括:
将所述时间相关性矩阵和所述异常相关性矩阵进行求和,得到权重矩阵;
将所述时间相关性矩阵和所述异常相关性矩阵作为所述时间感知注意力模块的第一层的输入项,与所述权重矩阵相乘,得到第一层的输出项;
从所述时间感知注意力模块的第二层开始,按照前一层的输入项和前一层的输出项的和作为下一层的输入项,并与所述权重矩阵相乘得到下一层的输出项,直至按照前一层的输入项和前一层的输出项的和与权重矩阵相乘,得到顶层的输出项为止;
将顶层的输出项的特征向量组成输出序列。
11.根据权利要求9所述的方法,其特征在于,所述根据所述输出序列和所述分类器模块的参数,生成故障预测模型,包括:
获取所述输出序列中位于首个位置的目标特征向量,将所获取的目标特征向量输入至所述分类器模块进行分类,输出分类结果;
根据所述分类结果和针对所述输出序列的标注结果,确定用于训练所述故障预测模型的交叉熵损失;
通过梯度下降算法反传所述交叉熵损失的梯度,更新所述故障预测模型的参数,生成故障预测模型。
12.一种基于时间感知的系统故障预测装置,其特征在于,应用于云计算系统,所述装置包括:
实时系统数据获取模块,用于获取实时采集的实时系统数据;
故障预测模型获取模块,用于获取故障预测模型;所述故障预测模型基于时间相关性矩阵和异常相关性矩阵进行结合生成,其中,所述时间相关性矩阵用于提取系统异常的异常发生时间信息,所述异常相关性矩阵用于提取所发生的系统异常的语义信息;
故障预测模块,用于根据所述实时系统数据和所述故障预测模型,得到针对所述云计算系统的故障预测结果。
13.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-11中任一项所述基于时间感知的系统故障预测方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至11中任一项所述基于时间感知的系统故障预测方法。
CN202211225819.9A 2022-10-09 2022-10-09 基于时间感知的系统故障预测方法、装置、设备及介质 Pending CN115617554A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211225819.9A CN115617554A (zh) 2022-10-09 2022-10-09 基于时间感知的系统故障预测方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211225819.9A CN115617554A (zh) 2022-10-09 2022-10-09 基于时间感知的系统故障预测方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN115617554A true CN115617554A (zh) 2023-01-17

Family

ID=84860107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211225819.9A Pending CN115617554A (zh) 2022-10-09 2022-10-09 基于时间感知的系统故障预测方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN115617554A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116149896A (zh) * 2023-03-27 2023-05-23 阿里巴巴(中国)有限公司 时序数据异常检测方法、存储介质和电子设备
CN116402219A (zh) * 2023-03-29 2023-07-07 中科航迈数控软件(深圳)有限公司 一种基于预测模型的全生命周期运维策略方法及装置
CN117033912A (zh) * 2023-10-07 2023-11-10 成都态坦测试科技有限公司 一种设备故障预测方法、装置、可读存储介质及电子设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116149896A (zh) * 2023-03-27 2023-05-23 阿里巴巴(中国)有限公司 时序数据异常检测方法、存储介质和电子设备
CN116149896B (zh) * 2023-03-27 2023-07-21 阿里巴巴(中国)有限公司 时序数据异常检测方法、存储介质和电子设备
CN116402219A (zh) * 2023-03-29 2023-07-07 中科航迈数控软件(深圳)有限公司 一种基于预测模型的全生命周期运维策略方法及装置
CN117033912A (zh) * 2023-10-07 2023-11-10 成都态坦测试科技有限公司 一种设备故障预测方法、装置、可读存储介质及电子设备
CN117033912B (zh) * 2023-10-07 2024-02-13 成都态坦测试科技有限公司 一种设备故障预测方法、装置、可读存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN115617554A (zh) 基于时间感知的系统故障预测方法、装置、设备及介质
CN113094200B (zh) 一种应用程序的故障预测方法和装置
CN111914873A (zh) 一种两阶段云服务器无监督异常预测方法
CN111539493B (zh) 一种告警预测方法、装置、电子设备及存储介质
CN111079430A (zh) 一种组合深度学习和概念图谱的电力故障事件抽取方法
CN115599579A (zh) 基于加权损失的系统故障预测方法、装置、设备及介质
CN113343581B (zh) 基于图马尔可夫神经网络的变压器故障的诊断方法
US20230133541A1 (en) Alert correlating using sequence model with topology reinforcement systems and methods
CN105471647A (zh) 一种电力通信网故障定位方法
CN115373879A (zh) 一种面向大规模云数据中心智能运维的磁盘故障预测方法
Asraful Haque et al. A logistic growth model for software reliability estimation considering uncertain factors
CN115905959A (zh) 基于缺陷因子的电力断路器关联性故障分析方法及装置
CN114416479A (zh) 一种基于流外正则化的日志序列异常检测方法
An et al. Real-time Statistical Log Anomaly Detection with Continuous AIOps Learning.
CN114610613A (zh) 一种面向在线实时的微服务调用链异常检测方法
CN113899987A (zh) 基于深度金字塔卷积神经网络的电网故障诊断方法
Fu et al. MLog: Mogrifier LSTM-based Log Anomaly Detection Approach Using Semantic Representation
CN116611813B (zh) 一种基于知识图谱的智能运维管理方法及系统
CN116225848A (zh) 日志监测方法、装置、设备和介质
CN113076217B (zh) 基于国产平台的磁盘故障预测方法
Tao et al. Biglog: Unsupervised large-scale pre-training for a unified log representation
Govindasamy et al. Data reduction for bug triage using effective prediction of reduction order techniques
CN115221942A (zh) 一种基于时序融合和神经网络的设备缺陷预测方法及系统
CN113821418A (zh) 故障跟因分析方法及装置、存储介质和电子设备
Harper et al. The application of neural networks to predicting the root cause of service failures

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination