CN112631888A - 分布式系统的故障预测方法、装置、存储介质及电子设备 - Google Patents

分布式系统的故障预测方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN112631888A
CN112631888A CN202011613893.9A CN202011613893A CN112631888A CN 112631888 A CN112631888 A CN 112631888A CN 202011613893 A CN202011613893 A CN 202011613893A CN 112631888 A CN112631888 A CN 112631888A
Authority
CN
China
Prior art keywords
log data
data set
fault prediction
long
term memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011613893.9A
Other languages
English (en)
Inventor
赵菁淳
梁宵
耿方
李孝猛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisino Corp
Original Assignee
Aisino Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisino Corp filed Critical Aisino Corp
Priority to CN202011613893.9A priority Critical patent/CN112631888A/zh
Publication of CN112631888A publication Critical patent/CN112631888A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开涉及一种分布式系统的故障预测方法、装置、存储介质及电子设备,所述方法包括:获取预设时间段内的日志数据,其中,所述预设时间段为若干时间步长相同的时间区间组成的时间序列;对所述日志数据进行预处理;将预处理后的日志数据,输入至基于注意力机制和长短期记忆网络训练好的目标故障预测模型,得到下一时间区间的故障预测结果,通过在传统的长短期记忆网络的加入注意力机制,以此来甄选出对故障信息贡献度更大的日志信息,提高了故障预测的准确度,同时减少了数据的计算量,降低了基于日志数据预测故障的难度和提升了预测故障的效率。

Description

分布式系统的故障预测方法、装置、存储介质及电子设备
技术领域
本公开涉及电子信息技术领域,具体地,涉及一种分布式系统的故障预测方法、装置、存储介质及电子设备。
背景技术
LSTM(Long Short-Term Memory,长短期记忆网络)是一种时间递归神经网络,适合用于处理和预测时间序列中间隔和延迟相对较长的重要事件。因此,LSTM可以应用于基于日志数据的故障预测。
相关技术中,由于分布式日志系统中的日志信息量非常大,利用传统的LSTM提取特征的方法变得非常复杂,以致于大大增加了计算量和复杂度,导致基于日志数据预测故障的难度变高和预测故障的效率变低。
发明内容
本公开的目的是提供一种分布式系统的故障预测方法、装置、存储介质及电子设备,解决了相关技术中基于日志数据预测故障的难度高和预测故障的效率低的问题。
为了实现上述目的,第一方面,本公开提供一种分布式系统的故障预测方法,所述方法包括:
获取预设时间段内的日志数据,其中,所述预设时间段为若干时间步长相同的时间区间组成的时间序列;
对所述日志数据进行预处理;
将预处理后的日志数据,输入至基于注意力机制和长短期记忆网络训练好的目标故障预测模型,得到下一时间区间的故障预测结果。
可选地,通过如下方式得到所述目标故障预测模型:
获取历史日志数据集,其中,所述历史日志数据集中包括多个被标记了故障标签结果且位于预设时长内的历史日志数据;
对所述历史日志数据集进行预处理;
将经过预处理后的历史日志数据集划分为训练数据集和测试数据集;
根据所述训练数据集,对构建的基于注意力机制的长短期记忆网络模型进行训练,得到初始故障预测模型;
将所述测试数据集,输入至所述初始故障预测模型,得到多个验证结果;
在所述多个验证结果中至少存在预设数量的验证结果都正确的情况下,输出目标故障预测模型。
可选地,所述方法还包括:
在所述多个验证结果中不存在所述预设数量的验证结果都正确的情况下,将预处理后的历史日志数据重新划分为新的训练数据集和新的测试数据集;并
根据新的训练数据集进行训练和根据新的测试数据集进行验证,直至得到的验证结果中至少存在所述预设数量的验证结果都正确。
可选地,构建的基于注意力机制的长短期记忆网络模型包括注意力单元和长短期记忆网络单元;相应地,所述根据所述训练数据集,对构建的基于注意力机制的长短期记忆网络模型进行训练,得到初始故障预测模型,包括:
按照以下步骤进行迭代处理,直至达到预设结束条件:
针对所述训练数据集中包括的每个被标记了故障标签结果且位于预设时长内的历史日志数据,将所述注意力单元从该历史日志数据中提取的历史有效日志数据输入至所述长短期记忆网络单元;
控制所述长短期记忆网络单元根据所述历史有效日志数据计算出样本故障预测结果,并基于该样本故障预测结果构建损失函数;
根据当前的损失函数对当前的注意力单元和长短期记忆网络单元进行反向传播,以更新当前的基于注意力机制的长短期记忆网络模型的模型参数;
迭代结束后,将当前的注意力单元和长短期记忆网络单元确定为初始故障预测模型。
可选地,所述预设结束条件迭代次数达到预设次数阈值;和/或
本次构建得到的损失函数表征的差异值小于预设误差阈值。
可选地,所述损失函数包括:
Figure BDA0002875829830000031
其中,loss为差异值,
Figure BDA0002875829830000032
为所述训练数据集中的第i个样本故障预测结果,Yi所述训练数据集中的第i个历史日志数据的故障标签结果,n为所述训练数据集中的样本总数。
可选地,所述预处理包括归一化处理。
第二方面,本公开提供一种分布式系统的故障预测装置,所述装置包括:
第一获取模块,用于获取预设时间段内的日志数据,其中,所述预设时间段为若干时间步长相同的时间区间组成的时间序列;
第一预处理模块,用于对所述日志数据进行预处理;
预测模块,用于将预处理后的日志数据,输入至基于注意力机制和长短期记忆网络训练好的目标故障预测模型,得到下一时间区间的故障预测结果。
第三方面,本公开提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面中任一项所述方法的步骤。
第四方面,本公开提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现实现上述第一方面中任一项所述方法的步骤。
通过上述技术方案,获取预设时间段内的日志数据,其中,所述预设时间段为若干时间步长相同的时间区间组成的时间序列;对所述日志数据进行预处理;将预处理后的日志数据,输入至基于注意力机制和长短期记忆网络训练好的目标故障预测模型,得到下一时间区间的故障预测结果,通过在传统的长短期记忆网络的加入注意力机制,以此来甄选出对故障信息贡献度更大的日志信息,提高了故障预测的准确度,同时减少了数据的计算量,降低了基于日志数据预测故障的难度和提升了预测故障的效率。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种分布式系统的故障预测方法的流程图。
图2是根据一示例性实施例示出的一种目标故障预测模型的训练流程图。
图3是根据一示例性实施例示出的一种分布式系统的故障预测装置的框图。
图4是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
首先对本公开的应用场景进行说明。本公开应用于集成有分布式系统的电子设备。对于分布式系统来说,分布式日志系统中的日志信息量非常大,日志数据主要指系统日志数据,系统日志是记录系统中硬件、软件和系统问题的信息,同时还可以监视系统中发生的事件。用户可以通过日志数据来检查错误发生的原因,或者寻找受到攻击时攻击者留下的痕迹。其中,系统日志可细分包括系统日志、应用程序日志和安全日志。由于神经网络(例如,LSTM)的不断发展,基于日志的故障预测也逐渐与神经网络开始结合。但是,可以理解的是,在日志数据庞大的基础上,传统的LSTM提取特征的方法变得非常复杂,故障预测的难度和效率都将受到不同程度的影响。
有鉴于此,本公开提供一种分布式系统的故障预测方法、装置、存储介质及电子设备,通过在传统的长短期记忆网络的加入注意力机制,以此来甄选出对故障信息贡献度更大的日志信息,提高了故障预测的准确度,同时减少了数据的计算量,降低了基于日志数据预测故障的难度和提升了预测故障的效率。
以下结合附图对本公开进行进一步说明。
图1是根据一示例性实施例示出的一种分布式系统的故障预测方法的流程图。所述方法例如可以应用于服务器、终端等电子设备,如图1所示,所述方法包括以下步骤:
S101,获取预设时间段内的日志数据,其中,预设时间段为若干时间步长相同的时间区间组成的时间序列。
在本公开中,电子设备的可以自动化对分布式系统产生的日志数据进行采集,并进行记录。示例地,以预设时间段为一周为例,1天为时间步长,则预设时间段包括7个为1天时间步长组成的时间序列。相对应地,日志数据则包括一周的日志数据。
S102,对日志数据进行预处理。
在本公开中,对日志数据进行预处理可以过滤“不合规”数据,清洗无意义的数据;也可以对日志数据进行格式统一和数量级的规整。
需要说明的是,预处理的实施过程可以参照相关技术中对日志数据进行预处理的实施过程,本实施例对此不作赘述。
S103,将预处理后的日志数据,输入至基于注意力机制和长短期记忆网络训练好的目标故障预测模型,得到下一时间区间的故障预测结果。
在本公开中,基于历史的日志数据,对下一时间区间是否发生故障进行预测。以上述日志数据包括周一、周二和周三的日志数据,且1天为一个时间区间,则可以基于周一、周二和周三的日志数据,预测周四的故障预测结果。
采用上述技术方案,通过在传统的长短期记忆网络的加入注意力机制,以此来甄选出对故障信息贡献度更大的日志信息,提高了故障预测的准确度,同时减少了数据的计算量,降低了基于日志数据预测故障的难度和提升了预测故障的效率。
图2是根据一示例性实施例示出的一种目标故障预测模型的训练流程图。如图2所示,所述目标故障预测模型的训练过程包括如下步骤:
S201,获取历史日志数据集,其中,历史日志数据集中包括多个被标记了故障标签结果且位于预设时长内的历史日志数据。
在本公开中,示例地,历史日志数据集={[第一周的历史日志数据,第二周的故障标签结果],[第二周的历史日志数据,第三周的故障标签结果],……,[第N周的历史日志数据,第N+1周的故障标签结果]},其中,N为大于1的自然整数,一周则为预设时长。
其中,故障标签结果可以是发生故障的具体概率;也可以是发送故障或不发生故障。
S202,对历史日志数据集进行预处理。
在本公开中,与图1所示的S102的中的预处理相似,对日志数据进行预处理可以过滤“不合规”数据,清洗无意义的数据;也可以对日志数据进行格式统一和数量级的规整。
S203,将经过预处理后的历史日志数据集划分为训练数据集和测试数据集。
在本公开中,在一种实施方式中,对历史日志数据集可以划分为两个互斥的集合,即训练数据集和测试数据集的并集等于历史日志数据集,且训练数据集和测试数据集的交集为空。
在一种实施方式中,还可以历史日志数据集进行随机划分,一般地,训练数据集中的元素数量大于测试数据集中的元素数量。
S204,根据训练数据集,对构建的基于注意力机制的长短期记忆网络模型进行训练,得到初始故障预测模型。
S205,将测试数据集,输入至初始故障预测模型,得到多个验证结果。
在本公开中,验证结果即是初始故障预测模型根据测试数据集中各个历史日志数据得到的故障预测结果。验证结果可以反映初始故障预测模型的准确率。
S206,在多个验证结果中至少存在预设数量的验证结果都正确的情况下,输出目标故障预测模型。
需要说明的是,验证结果正确是指该验证结果与其对应的历史日志数据中标记的故障标签结果相同。
在本实施例中,预设数量可以根据实际需求进行设定。示例地,可以设置预设数量为测试数据集中包括的所有元素中的百分之90的数量为预设数量。
例如,测试数据集中包括的所有元素的数量为10000,90%的数量则是9000,则表明在10000个验证结果中至少存在9000个的验证结果都正确的情况下,则可以输出目标故障预测模型。
S207,在多个验证结果中不存在所述预设数量的验证结果都正确的情况下,将预处理后的历史日志数据重新划分为新的训练数据集和新的测试数据集;并根据新的训练数据集进行训练和根据新的测试数据集进行验证。
可以理解的是,在多个验证结果中不存在所述预设数量的验证结果都正确的情况下,需要继续对基于注意力机制的长短期记忆网络模型进行训练。重新划分新的训练数据集和新的测试数据集,对上一次基于划分得到的训练数据集训练得到的模型进一步进行训练。并基于该次训练得到的模型进行验证。
采用上述技术方案,可以持续对基于注意力机制的长短期记忆网络模型进行训练,直到基于测试数据集得到存在预设数量的验证结果都正确的目标故障预测模型。
在一种实施方式中,图2所示的步骤S204可以按照以下步骤进行迭代处理,直至达到预设结束条件:
首先,针对训练数据集中包括的每个被标记了故障标签结果且位于预设时长内的历史日志数据,将注意力单元从该历史日志数据中提取的历史有效日志数据输入至长短期记忆网络单元。
接着,控制长短期记忆网络单元根据历史有效日志数据计算出样本故障预测结果,并基于该样本故障预测结果构建损失函数。
再接着,根据当前的损失函数对当前的注意力单元和长短期记忆网络单元进行反向传播,以更新当前的基于注意力机制的长短期记忆网络模型的模型参数。
然后,判断是否满足预设结束条件,若满足,则将当前的注意力单元和长短期记忆网络单元确定为初始故障预测模型。
采用上述技术方案,在每一次训练时,注意力单元都会选择对当前预测有用的日志数据(历史有效日志数据)输入到长短期记忆网络单元中,以使长短期记忆网络单元根据该历史有效日志数据得到样本故障预测结果,既减少了数据计算量,也提高了预测的准确度。且设置合理的预设结束条件,保证初始故障预测模型的当前性能最佳。
需要说明的是,至于利用当前的神经网络损失函数对当前的神经网络模型进行反向传播的具体过程,本领域技术人员可以参见现有技术中的相关描述,本说明书对此不作详述。
在一些实施方式中,预设结束条件迭代次数达到预设次数阈值;和/或本次构建得到的损失函数表征的差异值小于预设误差阈值。
在一些实施方式中,所述损失函数包括:
Figure BDA0002875829830000091
其中,loss为差异值,表征为预测值(样本故障预测结果)和样本值(故障标签结果)之间的差异,
Figure BDA0002875829830000092
为所述训练数据集中的第i个样本故障预测结果,Yi所述训练数据集中的第i个历史日志数据的故障标签结果,n为所述训练数据集中的样本总数。
在一些实施方式中,所述预处理包括归一化处理。归一化处理后的数据对模型进行训练可以将最优解的寻优过程明显会变得平缓,更容易正确的收敛到最优解,即得到正确的初始故障预测模型。
图3是根据一示例性实施例示出的一种分布式系统的故障预测装置的框图。如图3所示,所述装置300包括:
第一获取模块301,用于获取预设时间段内的日志数据,其中,所述预设时间段为若干时间步长相同的时间区间组成的时间序列;
第一预处理模块302,用于对所述日志数据进行预处理;
预测模块303,用于将预处理后的日志数据,输入至基于注意力机制和长短期记忆网络训练好的目标故障预测模型,得到下一时间区间的故障预测结果。
可选地,所述装置300还包括:
第二获取模块,用于获取历史日志数据集,其中,所述历史日志数据集中包括多个被标记了故障标签结果且位于预设时长内的历史日志数据;
第二预处理模块,用于对所述历史日志数据集进行预处理;
划分模块,用于将经过预处理后的历史日志数据集划分为训练数据集和测试数据集;
训练模块,用于根据所述训练数据集,对构建的基于注意力机制的长短期记忆网络模型进行训练,得到初始故障预测模型;
验证模块,用于将所述测试数据集,输入至所述初始故障预测模型,得到多个验证结果;
输出模块,用于在所述多个验证结果中至少存在预设数量的验证结果都正确的情况下,输出目标故障预测模型。
可选地,所述装置300还包括:
迭代训练模块,用于在所述多个验证结果中不存在所述预设数量的验证结果都正确的情况下,将预处理后的历史日志数据重新划分为新的训练数据集和新的测试数据集;并根据新的训练数据集进行训练和根据新的测试数据集进行验证,直至得到的验证结果中至少存在所述预设数量的验证结果都正确。
可选地,构建的基于注意力机制的长短期记忆网络模型包括注意力单元和长短期记忆网络单元;相应地,训练模块包括:
提取子模块,用于针对所述训练数据集中包括的每个被标记了故障标签结果且位于预设时长内的历史日志数据,将所述注意力单元从该历史日志数据中提取的历史有效日志数据输入至所述长短期记忆网络单元;
构建子模块,用于控制所述长短期记忆网络单元根据所述历史有效日志数据计算出样本故障预测结果,并基于该样本故障预测结果构建损失函数;
更新子模块,用于根据当前的损失函数对当前的注意力单元和长短期记忆网络单元进行反向传播,以更新当前的基于注意力机制的长短期记忆网络模型的模型参数;
确定子模块,用于迭代结束后,将当前的注意力单元和长短期记忆网络单元确定为初始故障预测模型。
可选地,所述预设结束条件迭代次数达到预设次数阈值;和/或
本次构建得到的损失函数表征的差异值小于预设误差阈值。
可选地,所述损失函数包括:
Figure BDA0002875829830000111
其中,loss为差异值,
Figure BDA0002875829830000112
为所述训练数据集中的第i个样本故障预测结果,Yi所述训练数据集中的第i个历史日志数据的故障标签结果,n为所述训练数据集中的样本总数。
可选地,所述预处理包括归一化处理。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现上述分布式系统的故障预测方法的步骤。
图4是根据一示例性实施例示出的一种电子设备的框图。如图4所示,该电子设备400可以包括:处理器401,存储器402。该电子设备400还可以包括多媒体组件403,输入/输出(I/O)接口404,以及通信组件405中的一者或多者。
其中,处理器401用于控制该电子设备400的整体操作,以完成上述的分布式系统的故障预测方法中的全部或部分步骤。
存储器402用于存储各种类型的数据以支持在该电子设备400的操作,这些数据例如可以包括用于在该电子设备400上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器402可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(StaticRandom Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
多媒体组件403可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器402或通过通信组件405发送。音频组件还包括至少一个扬声器,用于输出音频信号。
I/O接口404为处理器401和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。
通信组件405用于该电子设备400与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near Field Communication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件405可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,电子设备400可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的分布式系统的故障预测方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的分布式系统的故障预测方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器402,上述程序指令可由电子设备400的处理器401执行以完成上述的分布式系统的故障预测方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (10)

1.一种分布式系统的故障预测方法,其特征在于,所述方法包括:
获取预设时间段内的日志数据,其中,所述预设时间段为若干时间步长相同的时间区间组成的时间序列;
对所述日志数据进行预处理;
将预处理后的日志数据,输入至基于注意力机制和长短期记忆网络训练好的目标故障预测模型,得到下一时间区间的故障预测结果。
2.根据权利要求1所述的方法,其特征在于,通过如下方式得到所述目标故障预测模型:
获取历史日志数据集,其中,所述历史日志数据集中包括多个被标记了故障标签结果且位于预设时长内的历史日志数据;
对所述历史日志数据集进行预处理;
将经过预处理后的历史日志数据集划分为训练数据集和测试数据集;
根据所述训练数据集,对构建的基于注意力机制的长短期记忆网络模型进行训练,得到初始故障预测模型;
将所述测试数据集,输入至所述初始故障预测模型,得到多个验证结果;
在所述多个验证结果中至少存在预设数量的验证结果都正确的情况下,输出目标故障预测模型。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在所述多个验证结果中不存在所述预设数量的验证结果都正确的情况下,将预处理后的历史日志数据重新划分为新的训练数据集和新的测试数据集;并
根据新的训练数据集进行训练和根据新的测试数据集进行验证,直至得到的验证结果中至少存在所述预设数量的验证结果都正确。
4.根据权利要求2所述的方法,其特征在于,构建的基于注意力机制的长短期记忆网络模型包括注意力单元和长短期记忆网络单元;相应地,所述根据所述训练数据集,对构建的基于注意力机制的长短期记忆网络模型进行训练,得到初始故障预测模型,包括:
按照以下步骤进行迭代处理,直至达到预设结束条件:
针对所述训练数据集中包括的每个被标记了故障标签结果且位于预设时长内的历史日志数据,将所述注意力单元从该历史日志数据中提取的历史有效日志数据输入至所述长短期记忆网络单元;
控制所述长短期记忆网络单元根据所述历史有效日志数据计算出样本故障预测结果,并基于该样本故障预测结果构建损失函数;
根据当前的损失函数对当前的注意力单元和长短期记忆网络单元进行反向传播,以更新当前的基于注意力机制的长短期记忆网络模型的模型参数;
迭代结束后,将当前的注意力单元和长短期记忆网络单元确定为初始故障预测模型。
5.根据权利要求4所述的方法,其特征在于,所述预设结束条件迭代次数达到预设次数阈值;和/或
本次构建得到的损失函数表征的差异值小于预设误差阈值。
6.根据权利要求5所述的方法,其特征在于,所述损失函数包括:
Figure FDA0002875829820000021
其中,loss为差异值,
Figure FDA0002875829820000022
为所述训练数据集中的第i个样本故障预测结果,Yi所述训练数据集中的第i个历史日志数据的故障标签结果,n为所述训练数据集中的样本总数。
7.根据权利要求1所述的方法,其特征在于,所述预处理包括归一化处理。
8.一种分布式系统的故障预测装置,其特征在于,所述装置包括:
第一获取模块,用于获取预设时间段内的日志数据,其中,所述预设时间段为若干时间步长相同的时间区间组成的时间序列;
第一预处理模块,用于对所述日志数据进行预处理;
预测模块,用于将预处理后的日志数据,输入至基于注意力机制和长短期记忆网络训练好的目标故障预测模型,得到下一时间区间的故障预测结果。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-7中任一项所述方法的步骤。
CN202011613893.9A 2020-12-30 2020-12-30 分布式系统的故障预测方法、装置、存储介质及电子设备 Pending CN112631888A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011613893.9A CN112631888A (zh) 2020-12-30 2020-12-30 分布式系统的故障预测方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011613893.9A CN112631888A (zh) 2020-12-30 2020-12-30 分布式系统的故障预测方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN112631888A true CN112631888A (zh) 2021-04-09

Family

ID=75286923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011613893.9A Pending CN112631888A (zh) 2020-12-30 2020-12-30 分布式系统的故障预测方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN112631888A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360360A (zh) * 2021-06-30 2021-09-07 中国农业银行股份有限公司 业务系统故障检测方法、装置、电子设备及存储介质
CN113657461A (zh) * 2021-07-28 2021-11-16 北京宝兰德软件股份有限公司 基于文本分类的日志异常检测方法、系统、设备及介质
CN114371678A (zh) * 2022-01-11 2022-04-19 升发智联(北京)科技有限责任公司 一种装备安全生产的预警方法、系统、设备及存储介质
CN114816962A (zh) * 2022-06-27 2022-07-29 南京争锋信息科技有限公司 基于attention-lstm的网络故障预测方法
CN116192608A (zh) * 2023-01-18 2023-05-30 北京百度网讯科技有限公司 云手机故障预测方法、装置以及设备
CN116755910A (zh) * 2023-08-16 2023-09-15 中移(苏州)软件技术有限公司 基于冷启动的宿主机高可用预测方法、装置和电子设备

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951984A (zh) * 2017-02-28 2017-07-14 深圳市华傲数据技术有限公司 一种系统健康度动态分析预测方法及装置
US20170293543A1 (en) * 2016-04-06 2017-10-12 Nec Laboratories America, Inc. Mobile phone with system failure prediction using long short-term memory neural networks
CN108230311A (zh) * 2018-01-03 2018-06-29 四川大学 一种乳腺癌检测方法及装置
AU2017279806A1 (en) * 2017-05-29 2018-12-13 Saltor Pty Ltd Method and system for abnormality detection
US20190095313A1 (en) * 2017-09-22 2019-03-28 Nec Laboratories America, Inc. Log-based system maintenance and management
CN110287439A (zh) * 2019-06-27 2019-09-27 电子科技大学 一种基于lstm的网络行为异常检测方法
CN110377731A (zh) * 2019-06-18 2019-10-25 深圳壹账通智能科技有限公司 投诉文本处理方法、装置、计算机设备及存储介质
CN111190804A (zh) * 2019-12-28 2020-05-22 同济大学 一种云原生系统的多层次的深度学习日志故障检测方法
CN111598322A (zh) * 2020-05-09 2020-08-28 东软医疗系统股份有限公司 医疗设备故障预测方法、装置、介质及电子设备
CN111695779A (zh) * 2020-05-14 2020-09-22 华南师范大学 一种知识追踪方法、装置及存储介质
CN111797978A (zh) * 2020-07-08 2020-10-20 北京天融信网络安全技术有限公司 一种内部威胁检测方法、装置、电子设备及存储介质
CN111898550A (zh) * 2020-07-31 2020-11-06 平安科技(深圳)有限公司 建立表情识别模型方法、装置、计算机设备及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170293543A1 (en) * 2016-04-06 2017-10-12 Nec Laboratories America, Inc. Mobile phone with system failure prediction using long short-term memory neural networks
CN106951984A (zh) * 2017-02-28 2017-07-14 深圳市华傲数据技术有限公司 一种系统健康度动态分析预测方法及装置
AU2017279806A1 (en) * 2017-05-29 2018-12-13 Saltor Pty Ltd Method and system for abnormality detection
US20190095313A1 (en) * 2017-09-22 2019-03-28 Nec Laboratories America, Inc. Log-based system maintenance and management
CN108230311A (zh) * 2018-01-03 2018-06-29 四川大学 一种乳腺癌检测方法及装置
CN110377731A (zh) * 2019-06-18 2019-10-25 深圳壹账通智能科技有限公司 投诉文本处理方法、装置、计算机设备及存储介质
CN110287439A (zh) * 2019-06-27 2019-09-27 电子科技大学 一种基于lstm的网络行为异常检测方法
CN111190804A (zh) * 2019-12-28 2020-05-22 同济大学 一种云原生系统的多层次的深度学习日志故障检测方法
CN111598322A (zh) * 2020-05-09 2020-08-28 东软医疗系统股份有限公司 医疗设备故障预测方法、装置、介质及电子设备
CN111695779A (zh) * 2020-05-14 2020-09-22 华南师范大学 一种知识追踪方法、装置及存储介质
CN111797978A (zh) * 2020-07-08 2020-10-20 北京天融信网络安全技术有限公司 一种内部威胁检测方法、装置、电子设备及存储介质
CN111898550A (zh) * 2020-07-31 2020-11-06 平安科技(深圳)有限公司 建立表情识别模型方法、装置、计算机设备及存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360360A (zh) * 2021-06-30 2021-09-07 中国农业银行股份有限公司 业务系统故障检测方法、装置、电子设备及存储介质
CN113657461A (zh) * 2021-07-28 2021-11-16 北京宝兰德软件股份有限公司 基于文本分类的日志异常检测方法、系统、设备及介质
CN114371678A (zh) * 2022-01-11 2022-04-19 升发智联(北京)科技有限责任公司 一种装备安全生产的预警方法、系统、设备及存储介质
CN114816962A (zh) * 2022-06-27 2022-07-29 南京争锋信息科技有限公司 基于attention-lstm的网络故障预测方法
CN114816962B (zh) * 2022-06-27 2022-11-04 南京争锋信息科技有限公司 基于attention-lstm的网络故障预测方法
CN116192608A (zh) * 2023-01-18 2023-05-30 北京百度网讯科技有限公司 云手机故障预测方法、装置以及设备
CN116755910A (zh) * 2023-08-16 2023-09-15 中移(苏州)软件技术有限公司 基于冷启动的宿主机高可用预测方法、装置和电子设备
CN116755910B (zh) * 2023-08-16 2023-11-03 中移(苏州)软件技术有限公司 基于冷启动的宿主机高可用预测方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN112631888A (zh) 分布式系统的故障预测方法、装置、存储介质及电子设备
US11184401B2 (en) AI-driven defensive cybersecurity strategy analysis and recommendation system
US10248910B2 (en) Detection mitigation and remediation of cyberattacks employing an advanced cyber-decision platform
US11756404B2 (en) Adaptive severity functions for alerts
US10832150B2 (en) Optimized re-training for analytic models
CN110933104B (zh) 恶意命令检测方法、装置、设备及介质
US10152596B2 (en) Detecting anomalous events through runtime verification of software execution using a behavioral model
WO2019199769A1 (en) Cyber chaff using spatial voting
CN110321410B (zh) 日志提取的方法、装置、存储介质和电子设备
CN109726821B (zh) 数据均衡方法、装置、计算机可读存储介质及电子设备
US20190325134A1 (en) Neural network detection of malicious activity
CN111311014B (zh) 业务数据处理方法、装置、计算机设备和存储介质
CN114328132A (zh) 外部数据源的状态监控方法、装置、设备和介质
CN116011640A (zh) 基于用户行为数据的风险预测方法及装置
CN111415683A (zh) 语音识别异常告警方法、装置、计算机设备和存储介质
CN111124308A (zh) 一种性能分析方法、装置及电子设备和存储介质
CN108804574B (zh) 告警提示方法、装置、计算机可读存储介质及电子设备
CN110727576B (zh) 一种web页面测试方法、装置、设备及存储介质
CN110930110B (zh) 分布式流程监控方法、装置、存储介质及电子设备
US9591014B2 (en) Capturing correlations between activity and non-activity attributes using N-grams
CN115169852B (zh) 信息发送方法、装置、电子设备、介质和计算机程序产品
CN112541548B (zh) 关系网络的生成方法、装置、计算机设备及存储介质
CN113590447B (zh) 埋点处理方法和装置
CN115664822A (zh) 行为画像构建方法、装置、电子设备及存储介质
CN112910911B (zh) 一种网络入侵检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination