CN115981984A - 一种设备故障检测方法、装置、设备及存储介质 - Google Patents

一种设备故障检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115981984A
CN115981984A CN202310018420.1A CN202310018420A CN115981984A CN 115981984 A CN115981984 A CN 115981984A CN 202310018420 A CN202310018420 A CN 202310018420A CN 115981984 A CN115981984 A CN 115981984A
Authority
CN
China
Prior art keywords
fault
log data
historical
equipment
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310018420.1A
Other languages
English (en)
Inventor
殷涛
张潇澜
李峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN202310018420.1A priority Critical patent/CN115981984A/zh
Publication of CN115981984A publication Critical patent/CN115981984A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本申请涉及服务器监控技术领域,具体公开了一种设备故障检测方法、装置、设备及存储介质,通过根据部件关联关系处理目标设备的训练数据集,以与生成故障日志的部件关联关系越近,利用所述部件关联关系分配的权重越大为原则分配每个故障类型下的训练数据的权重,得到处理后的训练数据集并投入训练,得到设备故障识别模型,在实际故障识别中,对目标设备的故障日志数据进行同样的处理后,输入设备故障识别模型,得到设备故障识别结果。因此能够从设备各部件关联关系出发,根据设备运行日志实现对设备故障类型的检出,无需运维人员根据经验对各类故障日志或其结果进行分析得到设备故障,提高了设备故障识别的效率。

Description

一种设备故障检测方法、装置、设备及存储介质
技术领域
本申请涉及服务器监控技术领域,特别是涉及一种设备故障检测方法、装置、设备及存储介质。
背景技术
随着社会信息化、智能化的逐步发展,越来越多的信息中心被建立,其中的服务器承载着大量数据存储、传输、处理等等角色。在服务器的运行过程中,会产生大量的日志信息,涉及中央处理器,内存,服务器驱动,输入输出单元,主板,网络链接,电源部件,风扇等多种部件。这些日志信息为后续运维人员对服务器的维护起着至关重要的作用。基于日志信息的根因定位是智能运维中重要的一环,具体为通过归纳分析和演绎推理,确定异常产生的根本原因。服务器是一个复杂的系统,每个部件有自己独立的监控单元,导致整个系统的部件关系复杂,日志信息类型及结构各异,为日常服务器维护造成了极大的困难。
也正因为服务器每个部件的监控单元互相独立,针对服务器的故障根因分析,往往只是针对不同类型的日志文件,预先定义相应的解析规则,解析到每种故障日志对应的故障类型,再由运维人员根据经验分析得到服务器故障根因,这不仅给运维人员带来了极大的工作压力、分析效率低、不利于及时的服务器故障检出,服务器故障根因检出的准确性也不能得到保证。
因此,如何快速、准确地从众多日志信息中分析清楚设备的故障根因,是智能运维领域一个亟待解决的问题。
发明内容
本申请的目的是提供一种设备故障检测方法、装置、设备及存储介质,用于实现对设备故障根因的检出,减轻运维人员工作压力。
为解决上述技术问题,本申请提供一种设备故障检测方法,包括:
根据目标设备的包含历史故障日志数据在内的历史运行日志数据生成训练数据集;
根据所述目标设备的各部件之间的部件关联关系,根据故障类型对每条训练数据中的历史运行日志数据分配权重,得到处理后的训练数据集;
利用所述处理后的训练数据集训练初始模型,得到设备故障识别模型;
当接收到所述目标设备的报警信号后,提取包含所述目标设备的故障日志数据在内的所述目标设备的运行日志数据,生成待识别日志数据;
利用所述部件关联关系图对所述待识别日志数据分配权重后,得到处理后的待识别日志数据;
将所述处理后的待识别日志数据输入所述设备故障识别模型,得到所述目标设备的故障检测结果;
其中,与生成故障日志的部件关联关系越近,利用所述部件关联关系分配的权重越大。
可选的,所述根据目标设备的包含历史故障日志数据在内的历史运行日志数据生成训练数据集,具体包括:
获取所述目标设备的所述历史故障日志数据;
在所述历史故障数据的生成时间点,利用时间窗口算法提取所述目标设备在预设时间段内的所有历史关联运行日志数据;
以所述历史故障日志数据和所述历史故障日志数据对应的所述历史关联运行日志数据为一条所述训练数据,每条所述训练数据对应一个故障类型标签,生成所述训练数据集。
可选的,所述获取所述目标设备的所述历史故障日志数据,具体包括:
预先构建包含所述目标设备的故障判别信息的日志异常检测库;
根据所述日志异常检测库中的故障判别信息,在所述目标设备的历史运行日志中提取所述历史故障日志数据。
可选的,所述以所述历史故障日志数据和所述历史故障日志数据对应的所述历史关联运行日志数据为一条所述训练数据,每条所述训练数据对应一个故障类型标签,生成所述训练数据集,具体包括:
分别自所述历史故障日志数据和所述历史故障日志数据对应的所述历史关联运行日志数据中提取故障相关特征;
以各所述训练数据的所述故障相关特征生成所述训练数据集;
其中,所述故障相关特征包括所述历史故障日志数据中的故障参数以及所述历史故障日志数据对应的所述历史关联运行日志数据中与所述故障参数同类的特征参数。
可选的,所述以各训练数据的所述故障相关特征生成所述训练数据集,具体为:
对各所述训练数据,根据所述部件关联关系以及所述训练数据对应的所述故障类型标签对应的部件,以与生成故障日志的部件关联关系越近则保存比例越大的原则剔除部分所述故障相关特征后,得到所述训练数据集。
可选的,所述利用所述处理后的训练数据集训练初始模型,得到设备故障识别模型,具体为:
对所述处理后的训练数据集中被剔除的所述故障相关特征进行取空处理后,输入所述初始模型进行训练,得到所述设备故障识别模型。
可选的,所述分别自所述历史故障日志数据和所述历史故障日志数据对应的所述历史关联运行日志数据中提取故障相关特征,具体包括:
预先构建包含所述目标设备的故障判别信息的日志异常检测库;
根据所述日志异常检测库中的故障判别信息,在分别自所述历史故障日志数据和所述历史故障日志数据对应的所述历史关联运行日志数据中提取所述故障相关特征。
可选的,所述根据目标设备的包含历史故障日志数据在内的历史运行日志数据生成训练数据集,具体包括:
将所述历史运行日志数据代入对应部件的格式转换模板,得到统一格式的日志数据,并将同一时间点的各所述统一格式的日志数据进行融合,得到结构化历史运行日志数据;
根据所述结构化历史运行日志数据生成训练数据集。
可选的,所述利用所述处理后的训练数据集训练初始模型,得到设备故障识别模型,具体包括:
采用自适应算法在预设超参数组合中选定最优超参数组合;
将所述最优超参数组合代入所述初始模型后,利用所述处理后的训练数据集训练所述初始模型,得到所述设备故障识别模型。
为解决上述技术问题,本申请还提供一种设备故障检测装置,包括:
数据生成单元,用于根据目标设备的包含历史故障日志数据在内的历史运行日志数据生成训练数据集;
第一预处理单元,用于根据所述目标设备的各部件之间的部件关联关系,根据故障类型对每条训练数据中的历史运行日志数据分配权重,得到处理后的训练数据集;
训练单元,用于利用所述处理后的训练数据集训练初始模型,得到设备故障识别模型;
提取单元,用于当接收到所述目标设备的报警信号后,提取包含所述目标设备的故障日志数据在内的所述目标设备的运行日志数据,生成待识别日志数据;
第二预处理单元,利用所述部件关联关系图对所述待识别日志数据分配权重后,得到处理后的待识别日志数据;
识别单元,用于将所述处理后的待识别日志数据输入所述设备故障识别模型,得到所述目标设备的故障检测结果;
其中,与生成故障日志的部件关联关系越近,利用所述部件关联关系分配的权重越大。
为解决上述技术问题,本申请还提供一种设备故障检测设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,所述计算机程序被所述处理器执行时实现如上述任意一项所述设备故障检测方法的步骤。
为解决上述技术问题,本申请还提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项所述设备故障检测方法的步骤。
本申请所提供的设备故障检测方法,通过根据部件关联关系处理目标设备的训练数据集,以与生成故障日志的部件关联关系越近,利用所述部件关联关系分配的权重越大为原则分配每个故障类型下的训练数据的权重,得到处理后的训练数据集并投入训练,得到设备故障识别模型,而在实际故障识别中,首先根据目标设备的包含故障日志数据在内的运行日志数据生成待识别日志数据,同样利用部件关联关系对待识别日志数据分配权重后,再将处理后的待识别日志数据输入设备故障识别模型,得到设备故障识别结果。因此能够从设备各部件关联关系出发,根据设备运行日志实现对设备故障类型的检出,无需运维人员根据经验对各类故障日志或其结果进行分析得到设备故障,提高了设备故障识别的效率。
本申请还提供一种设备故障检测装置、设备及存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚的说明本申请实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种设备故障检测方法的流程图;
图2为本申请实施例提供的一种部件关联关系图;
图3为本申请实施例提供的一种数据删除处理过程示意图;
图4为本申请实施例提供的一种设备故障检测装置的结构示意图;
图5为本申请实施例提供的一种设备故障检测设备的结构示意图。
具体实施方式
本申请的核心是提供一种设备故障检测方法、装置、设备及存储介质,用于实现对设备故障根因的检出,减轻运维人员工作压力。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
图1为本申请实施例提供的一种设备故障检测方法的流程图;图2为本申请实施例提供的一种部件关联关系图。
如图1所示,本申请实施例提供的设备故障检测方法包括:
S101:根据目标设备的包含历史故障日志数据在内的历史运行日志数据生成训练数据集。
S102:根据目标设备的各部件之间的部件关联关系,根据故障类型对每条训练数据中的历史运行日志数据分配权重,得到处理后的训练数据集。
S103:利用处理后的训练数据集训练初始模型,得到设备故障识别模型。
S104:当接收到目标设备的报警信号后,提取包含目标设备的故障日志数据在内的目标设备的运行日志数据,生成待识别日志数据。
S105:利用部件关联关系图对待识别日志数据分配权重后,得到处理后的待识别日志数据。
S106:将处理后的待识别日志数据输入设备故障识别模型,得到目标设备的故障检测结果。
其中,与生成故障日志的部件关联关系越近,利用部件关联关系分配的权重越大。
在具体实施中,S101~S103为模型训练步骤,S104~S106为设备故障检出步骤。在模型训练流程和设备故障检出流程中,目标设备可以不为同一特定设备,即可以采用要监测的目标设备的同类设备的历史数据进行模型训练。
对于S101,服务器设备的每个部件都有自己的日志生成规则。在设备日常运行中,根据各部件的监控规则,各部件会对目标参数进行监控,并在目标参数超出正常范围后进行报警或其他提示处理,并生成相应的故障日志。部件可以包括处理器、硬盘、内存、网卡等。
历史运行日志数据是根据目标设备的各部件的日志生成规则生成的历史日志,历史运行日志数据可以来源于运维数据库,如用户保修时从客户端收集的带内日志数据文件和带外日志数据文件,涉及到服务器不同的硬件。也可以根据实际历史运行日志数据构造得到,还可以接收输入的历史运行日志数据。
为实现对设备的故障根因的检出,历史运行日志数据包括历史故障日志数据,也包括历史正常日志数据。历史故障日志数据即其中包含异常状态监测值的日志数据。历史正常日志数据可以包括产生历史故障日志数据的部件在产生故障的相邻时间段内生成的常规日志数据,以及产生历史故障日志数据的部件之外的其他部件在产生故障的时间点生成的常规日志数据。
在生成训练数据时,每条训练数据采用目标设备在同一时间点的历史运行日志数据以及已确定的故障类型进行模型训练,故需要对同一时间点的历史运行日志数据进行融合。则S101:根据目标设备的包含历史故障日志数据在内的历史运行日志数据生成训练数据集,具体可以包括:
获取目标设备的历史故障日志数据;
在历史故障数据的生成时间点,利用时间窗口算法提取目标设备在预设时间段内的所有历史关联运行日志数据;
以历史故障日志数据和历史故障日志数据对应的历史关联运行日志数据为一条训练数据,每条训练数据对应一个故障类型标签,生成训练数据集。
其中,时间窗口的大小即所需获取历史关联运行日志数据的数据量的大小。理想状态下,故障根因的发生时间与报修时间相近,使用时间窗口算法,设置窗口大小参数n提取预设时间段内的历史关联运行日志数据,同时获取相对应的运维工程师标注的根因作为故障类型标签,合并历史关联运行日志数据与故障类型标签生成训练测试的训练数据集。
由于不同部件产生日志的规则和模板不同,不利于智能运维过程中对数据的处理。为解决该问题,可以在生成训练数据时,将历史运行日志数据均转化为统一格式。则S101:根据目标设备的包含历史故障日志数据在内的历史运行日志数据生成训练数据集,具体可以包括:
将历史运行日志数据代入对应部件的格式转换模板,得到统一格式的日志数据,并将同一时间点的各统一格式的日志数据进行融合,得到结构化历史运行日志数据;
根据结构化历史运行日志数据生成训练数据集。
通过预先编写不同类型的部件对应的结构化转换模块,其中包含与不同的部件对应的格式转换模板,用于将历史运行日志数据从部件生成的历史故障日志的格式转换为便于处理的统一格式。例如,处理器部件生成sel_elist.txt格式的日志,硬盘部件生成MgEvtLog格式的日志,这些不同格式不同类型的日志,经过格式转换后转换为统一格式的数据,可以将数据保存到ft.csv文件中。根据时间标签,对同一时间点的多种历史运行日志数据进行合并,得到结构化历史运行日志数据,便于机器学习。
进一步的,在服务器中新增部件时,可以在结构化转换模块中增加对应的格式转换模板。
在现有技术中运维人员需要在设备报警后查看故障日志以及与故障日志相关的日志,根据经验进行统一分析才能够得到设备故障根因。而在本申请实施例提供的设备故障检测方法中,根据设备的部件关联关系进行设备故障识别模型的训练以及设备故障根因的检出,为服务器智能运维弥补了从故障日志到故障根因检出的空白,极大减轻了运维人员的工作压力,且能够提高设备故障根因检出的效率。
则对于S102,在设备运行过程中,某部件产生故障日志,可能不是该部件出现故障或者不仅仅是该部件出现故障,而可能是该部件的关联部件出现故障。故本申请实施例通过部件关联关系衡量各部件之间的互相影响程度,以便在根因分析的时候发挥参考作用。
部件关联关系可以以部件关联关系图的形式呈现,部件关联关系图根据目标设备内部各部件的拓扑关系构建,构建的原则是通过无向边连接的两相邻结点(node)对应的部件之间的故障传播的概率较高,而不相邻的结点对应的部件之间的故障传播概率较低。具体可以根据已有的目标设备的内部部件拓扑(物理连接情况、部件间交互情况)确定部件关联关系,也可以接收输入的部件关联关系。
图2为一种部件关联关系图的示意,如图2所示,以目标设备中产生故障日志的部件包括处理器N1、网卡N2、内存N3、硬盘N4、风扇N5为例,从故障关联度上看,处理器N1与其余各部件均存在较大关联关系,网卡N2与处理器N1以及内存N3存在较大关联,内存N3与网卡N2以及处理器N1存在较大关联关系,风扇N5、硬盘N4各自仅与处理器N1存在较大关联关系。在上述较大关联关系的部件之间在其中一个产生故障时,很可能会对另一部件产生影响,或者该部件的故障日志记录的故障情况就是由另一部件导致的。需要说明的是,图2仅为部件关联关系的一种表达形式示意,在实际应用中,根据目标设备上实际包含的部件以及各部件之间的实际关联关系,进行部件关联关系的确定与呈现。
在训练数据集中,每条训练数据对应一个故障类型标签,该故障类型标签可以由运维人员根据在运维过程中的人工做出的根因分析结果进行标注。根据故障类型,以根据与生成故障日志的部件关联关系越近则分配的权重越大的原则对一条训练数据中的历史运行日志数据分配权重,可以理解的是,历史故障日志数据的权重最大,而根据产生历史故障日志的部件所处的部件关联关系,与该部件距离越近的部件对应的历史运行日志数据的权重越大,与该部件距离越远的部件对应的历史运行日志数据的权重越小。
经过分配权重处理,在后续训练中,对设备故障影响大的历史运行日志数据将进行更多的学习,而对设备故障影响小的历史运行日志数据进行更少的学习,以提高模型分辨设备故障根因的能力。
对于S103,初始模型可以采用分类模型,如XGBoost模型。利用经过S102处理后的训练数据集对初始模型进行训练,直至得到达到收敛条件或精度最高的设备故障识别模型。具体可以利用精度指标(Accuracy)对模型性能进行评估,精度=(正确分类的样本数/总样本数),保存精度得分最高的模型,从而得到能够自动进行全种类日志根因分析的设备故障识别模型。
为获得识别效果良好的模型,在本申请实施例中,S103:利用处理后的训练数据集训练初始模型,得到设备故障识别模型,具体可以包括:
采用自适应算法在预设超参数组合中选定最优超参数组合;
将最优超参数组合代入初始模型后,利用处理后的训练数据集训练初始模型,得到设备故障识别模型。
其中,预设超参数组合可以为默认值或运维人员根据经验确定的参数组合。
对于S104,将训练好的设备故障识别模型投入运行,在目标设备运行过程中,若接收到目标设备的报警信号,或其他故障识别触发条件,则可以参考S101的处理方法,提取故障发生时刻的故障日志数据以及同一时刻其他部件的运行日志数据,进行格式转换、融合处理等处理后,得到待识别日志数据。
对于S105,可以参考S102的处理方法,利用部件关联关系图对待识别日志数据分配权重,故障日志数据的权重最大,而随着与生成故障日志数据的部件的部件关联关系的大小,依次降低对运行日志数据的权重分配。
对于S106,将处理后的待识别日志数据输入设备故障识别模型,得到目标设备的故障检测结果。进一步还可以在接收到运维人员输入的实际故障检测结果,连同设备故障识别模型输出的故障检测结果,对设备故障识别模型进行参数优化。
本申请实施例提供的设备故障检测方法,通过根据部件关联关系处理目标设备的训练数据集,以与生成故障日志的部件关联关系越近,利用所述部件关联关系分配的权重越大为原则分配每个故障类型下的训练数据的权重,得到处理后的训练数据集并投入训练,得到设备故障识别模型,而在实际故障识别中,首先根据目标设备的包含故障日志数据在内的运行日志数据生成待识别日志数据,同样利用部件关联关系对待识别日志数据分配权重后,再将处理后的待识别日志数据输入设备故障识别模型,得到设备故障识别结果。因此能够从设备各部件关联关系出发,根据设备运行日志实现对设备故障类型的检出,无需运维人员根据经验对各类故障日志或其结果进行分析得到设备故障,提高了设备故障识别的效率。
实施例二
在上述实施例的基础上,为进一步优化设备故障根因检出的智能水平,可以预先构建日志异常检测库。日志异常检测库可以包括从服务器厂商获取的服务器运维规范(包括不限于智能平台管理接口IPMI规范)中提取的文本日志异常检测字段以及数值日志异常检测阈值等等相关信息,可以如表1所示:
表1日志异常检测库
出异常的部件(SENSOR) 异常事件(EVENT)
处理器(Processor) 灾难性错误(IERR)
内存(Memory) 不可纠正错误(Uncorrectable ECC)
电源(Power Supply) 电源故障(Power Supply Failure)
驱动器插槽(Drive Slot) 可预测故障(Predictive Failure)
以服务器部件(处理器、硬盘、内存和网卡数据)为例,对应的日志类型包括sel_elist.txt、MgEvtLog、SMART等日志文件。根据服务器运维规范,可以筛选出其中的文本异常字段以及数值异常阈值,构建日志异常检测库。
具体来说,通过对服务器运维工作所使用的标准运行规范的收集、解析,提取出其中的异常检测部分文档。使用文档中包含的部件名称(Sensor),以及部件对应的事件类型(Event),正常的数据范围(Range)以及数据异常的阈值(Threshold)等信息构建异常检测规则库。
则获取目标设备的历史故障日志数据,具体可以包括:
预先构建包含目标设备的故障判别信息的日志异常检测库;
根据日志异常检测库中的故障判别信息,在目标设备的历史运行日志中提取历史故障日志数据。
从客户端采集到的日志数据中包含部件的运行状态数据、部件启动/恢复数据、异常数据以及其他相关信息。日志异常检测库中包括每个部件产生的可能故障关键词集合,根因分析过程主要是对异常数据进行分析挖掘,因此,需要匹配异常检测库中的关键词,过滤掉日志数据中其他无关的数据信息,得到故障日志数据。
实施例三
在上述实施例的基础上,本申请实施例进一步对设备故障根因检出的模型训练过程进行说明。
在本申请实施例提供的设备故障检测方法中,以历史故障日志数据和历史故障日志数据对应的历史关联运行日志数据为一条训练数据,每条训练数据对应一个故障类型标签,生成训练数据集,具体包括:
分别自历史故障日志数据和历史故障日志数据对应的历史关联运行日志数据中提取故障相关特征;
以各训练数据的故障相关特征生成训练数据集;
其中,故障相关特征包括历史故障日志数据中的故障参数以及历史故障日志数据对应的历史关联运行日志数据中与故障参数同类的特征参数。
在具体实施中,为方便模型训练,将历史运行日志数据提取故障相关特征加入训练数据集。
则本申请上述实施例介绍的采用时间窗口算法提取目标设备在预设时间段内的所有历史关联运行日志数据,具体为提取目标设备在预设时间段内的所有历史关联运行日志数据的故障相关特征。
则经过故障相关特征提取,得到k种不同故障类型(不限定每种故障均不同)的故障日志集合可以表示为Log={log1,log2,……,logk},通过结构化转换模块将k个故障日志的日志进行解析获取各自特征,并且将所有类型日志转换为统一的格式,生成结构化历史运行日志数据。
则每条结构化历史运行日志数据包含n个特征,特征集合表示为Feature={f1,f2,……,fn},特征集合的生成的方法为设置窗口参数window,按照时间窗口算法提取一定时间段内的历史关联运行日志数据,这里window参数与一个特征集合Feature的大小n保持一致。
故障类型作为每条结构化历史运行日志数据的标签,标签集合表示为Label={l1,l2,……,lt}。需要说明的是,假设有t种故障类型,并不限定每个故障类型仅对应一条结构化历史运行日志数据。
则整个训练数据集可以表示为Data={[datai,lj]|datai由特征集合来描述,lj为数据datai对应的标签}。
则在S102:根据目标设备的各部件之间的部件关联关系,根据故障类型对每条训练数据中的历史运行日志数据分配权重时,根据部件关联关系和故障类型标签,对每条训练数据中的故障相关特征分配相应的训练权重。
在S104:提取包含目标设备的故障日志数据在内的目标设备的运行日志数据,生成待识别日志数据中,同样提取目标设备的运行日志数据的故障相关特征。
则在本申请实施例二提供的日志异常检测库的基础上,分别自历史故障日志数据和历史故障日志数据对应的历史关联运行日志数据中提取故障相关特征,具体可以包括:
预先构建包含目标设备的故障判别信息的日志异常检测库;
根据日志异常检测库中的故障判别信息,在分别自历史故障日志数据和历史故障日志数据对应的历史关联运行日志数据中提取故障相关特征。
实施例四
图3为本申请实施例提供的一种数据删除处理过程示意图。
在上述实施例的基础上,为加快训练速度与识别速度,可以进一步根据部件关联关系对历史运行日志数据或运行日志数据进行筛选。
则在本申请实施例提供的设备故障检测方法中,以各训练数据的故障相关特征生成训练数据集,具体可以为:对各训练数据,根据部件关联关系以及训练数据对应的故障类型标签对应的部件,以与生成故障日志的部件关联关系越近则保存比例越大的原则剔除部分故障相关特征后,得到训练数据集。
在具体实施中,在S102中为各历史运行日志数据(的故障相关特征)分配权重后,根据权重大小,对训练数据进行筛选。与故障类型标签对应的部件相关的历史运行日志数据(的故障相关特征)全部保留,而根据部件关联关系,与故障类型标签对应的部件结点越近的结点对应的部件的权重越高,与故障类型标签对应的部件结点越远的结点对应的部件的权重越低,则可以使用数据的数据删除处理(DropData)方法对权重低的历史运行日志数据(的故障相关特征)进行过滤。
可以根据部件关联关系来确定各个部件对应的历史运行日志数据(的故障相关特征)的取舍比例。假设故障显示发生在网卡时,则网卡对应的历史运行日志数据(的故障相关特征)保留比例为100%,与网卡直接连接的处理器的历史运行日志数据(的故障相关特征)保留比例为66%,而不与网卡直接连接的内存的历史运行日志数据(的故障相关特征)保留比例为33%,如图3所示,经过数据删除处理(DropData)后,网卡数据(W11~W33)全部保留,处理器数据随机删除三分之一(由C11~C33过滤为C12、C13、C22、C23、C32、C33),内存数据(N11~N33)随机删除三分之二(由N11~N33过滤为N11、N21、N31)。
在进行设备故障根因识别的过程中,同样可以采用上述方法对分配权重后的待识别日志数据进行过滤,加快识别速度。
为了在模型训练的过程中可以使用批量操作(mini-batch),需要将所有的数据特征维度对齐,需要填充的特征对应特征值取空(填充“null”),则利用处理后的训练数据集训练初始模型,得到设备故障识别模型,具体为:对处理后的训练数据集中被剔除的故障相关特征进行取空处理后,输入初始模型进行训练,得到设备故障识别模型。
如图3所示,在剔除历史运行日志数据(的故障相关特征)的位置,填写null符号。
上文详述了设备故障检测方法对应的各个实施例,在此基础上,本申请还公开了与上述方法对应的设备故障检测装置、设备及存储介质。
实施例五
图4为本申请实施例提供的一种设备故障检测装置的结构示意图。
如图4所示,本申请实施例提供的设备故障检测装置包括:
数据生成单元401,用于根据目标设备的包含历史故障日志数据在内的历史运行日志数据生成训练数据集;
第一预处理单元402,用于根据目标设备的各部件之间的部件关联关系,根据故障类型对每条训练数据中的历史运行日志数据分配权重,得到处理后的训练数据集;
训练单元403,用于利用处理后的训练数据集训练初始模型,得到设备故障识别模型;
提取单元404,用于当接收到目标设备的报警信号后,提取包含目标设备的故障日志数据在内的目标设备的运行日志数据,生成待识别日志数据;
第二预处理单元405,利用部件关联关系图对待识别日志数据分配权重后,得到处理后的待识别日志数据;
识别单元406,用于将处理后的待识别日志数据输入设备故障识别模型,得到目标设备的故障检测结果;
其中,与生成故障日志的部件关联关系越近,利用部件关联关系分配的权重越大。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
实施例六
图5为本申请实施例提供的一种设备故障检测设备的结构示意图。
如图5所示,本申请实施例提供的设备故障检测设备包括:
存储器510,用于存储计算机程序511;
处理器520,用于执行计算机程序511,该计算机程序511被处理器520执行时实现如上述任意一项实施例所述设备故障检测方法的步骤。
其中,处理器520可以包括一个或多个处理核心,比如3核心处理器、8核心处理器等。处理器520可以采用数字信号处理DSP(Digital Signal Processing)、现场可编程门阵列FPGA(Field-Programmable Gate Array)、可编程逻辑阵列PLA(Programmable LogicArray)中的至少一种硬件形式来实现。处理器520也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器CPU(CentralProcessing Unit);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器520可以集成有图像处理器GPU(Graphics Processing Unit),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器520还可以包括人工智能AI(Artificial Intelligence)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器510可以包括一个或多个存储介质,该存储介质可以是非暂态的。存储器510还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器510至少用于存储以下计算机程序511,其中,该计算机程序511被处理器520加载并执行之后,能够实现前述任一实施例公开的设备故障检测方法中的相关步骤。另外,存储器510所存储的资源还可以包括操作系统512和数据513等,存储方式可以是短暂存储或者永久存储。其中,操作系统512可以为Windows。数据513可以包括但不限于上述方法所涉及到的数据。
在一些实施例中,设备故障检测设备还可包括有显示屏530、电源540、通信接口550、输入输出接口560、传感器570以及通信总线580。
本领域技术人员可以理解,图5中示出的结构并不构成对设备故障检测设备的限定,可以包括比图示更多或更少的组件。
本申请实施例提供的设备故障检测设备,包括存储器和处理器,处理器在执行存储器存储的程序时,能够实现如上所述的设备故障检测方法,效果同上。
实施例七
需要说明的是,以上所描述的装置、设备实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例所述方法的全部或部分步骤。
为此,本申请实施例还提供一种存储介质,该存储介质上存储有计算机程序,计算机程序被处理器执行时实现如设备故障检测方法的步骤。
该存储介质可以包括:U盘、移动硬盘、只读存储器ROM(Read-Only Memory)、随机存取存储器RAM(Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例中提供的存储介质所包含的计算机程序能够在被处理器执行时实现如上所述的设备故障检测方法的步骤,效果同上。
以上对本申请所提供的一种设备故障检测方法、装置、设备及存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、设备及存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (12)

1.一种设备故障检测方法,其特征在于,包括:
根据目标设备的包含历史故障日志数据在内的历史运行日志数据生成训练数据集;
根据所述目标设备的各部件之间的部件关联关系,根据故障类型对每条训练数据中的历史运行日志数据分配权重,得到处理后的训练数据集;
利用所述处理后的训练数据集训练初始模型,得到设备故障识别模型;
当接收到所述目标设备的报警信号后,提取包含所述目标设备的故障日志数据在内的所述目标设备的运行日志数据,生成待识别日志数据;
利用所述部件关联关系图对所述待识别日志数据分配权重后,得到处理后的待识别日志数据;
将所述处理后的待识别日志数据输入所述设备故障识别模型,得到所述目标设备的故障检测结果;
其中,与生成故障日志的部件关联关系越近,利用所述部件关联关系分配的权重越大。
2.根据权利要求1所述的设备故障检测方法,其特征在于,所述根据目标设备的包含历史故障日志数据在内的历史运行日志数据生成训练数据集,具体包括:
获取所述目标设备的所述历史故障日志数据;
在所述历史故障数据的生成时间点,利用时间窗口算法提取所述目标设备在预设时间段内的所有历史关联运行日志数据;
以所述历史故障日志数据和所述历史故障日志数据对应的所述历史关联运行日志数据为一条所述训练数据,每条所述训练数据对应一个故障类型标签,生成所述训练数据集。
3.根据权利要求2所述的设备故障检测方法,其特征在于,所述获取所述目标设备的所述历史故障日志数据,具体包括:
预先构建包含所述目标设备的故障判别信息的日志异常检测库;
根据所述日志异常检测库中的故障判别信息,在所述目标设备的历史运行日志中提取所述历史故障日志数据。
4.根据权利要求2所述的设备故障检测方法,其特征在于,所述以所述历史故障日志数据和所述历史故障日志数据对应的所述历史关联运行日志数据为一条所述训练数据,每条所述训练数据对应一个故障类型标签,生成所述训练数据集,具体包括:
分别自所述历史故障日志数据和所述历史故障日志数据对应的所述历史关联运行日志数据中提取故障相关特征;
以各所述训练数据的所述故障相关特征生成所述训练数据集;
其中,所述故障相关特征包括所述历史故障日志数据中的故障参数以及所述历史故障日志数据对应的所述历史关联运行日志数据中与所述故障参数同类的特征参数。
5.根据权利要求4所述的设备故障检测方法,其特征在于,所述以各训练数据的所述故障相关特征生成所述训练数据集,具体为:
对各所述训练数据,根据所述部件关联关系以及所述训练数据对应的所述故障类型标签对应的部件,以与生成故障日志的部件关联关系越近则保存比例越大的原则剔除部分所述故障相关特征后,得到所述训练数据集。
6.根据权利要求5所述的设备故障检测方法,其特征在于,所述利用所述处理后的训练数据集训练初始模型,得到设备故障识别模型,具体为:
对所述处理后的训练数据集中被剔除的所述故障相关特征进行取空处理后,输入所述初始模型进行训练,得到所述设备故障识别模型。
7.根据权利要求4所述的设备故障检测方法,其特征在于,所述分别自所述历史故障日志数据和所述历史故障日志数据对应的所述历史关联运行日志数据中提取故障相关特征,具体包括:
预先构建包含所述目标设备的故障判别信息的日志异常检测库;
根据所述日志异常检测库中的故障判别信息,在分别自所述历史故障日志数据和所述历史故障日志数据对应的所述历史关联运行日志数据中提取所述故障相关特征。
8.根据权利要求1所述的设备故障检测方法,其特征在于,所述根据目标设备的包含历史故障日志数据在内的历史运行日志数据生成训练数据集,具体包括:
将所述历史运行日志数据代入对应部件的格式转换模板,得到统一格式的日志数据,并将同一时间点的各所述统一格式的日志数据进行融合,得到结构化历史运行日志数据;
根据所述结构化历史运行日志数据生成训练数据集。
9.根据权利要求1所述的设备故障检测方法,其特征在于,所述利用所述处理后的训练数据集训练初始模型,得到设备故障识别模型,具体包括:
采用自适应算法在预设超参数组合中选定最优超参数组合;
将所述最优超参数组合代入所述初始模型后,利用所述处理后的训练数据集训练所述初始模型,得到所述设备故障识别模型。
10.一种设备故障检测装置,其特征在于,包括:
数据生成单元,用于根据目标设备的包含历史故障日志数据在内的历史运行日志数据生成训练数据集;
第一预处理单元,用于根据所述目标设备的各部件之间的部件关联关系,根据故障类型对每条训练数据中的历史运行日志数据分配权重,得到处理后的训练数据集;
训练单元,用于利用所述处理后的训练数据集训练初始模型,得到设备故障识别模型;
提取单元,用于当接收到所述目标设备的报警信号后,提取包含所述目标设备的故障日志数据在内的所述目标设备的运行日志数据,生成待识别日志数据;
第二预处理单元,利用所述部件关联关系图对所述待识别日志数据分配权重后,得到处理后的待识别日志数据;
识别单元,用于将所述处理后的待识别日志数据输入所述设备故障识别模型,得到所述目标设备的故障检测结果;
其中,与生成故障日志的部件关联关系越近,利用所述部件关联关系分配的权重越大。
11.一种设备故障检测设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至9任意一项所述设备故障检测方法的步骤。
12.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至9任意一项所述设备故障检测方法的步骤。
CN202310018420.1A 2023-01-06 2023-01-06 一种设备故障检测方法、装置、设备及存储介质 Pending CN115981984A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310018420.1A CN115981984A (zh) 2023-01-06 2023-01-06 一种设备故障检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310018420.1A CN115981984A (zh) 2023-01-06 2023-01-06 一种设备故障检测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115981984A true CN115981984A (zh) 2023-04-18

Family

ID=85972143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310018420.1A Pending CN115981984A (zh) 2023-01-06 2023-01-06 一种设备故障检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115981984A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116192612A (zh) * 2023-04-23 2023-05-30 成都新西旺自动化科技有限公司 一种基于日志分析的系统故障监测和预警系统及方法
CN116451122A (zh) * 2023-04-23 2023-07-18 北京思维实创科技有限公司 一种故障确定方法、装置、电子设备及存储介质
CN116684306A (zh) * 2023-06-29 2023-09-01 苏州浪潮智能科技有限公司 一种故障预测方法、装置、设备及可读存储介质
CN116821403A (zh) * 2023-08-31 2023-09-29 超网实业(成都)股份有限公司 一种厂区设备的智能运维方法及系统
CN117234806A (zh) * 2023-09-22 2023-12-15 深圳市联瑞电子有限公司 一种网卡自动重启方法和系统
CN117522382A (zh) * 2023-11-28 2024-02-06 江苏圣创半导体科技有限公司 一种自动售卖机故障预警方法及系统
CN117807481A (zh) * 2024-02-28 2024-04-02 苏州元脑智能科技有限公司 故障识别方法、模型的训练方法、装置、设备以及介质

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116192612A (zh) * 2023-04-23 2023-05-30 成都新西旺自动化科技有限公司 一种基于日志分析的系统故障监测和预警系统及方法
CN116451122A (zh) * 2023-04-23 2023-07-18 北京思维实创科技有限公司 一种故障确定方法、装置、电子设备及存储介质
CN116451122B (zh) * 2023-04-23 2024-03-05 北京磁浮有限公司 一种故障确定方法、装置、电子设备及存储介质
CN116684306A (zh) * 2023-06-29 2023-09-01 苏州浪潮智能科技有限公司 一种故障预测方法、装置、设备及可读存储介质
CN116684306B (zh) * 2023-06-29 2023-11-03 苏州浪潮智能科技有限公司 一种故障预测方法、装置、设备及可读存储介质
CN116821403A (zh) * 2023-08-31 2023-09-29 超网实业(成都)股份有限公司 一种厂区设备的智能运维方法及系统
CN116821403B (zh) * 2023-08-31 2023-12-05 超网实业(成都)股份有限公司 一种厂区设备的智能运维方法及系统
CN117234806A (zh) * 2023-09-22 2023-12-15 深圳市联瑞电子有限公司 一种网卡自动重启方法和系统
CN117234806B (zh) * 2023-09-22 2024-04-30 深圳市联瑞电子有限公司 一种网卡自动重启方法和系统
CN117522382A (zh) * 2023-11-28 2024-02-06 江苏圣创半导体科技有限公司 一种自动售卖机故障预警方法及系统
CN117807481A (zh) * 2024-02-28 2024-04-02 苏州元脑智能科技有限公司 故障识别方法、模型的训练方法、装置、设备以及介质
CN117807481B (zh) * 2024-02-28 2024-05-10 苏州元脑智能科技有限公司 故障识别方法、模型的训练方法、装置、设备以及介质

Similar Documents

Publication Publication Date Title
CN115981984A (zh) 一种设备故障检测方法、装置、设备及存储介质
CN113282461B (zh) 传输网的告警识别方法和装置
CN111209131A (zh) 一种基于机器学习确定异构系统的故障的方法和系统
US11294754B2 (en) System and method for contextual event sequence analysis
CN112181758B (zh) 一种基于网络拓扑及实时告警的故障根因定位方法
CN111027615B (zh) 基于机器学习的中间件故障预警方法和系统
CN105577440A (zh) 一种网络故障时间定位方法和分析设备
CN113254255B (zh) 一种云平台日志的分析方法、系统、设备及介质
CN113590451B (zh) 一种根因定位方法、运维服务器及存储介质
CN106446091A (zh) 一种多源时序数据的预处理方法和装置
CN114153980A (zh) 知识图谱构建方法和装置、检查方法、存储介质
CN112612664A (zh) 电子设备的测试方法、装置、电子设备和存储介质
CN111666978B (zh) 一种it系统运维大数据的智能故障预警系统
CN114118295A (zh) 一种异常检测模型训练方法、异常检测方法、装置及介质
US20240168835A1 (en) Hard disk failure prediction method, system, device and medium
CN112882899B (zh) 一种日志异常检测方法及装置
CN117792882A (zh) 基于大语言模型辅助的通信网络故障日志分析方法
CN104021075A (zh) 用于程序代码的评估方法和装置
CN111581057B (zh) 一种通用日志解析方法、终端设备及存储介质
CN117436440A (zh) 一种日志识别方法、系统、终端设备及存储介质
CN111831528A (zh) 一种计算机系统日志关联方法及相关装置
CN110399278B (zh) 基于数据中心异常监控的告警融合系统及方法
CN115062144A (zh) 一种基于知识库和集成学习的日志异常检测方法与系统
Zhu et al. A Performance Fault Diagnosis Method for SaaS Software Based on GBDT Algorithm.
CN115080286A (zh) 一种网络设备日志异常的发现方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination