CN110750377A - 一种故障定位方法及装置 - Google Patents

一种故障定位方法及装置 Download PDF

Info

Publication number
CN110750377A
CN110750377A CN201910840824.2A CN201910840824A CN110750377A CN 110750377 A CN110750377 A CN 110750377A CN 201910840824 A CN201910840824 A CN 201910840824A CN 110750377 A CN110750377 A CN 110750377A
Authority
CN
China
Prior art keywords
fault
training
real
matrix
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910840824.2A
Other languages
English (en)
Inventor
李嘉勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ping An Communication Technology Co Ltd
Original Assignee
Shenzhen Ping An Communication Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ping An Communication Technology Co Ltd filed Critical Shenzhen Ping An Communication Technology Co Ltd
Priority to CN201910840824.2A priority Critical patent/CN110750377A/zh
Publication of CN110750377A publication Critical patent/CN110750377A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种故障定位方法及装置,涉及数据处理技术领域,为解决现有技术中定位服务器故障速度慢的问题而发明。该方法主要包括:获取服务器的历史数据,转换日志列表信息和运行状态信息生成训练故障矩阵;将训练故障矩阵作为输入信息,将训练故障矩阵对应的历史故障原因作为输出信息,输入卷积神经网络CNN模型进行训练,直至CNN模型判断故障原因的准确率达到预置数值;如果健康状态为WARNING,则获取当前服务器的实时日志列表信息和实时运行状态信息,转换实时日志列表信息和实时运行状态信息生成实时故障矩阵;将实时故障矩阵输入CNN模型,定位当前服务器的实时故障原因。本发明主要应用于服务器故障诊断的过程中。

Description

一种故障定位方法及装置
技术领域
本发明涉及一种数据处理技术领域,特别是涉及一种故障定位方法及装置。
背景技术
服务器在运行一段时间后,不可避免会发生服务器故障,需要做某部分的硬件更换处理。对于企业来说,服务器的数量越多,需要处理的服务器故障就越多,所以非常需要提高处理服务器故障的效率,以提高服务器的稳定性。
对于服务器故障的定位通常都需要以下操作:到服务器管理页面收集服务器的日志包,报修并将日志包传给厂商分析定位故障。其中日志包可以提前收集保存在日志云里面,而对于报修故障和故障的定位分析需要花费大量的时间和人力。如何方便快捷地定位故障,减少厂商分析故障的时间,提升维护效率成了故障维护关键点。
发明内容
有鉴于此,本发明提供一种故障定位方法及装置,主要目的在于解决现有技术中定位服务器故障速度慢的问题。
依据本发明一个方面,提供了一种故障定位方法,包括:
获取服务器的历史数据,所述历史数据包括故障服务器的历史日志列表信息、历史运行状态信息和历史故障原因;
根据预置规则,转换所述日志列表信息和所述运行状态信息生成训练故障矩阵;
将所述训练故障矩阵作为输入信息,将所述训练故障矩阵对应的历史故障原因作为输出信息,输入卷积神经网络CNN模型进行训练,直至所述CNN模型判断故障原因的准确率达到预置数值;
如果健康状态为WARNING,则获取当前服务器的实时日志列表信息和实时运行状态信息;
根据所述预置规则,转换所述实时日志列表信息和所述实时运行状态信息生成实时故障矩阵;
将所述实时故障矩阵输入所述CNN模型,定位所述当前服务器的实时故障原因。
依据本发明另一个方面,提供了一种故障定位装置,包括:
第一获取模块,用于获取服务器的历史数据,所述历史数据包括故障服务器的历史日志列表信息、历史运行状态信息和历史故障原因;
第一转换模块,用于根据预置规则,转换所述日志列表信息和所述运行状态信息生成训练故障矩阵;
训练模块,用于将所述训练故障矩阵作为输入信息,将所述训练故障矩阵对应的历史故障原因作为输出信息,输入卷积神经网络CNN模型进行训练,直至所述CNN模型判断故障原因的准确率达到预置数值;
第二获取模块,用于如果健康状态为WARNING,则获取当前服务器的实时日志列表信息和实时运行状态信息;
第二转换模块,用于根据所述预置规则,转换所述实时日志列表信息和所述实时运行状态信息生成实时故障矩阵;
定位模块,用于将所述实时故障矩阵输入所述CNN模型,定位所述当前服务器的实时故障原因。
根据本发明的又一方面,提供了一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述故障定位方法对应的操作。
根据本发明的再一方面,提供了一种计算机设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述故障定位方法对应的操作。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明提供了一种故障定位方法及装置,首先获取服务器的历史数据,然后根据预置规则,转换日志列表新和运行状态信息生成训练故障矩阵,再将训练故障矩阵作为输入信息,将训练故障矩阵对应的历史故障原因作为数据信息,输入卷积神经网络CNN模型进行训练,直至CNN模型判断故障原因的准确率达到预置数据,再获取健康状态为WARNING的当前服务器的实时日志列表信息和实时运行状态信息,再根据预置规则转换实时日志列表信息和实时运行状态信息生成实时故障矩阵,最后将实时故障矩阵输入CNN模型,定位当前服务器的实时故障原因。与现有技术相比,本发明实施例引进AI深度学技术,通过训练卷积神经网CNN模型,以根据产生告警信息的当前服务器的实时日志列表新和实时运行状态信息,定位当前服务器的实时故障原因,比通过厂商分析定位故障原因的速度更快。同时快速定位当前服务器的故障原因,能够增加服务器运行的稳定性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种故障定位方法流程图;
图2示出了本发明实施例提供的另一种故障定位方法流程图;
图3示出了本发明实施例提供的一种故障定位装置组成框图;
图4示出了本发明实施例提供的另一种故障定位装置组成框图;
图5示出了本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种故障定位方法,如图1所示,该方法包括:
101、获取服务器的历史数据。
在服务器运维平台,通常定时采集服务器健康信息存进数据库,当采集到故障服务器后,自动收集服务器日志列表和运行状态存储至数据库,并将服务器日志包存放在日志云上。在服务器运维人员在处理服务器故障后,将故障原因和处理方法也做记录存储在数据库中。故障原因,也就是服务器中可能存在故障的硬件,硬件包括CPU、内存、硬盘、风扇、电源、RAID卡、BMC卡等。处理方法是指停机更换服务器的故障硬件和在线更换服务器的故障硬件。在数据库中存储的数据中,历史数据包括故障服务器的历史日志列表信息、历史运行状态信息和历史故障原因。在同一时间故障服务器的日式列表信息、运行状态信息,及其对应的故障原因,构成一组历史数据。
102、根据预置规则,转换所述日志列表信息和所述运行状态信息生成训练故障矩阵。
在数据库中,包括多组历史数据,将同一组历史数据中的日志列表信息和运行状态信息相对应,转换生成训练故障矩阵。在转换过程中,保持不同组历史数据的存放顺序,以便查找训练故障矩阵对应的历史故障原因。
103、将所述训练故障矩阵作为输入信息,将所述训练故障矩阵对应的历史故障原因作为输出信息,输入卷积神经网络CNN模型进行训练,直至所述CNN模型判断故障原因的准确率达到预置数值。
卷积神经网络CNN模型,是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类,因此也被称为“平移不变人工神经网络。以训练故障为输入,以训练故障矩阵对应的历史故障原因为输出,训练CNN模型,在训练过程中不断的统计输出的故障原因的准确率,当准确率达到预置数值时,停止训练CNN模型。准确率,也就是输出的故障原因与历史故障原因一致的概率。
104、如果健康状态为WARNING,则获取当前服务器的实时日志列表信息和实时运行状态信息。
健康状态是指记录服务器硬件在运行过程中是正常运行的OK状态,还是异常运行的WARNING状态。健康状态为WARNING的当前服务器为故障服务器。在当前服务器为故障服务器时,获取当前服务器的实时日志列表信息和实时运行状态信息。
105、根据所述预置规则,转换所述实时日志列表信息和所述实时运行状态信息生成实时故障矩阵。
本步骤与图1所述的步骤102类似,根据相同的预置规则,转换实时日志列表信息和实时运行状态信息转换生成实时故障矩阵。
106、将所述实时故障矩阵输入所述CNN模型,定位所述当前服务器的实时故障原因。
将实时故障矩阵输入训练好的CNN模型,经CNN模型的运算,输出实时故障原因。实时故障原因也就是服务器中实际出现故障的硬件。示例性的,服务器的其中一个网卡上的网口传输出现丢包现象,该现象有可能是该网卡的网口故障造成的,也可能是网卡的网络传输故障,还有可能是网口的物理线路故障,还有可能是网口连接的交换机故障,还有可能是网口所连接的服务器主线路板故障等等,将实时故障矩阵输入CNN模型中,以确定实际的故障点。
本发明提供了一种故障定位方法,首先获取服务器的历史数据,然后根据预置规则,转换日志列表新和运行状态信息生成训练故障矩阵,再将训练故障矩阵作为输入信息,将训练故障矩阵对应的历史故障原因作为数据信息,输入卷积神经网络CNN模型进行训练,直至CNN模型判断故障原因的准确率达到预置数据,再获取健康状态为WARNING的当前服务器的实时日志列表信息和实时运行状态信息,再根据预置规则转换实时日志列表信息和实时运行状态信息生成实时故障矩阵,最后将实时故障矩阵输入CNN模型,定位当前服务器的实时故障原因。与现有技术相比,本发明实施例引进AI深度学技术,通过训练卷积神经网CNN模型,以根据产生告警信息的当前服务器的实时日志列表新和实时运行状态信息,定位当前服务器的实时故障原因,比通过厂商分析定位故障原因的速度更快。同时快速定位当前服务器的故障原因,能够增加服务器运行的稳定性。
本发明实施例提供了另一种故障定位方法,如图2所示,该方法包括:
201、获取服务器的历史数据。
历史数据包括故障服务器的历史日志列表信息、历史运行状态信息和历史故障原因。其获取过程具体包括:查找健康状态为WARINING的故障服务器,以及所述故障服务器的故障时刻;获取所述故障服务器在所述故障时刻的历史日志列表信息,历史运行状态信息和历史故障原因。
历史数据是由多组数据组成的,每一组数据包括同一故障时刻的历史日志列表信息、历史运行状态信息和历史故障原因。其中历史日志列表其中,日志列表是指服务器的sel日志信息,历史运行状态是指服务器监测到的硬件自身的运行状态,如功率、温度、是否宕机等等。
202、根据预置规则,转换所述日志列表信息和所述运行状态信息生成训练故障矩阵。
训练故障矩阵的生成过程具体包括:提取所述日志列表信息中的硬件日志信息;获取所述硬件日志信息中的硬件标识,以及所述硬件标识对应的运行状态信息;以所述运行状态信息为行向量,以所述硬件标识为列向量,生成训练故障矩阵。
首先从日志列表信息和运行状态信息中筛选出硬件相关信息,也就是硬件日志信息和硬件的运行状态信息。其中,硬件日志信息包括主板、CPU、内存、硬盘、电源、RAID卡、BMC芯片和风扇的日志信息,运行状态信息包括IO功率、监测温度和宕机状态。从硬件日志信息中提取硬件标识,并根据硬件标识获取其对应的运行状态信息,运行状态是指健康状态为WARNING的服务器的IO功率、监测温度和宕机状态。由于服务器中的相同硬件的数量可能包括多个,所以硬件标识不仅能够标识硬件种类,还能标识相同种类中的不同硬件。
其中,以所述运行状态信息为行向量,以所述硬件标识位列向量,生成训练故障矩阵具体包括:统计所述硬件标识的硬件数量,以及所述运行状态信息的状态类别数量;以所述状态类别数量为行数,以所述硬件数量为列数,建立空的二维矩阵;按照所述硬件标识,将与所述硬件标识对应的所述运行状态信息添加至所述二维矩阵,生成训练故障矩阵。
203、将所述训练故障矩阵作为输入信息,将所述训练故障矩阵对应的历史故障原因作为输出信息,输入卷积神经网络CNN模型进行训练,直至所述CNN模型判断故障原因的准确率达到预置数值。
将训练故障矩阵输入CNN模型后,训练过程具体包括:将所述训练故障矩阵输入所述CNN模型,根据训练模型参数,计算与所述训练故障矩阵对应的训练故障原因;统计所述训练故障矩阵对应的历史故障原因和所述训练故障原因相同的判断故障原因的准确率;如果所述准确率小于所述预置数值,则计算所述训练故障矩阵对应的历史故障原因和所述训练故障原因的差值;按照预置计算规则,根据所述差值更新所述训练模型参数。
将所述训练故障矩阵输入所述CNN模型,根据训练模型参数,计算与所述训练故障矩阵对应的训练故障原因,包括:使用卷积核与所述训练故障矩阵进行卷积运算;将所述卷积结果中具有相同硬件标识的数据相加,生成各个硬件对应的硬件特征矩阵;计算所述硬件特征矩阵的特征向量值;将所述特征向量值中的最大值对应的硬件,确定为与所述训练故障矩阵对应的训练故障原因。
经CNN模型计算之后,最终输出的是一个列向量,该列向量对应的硬件标识,也就是定位的训练故障原因。在根据训练故障原因与历史故障原因的差异,更新CNN模型的训练参数模型,直至CNN模型判断故障原因的准确率达到预置数值,该预置数值可选90%。
204、如果健康状态为WARNING,则获取当前服务器的实时日志列表信息和实时运行状态信息。
健康状态是指记录服务器硬件在运行过程中是正常运行的OK状态,还是异常运行的WARNING状态。健康状态为WARNING的当前服务器为故障服务器。在当前服务器为故障服务器时,获取当前服务器的实时日志列表信息和实时运行状态信息。
205、根据所述预置规则,转换所述实时日志列表信息和所述实时运行状态信息生成实时故障矩阵。
本步骤与图2所述的步骤202类似,根据相同的预置规则,转换实时日志列表信息和实时运行状态信息转换生成实时故障矩阵。
206、将所述实时故障矩阵输入所述CNN模型,定位所述当前服务器的实时故障原因。
207、根据预置故障与处理方案对应表,查找所述当前服务器的故障原因对应的故障处理方案,以便于维护人员根据所述故障处理方案维护所述当前服务器。
在预置故障与处理方案对应表中,包括服务器的不同故障原因以及与其对应的故障处理方案。在查找到当前服务器的故障原因对应的故障处理方案后,维护人员可以根据处理方案维护当前服务器,以节省现场判断时间,增加服务器有效运行的时间,减少服务器故障时间。示例性的,当前服务器的故障原因为硬盘故障,并定位到故障硬盘的具体槽位,需要进行获取当前服务器的RAID配置信息,根据不同的RAID配置信息,判断是否需要停机处理。示例性的,当前服务器的故障为内存故障,则直接判断需要停机处理。
本发明提供了一种故障定位方法,首先获取服务器的历史数据,然后根据预置规则,转换日志列表新和运行状态信息生成训练故障矩阵,再将训练故障矩阵作为输入信息,将训练故障矩阵对应的历史故障原因作为数据信息,输入卷积神经网络CNN模型进行训练,直至CNN模型判断故障原因的准确率达到预置数据,再获取健康状态为WARNING的当前服务器的实时日志列表信息和实时运行状态信息,再根据预置规则转换实时日志列表信息和实时运行状态信息生成实时故障矩阵,最后将实时故障矩阵输入CNN模型,定位当前服务器的实时故障原因。与现有技术相比,本发明实施例引进AI深度学技术,通过训练卷积神经网CNN模型,以根据产生告警信息的当前服务器的实时日志列表新和实时运行状态信息,定位当前服务器的实时故障原因,比通过厂商分析定位故障原因的速度更快。同时快速定位当前服务器的故障原因,能够增加服务器运行的稳定性。
进一步的,作为对上述图1所示方法的实现,本发明实施例提供了一种故障定位装置,如图3所示,该装置包括:
第一获取模块31,用于获取服务器的历史数据,所述历史数据包括故障服务器的历史日志列表信息、历史运行状态信息和历史故障原因;
第一转换模块32,用于根据预置规则,转换所述日志列表信息和所述运行状态信息生成训练故障矩阵;
训练模块33,用于将所述训练故障矩阵作为输入信息,将所述训练故障矩阵对应的历史故障原因作为输出信息,输入卷积神经网络CNN模型进行训练,直至所述CNN模型判断故障原因的准确率达到预置数值;
第二获取模块34,用于如果健康状态为WARNING,则获取当前服务器的实时日志列表信息和实时运行状态信息;
第二转换模块35,用于根据所述预置规则,转换所述实时日志列表信息和所述实时运行状态信息生成实时故障矩阵;
定位模块36,用于将所述实时故障矩阵输入所述CNN模型,定位所述当前服务器的实时故障原因。
本发明提供了一种故障定位装置,首先获取服务器的历史数据,然后根据预置规则,转换日志列表新和运行状态信息生成训练故障矩阵,再将训练故障矩阵作为输入信息,将训练故障矩阵对应的历史故障原因作为数据信息,输入卷积神经网络CNN模型进行训练,直至CNN模型判断故障原因的准确率达到预置数据,再获取健康状态为WARNING的当前服务器的实时日志列表信息和实时运行状态信息,再根据预置规则转换实时日志列表信息和实时运行状态信息生成实时故障矩阵,最后将实时故障矩阵输入CNN模型,定位当前服务器的实时故障原因。与现有技术相比,本发明实施例引进AI深度学技术,通过训练卷积神经网CNN模型,以根据产生告警信息的当前服务器的实时日志列表新和实时运行状态信息,定位当前服务器的实时故障原因,比通过厂商分析定位故障原因的速度更快。同时快速定位当前服务器的故障原因,能够增加服务器运行的稳定性。
进一步的,作为对上述图2所示方法的实现,本发明实施例提供了另一种故障定位装置,如图4所示,该装置包括:
第一获取模块41,用于获取服务器的历史数据,所述历史数据包括故障服务器的历史日志列表信息、历史运行状态信息和历史故障原因;
第一转换模块42,用于根据预置规则,转换所述日志列表信息和所述运行状态信息生成训练故障矩阵;
训练模块43,用于将所述训练故障矩阵作为输入信息,将所述训练故障矩阵对应的历史故障原因作为输出信息,输入卷积神经网络CNN模型进行训练,直至所述CNN模型判断故障原因的准确率达到预置数值;
第二获取模块44,用于如果健康状态为WARNING,则获取当前服务器的实时日志列表信息和实时运行状态信息;
第二转换模块45,用于根据所述预置规则,转换所述实时日志列表信息和所述实时运行状态信息生成实时故障矩阵;
定位模块46,用于将所述实时故障矩阵输入所述CNN模型,定位所述当前服务器的实时故障原因。
进一步地,所述第一获取模块41,包括:
查找单元411,用于查找健康状态为WARINING的故障服务器,以及所述故障服务器的故障时刻;
获取单元412,用于获取所述故障服务器在所述故障时刻的历史日志列表信息,历史运行状态信息和历史故障原因。
进一步地,所述第一转换模块42,包括:
提取单元421,用于提取所述日志列表信息中的硬件日志信息;
获取单元422,用于获取所述硬件日志信息中的硬件标识,以及所述硬件标识对应的运行状态信息;
生成单元423,用于以所述运行状态信息为行向量,以所述硬件标识为列向量,生成训练故障矩阵。
进一步地,所述生成单元423,包括:
统计子单元4231,用于统计所述硬件标识的硬件数量,以及所述运行状态信息的状态类别数量;
建立子单元4232,用于以所述状态类别数量为行数,以所述硬件数量为列数,建立空的二维矩阵;
生成子单元4233,用于按照所述硬件标识,将与所述硬件标识对应的所述运行状态信息添加至所述二维矩阵,生成训练故障矩阵。
进一步地,所述训练模块43,包括:
第一计算单元431,用于将所述训练故障矩阵输入所述CNN模型,根据训练模型参数,计算与所述训练故障矩阵对应的训练故障原因;
统计单元432,用于统计所述训练故障矩阵对应的历史故障原因和所述训练故障原因相同的判断故障原因的准确率;
第二计算单元433,用于如果所述准确率小于所述预置数值,则计算所述训练故障矩阵对应的历史故障原因和所述训练故障原因的差值;
更新单元434,用于按照预置计算规则,根据所述差值更新所述训练模型参数。
进一步地,所述第一计算单元431,包括:
卷积子单元4311,用于使用卷积核与所述训练故障矩阵进行卷积运算;
生成子单元4312,用于将所述卷积结果中具有相同硬件标识的数据相加,生成各个硬件对应的硬件特征矩阵;
计算子单元4313,用于计算所述硬件特征矩阵的特征向量值;
确定子单元4314,用于将所述特征向量值中的最大值对应的硬件,确定为与所述训练故障矩阵对应的训练故障原因。
进一步地,该方法还包括:
查找模块47,用于所述将所述实时故障矩阵输入所述CNN模型,定位所述当前服务器的故障原因之后,根据预置故障与处理方案对应表,查找所述当前服务器的故障原因对应的故障处理方案,以便于维护人员根据所述故障处理方案维护所述当前服务器。
本发明提供了一种故障定位装置,首先获取服务器的历史数据,然后根据预置规则,转换日志列表新和运行状态信息生成训练故障矩阵,再将训练故障矩阵作为输入信息,将训练故障矩阵对应的历史故障原因作为数据信息,输入卷积神经网络CNN模型进行训练,直至CNN模型判断故障原因的准确率达到预置数据,再获取健康状态为WARNING的当前服务器的实时日志列表信息和实时运行状态信息,再根据预置规则转换实时日志列表信息和实时运行状态信息生成实时故障矩阵,最后将实时故障矩阵输入CNN模型,定位当前服务器的实时故障原因。与现有技术相比,本发明实施例引进AI深度学技术,通过训练卷积神经网CNN模型,以根据产生告警信息的当前服务器的实时日志列表新和实时运行状态信息,定位当前服务器的实时故障原因,比通过厂商分析定位故障原因的速度更快。同时快速定位当前服务器的故障原因,能够增加服务器运行的稳定性。
根据本发明一个实施例提供了一种存储介质,所述存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的故障定位方法。
图5示出了根据本发明一个实施例提供的一种计算机设备的结构示意图,本发明具体实施例并不对计算机设备的具体实现做限定。
如图5所示,该计算机设备可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。
其中:处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。
通信接口504,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器502,用于执行程序510,具体可以执行上述故障定位方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
处理器502可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算机设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510具体可以用于使得处理器502执行以下操作:
获取服务器的历史数据,所述历史数据包括故障服务器的历史日志列表信息、历史运行状态信息和历史故障原因;
根据预置规则,转换所述日志列表信息和所述运行状态信息生成训练故障矩阵;
将所述训练故障矩阵作为输入信息,将所述训练故障矩阵对应的历史故障原因作为输出信息,输入卷积神经网络CNN模型进行训练,直至所述CNN模型判断故障原因的准确率达到预置数值;
如果健康状态为WARNING,则获取当前服务器的实时日志列表信息和实时运行状态信息;
根据所述预置规则,转换所述实时日志列表信息和所述实时运行状态信息生成实时故障矩阵;
将所述实时故障矩阵输入所述CNN模型,定位所述当前服务器的实时故障原因。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (10)

1.一种故障定位方法,其特征在于,包括:
获取服务器的历史数据,所述历史数据包括故障服务器的历史日志列表信息、历史运行状态信息和历史故障原因;
根据预置规则,转换所述日志列表信息和所述运行状态信息生成训练故障矩阵;
将所述训练故障矩阵作为输入信息,将所述训练故障矩阵对应的历史故障原因作为输出信息,输入卷积神经网络CNN模型进行训练,直至所述CNN模型判断故障原因的准确率达到预置数值;
如果健康状态为WARNING,则获取当前服务器的实时日志列表信息和实时运行状态信息;
根据所述预置规则,转换所述实时日志列表信息和所述实时运行状态信息生成实时故障矩阵;
将所述实时故障矩阵输入所述CNN模型,定位所述当前服务器的实时故障原因。
2.如权利要求1所述的方法,其特征在于,所述获取服务器的历史数据,包括:
查找健康状态为WARINING的故障服务器,以及所述故障服务器的故障时刻;
获取所述故障服务器在所述故障时刻的历史日志列表信息,历史运行状态信息和历史故障原因。
3.如权利要求1所述的方法,其特征在于,所述根据预置规则,转换所述日志列表信息和所述运行状态信息生成训练故障矩阵,包括:
提取所述日志列表信息中的硬件日志信息;
获取所述硬件日志信息中的硬件标识,以及所述硬件标识对应的运行状态信息;
以所述运行状态信息为行向量,以所述硬件标识为列向量,生成训练故障矩阵。
4.如权利要求3所述的方法,其特征在于,所述以所述运行状态信息为行向量,以所述硬件标识位列向量,生成训练故障矩阵,包括:
统计所述硬件标识的硬件数量,以及所述运行状态信息的状态类别数量;
以所述状态类别数量为行数,以所述硬件数量为列数,建立空的二维矩阵;
按照所述硬件标识,将与所述硬件标识对应的所述运行状态信息添加至所述二维矩阵,生成训练故障矩阵。
5.如权利要求1所述的方法,其特征在于,所述将所述训练故障矩阵作为输入信息,将所述训练故障矩阵对应的历史故障原因作为输出信息,输入卷积神经网络CNN模型进行训练,直至所述CNN模型判断故障原因的准确率达到预置数值,包括:
将所述训练故障矩阵输入所述CNN模型,根据训练模型参数,计算与所述训练故障矩阵对应的训练故障原因;
统计所述训练故障矩阵对应的历史故障原因和所述训练故障原因相同的判断故障原因的准确率;
如果所述准确率小于所述预置数值,则计算所述训练故障矩阵对应的历史故障原因和所述训练故障原因的差值;
按照预置计算规则,根据所述差值更新所述训练模型参数。
6.如权利要求5所述的方法,其特征在于,所述将所述训练故障矩阵输入所述CNN模型,根据训练模型参数,计算与所述训练故障矩阵对应的训练故障原因,包括:
使用卷积核与所述训练故障矩阵进行卷积运算;
将所述卷积结果中具有相同硬件标识的数据相加,生成各个硬件对应的硬件特征矩阵;
计算所述硬件特征矩阵的特征向量值;
将所述特征向量值中的最大值对应的硬件,确定为与所述训练故障矩阵对应的训练故障原因。
7.如权利要求1-6任一项所述的方法,其特征在于,所述将所述实时故障矩阵输入所述CNN模型,定位所述当前服务器的故障原因之后,所述方法还包括:
根据预置故障与处理方案对应表,查找所述当前服务器的故障原因对应的故障处理方案,以便于维护人员根据所述故障处理方案维护所述当前服务器。
8.一种故障定位装置,其特征在于,包括:
第一获取模块,用于获取服务器的历史数据,所述历史数据包括故障服务器的历史日志列表信息、历史运行状态信息和历史故障原因;
第一转换模块,用于根据预置规则,转换所述日志列表信息和所述运行状态信息生成训练故障矩阵;
训练模块,用于将所述训练故障矩阵作为输入信息,将所述训练故障矩阵对应的历史故障原因作为输出信息,输入卷积神经网络CNN模型进行训练,直至所述CNN模型判断故障原因的准确率达到预置数值;
第二获取模块,用于如果健康状态为WARNING,则获取当前服务器的实时日志列表信息和实时运行状态信息;
第二转换模块,用于根据所述预置规则,转换所述实时日志列表信息和所述实时运行状态信息生成实时故障矩阵;
定位模块,用于将所述实时故障矩阵输入所述CNN模型,定位所述当前服务器的实时故障原因。
9.一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-7中任一项所述的故障定位方法对应的操作。
10.一种计算机设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的故障定位方法对应的操作。
CN201910840824.2A 2019-09-06 2019-09-06 一种故障定位方法及装置 Pending CN110750377A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910840824.2A CN110750377A (zh) 2019-09-06 2019-09-06 一种故障定位方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910840824.2A CN110750377A (zh) 2019-09-06 2019-09-06 一种故障定位方法及装置

Publications (1)

Publication Number Publication Date
CN110750377A true CN110750377A (zh) 2020-02-04

Family

ID=69276039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910840824.2A Pending CN110750377A (zh) 2019-09-06 2019-09-06 一种故障定位方法及装置

Country Status (1)

Country Link
CN (1) CN110750377A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488265A (zh) * 2020-04-27 2020-08-04 北京奇艺世纪科技有限公司 故障预测方法、装置、设备及可读存储介质
CN111611146A (zh) * 2020-06-18 2020-09-01 南方电网科学研究院有限责任公司 一种微服务故障预测方法和装置
CN111897683A (zh) * 2020-07-10 2020-11-06 广东小天才科技有限公司 电子设备及其故障修复方法和装置
CN112115032A (zh) * 2020-09-29 2020-12-22 中国银行股份有限公司 一种日志生成方法和装置
CN112381668A (zh) * 2020-11-12 2021-02-19 国家电网公司华中分部 一种用于电网故障的信息抽取方法
CN112418449A (zh) * 2020-10-13 2021-02-26 国网山东省电力公司莘县供电公司 一种供电线路故障定位模型的生成方法、定位方法、装置
CN112988545A (zh) * 2021-04-20 2021-06-18 湖南博匠信息科技有限公司 一种基于深度学习的vpx设备健康控制方法及系统
CN113806178A (zh) * 2021-09-22 2021-12-17 中国建设银行股份有限公司 一种集群节点故障检测方法及装置
CN115225460A (zh) * 2022-07-15 2022-10-21 北京天融信网络安全技术有限公司 故障判定方法、电子设备和存储介质
CN115426276A (zh) * 2022-08-22 2022-12-02 神华准格尔能源有限责任公司 一种露天矿5g重大设备的监测方法及云端服务器
CN117370284A (zh) * 2023-12-08 2024-01-09 和元达信息科技有限公司 一种日志错误数据追踪方法及系统
CN118035061A (zh) * 2024-04-12 2024-05-14 四川华鲲振宇智能科技有限责任公司 基于深度学习的服务器故障预测及自动处理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150149835A1 (en) * 2013-11-26 2015-05-28 International Business Machines Corporation Managing Faults in a High Availability System
CN106291233A (zh) * 2016-07-29 2017-01-04 武汉大学 一种基于卷积神经网络的故障选相方法
CN106650919A (zh) * 2016-12-23 2017-05-10 国家电网公司信息通信分公司 一种基于卷积神经网络的信息系统故障诊断方法及装置
CN110162440A (zh) * 2019-04-12 2019-08-23 平安普惠企业管理有限公司 故障定位的方法、电子装置及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150149835A1 (en) * 2013-11-26 2015-05-28 International Business Machines Corporation Managing Faults in a High Availability System
CN106291233A (zh) * 2016-07-29 2017-01-04 武汉大学 一种基于卷积神经网络的故障选相方法
CN106650919A (zh) * 2016-12-23 2017-05-10 国家电网公司信息通信分公司 一种基于卷积神经网络的信息系统故障诊断方法及装置
CN110162440A (zh) * 2019-04-12 2019-08-23 平安普惠企业管理有限公司 故障定位的方法、电子装置及计算机可读存储介质

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488265A (zh) * 2020-04-27 2020-08-04 北京奇艺世纪科技有限公司 故障预测方法、装置、设备及可读存储介质
CN111611146B (zh) * 2020-06-18 2023-05-16 南方电网科学研究院有限责任公司 一种微服务故障预测方法和装置
CN111611146A (zh) * 2020-06-18 2020-09-01 南方电网科学研究院有限责任公司 一种微服务故障预测方法和装置
CN111897683A (zh) * 2020-07-10 2020-11-06 广东小天才科技有限公司 电子设备及其故障修复方法和装置
CN112115032A (zh) * 2020-09-29 2020-12-22 中国银行股份有限公司 一种日志生成方法和装置
CN112115032B (zh) * 2020-09-29 2023-12-08 中国银行股份有限公司 一种日志生成方法和装置
CN112418449A (zh) * 2020-10-13 2021-02-26 国网山东省电力公司莘县供电公司 一种供电线路故障定位模型的生成方法、定位方法、装置
CN112381668A (zh) * 2020-11-12 2021-02-19 国家电网公司华中分部 一种用于电网故障的信息抽取方法
CN112988545A (zh) * 2021-04-20 2021-06-18 湖南博匠信息科技有限公司 一种基于深度学习的vpx设备健康控制方法及系统
CN112988545B (zh) * 2021-04-20 2021-08-17 湖南博匠信息科技有限公司 一种基于深度学习的vpx设备健康控制方法及系统
CN113806178A (zh) * 2021-09-22 2021-12-17 中国建设银行股份有限公司 一种集群节点故障检测方法及装置
CN115225460B (zh) * 2022-07-15 2023-11-28 北京天融信网络安全技术有限公司 故障判定方法、电子设备和存储介质
CN115225460A (zh) * 2022-07-15 2022-10-21 北京天融信网络安全技术有限公司 故障判定方法、电子设备和存储介质
CN115426276A (zh) * 2022-08-22 2022-12-02 神华准格尔能源有限责任公司 一种露天矿5g重大设备的监测方法及云端服务器
CN115426276B (zh) * 2022-08-22 2024-03-12 神华准格尔能源有限责任公司 一种露天矿5g重大设备的监测方法及云端服务器
CN117370284A (zh) * 2023-12-08 2024-01-09 和元达信息科技有限公司 一种日志错误数据追踪方法及系统
CN117370284B (zh) * 2023-12-08 2024-03-15 和元达信息科技有限公司 一种日志错误数据追踪方法及系统
CN118035061A (zh) * 2024-04-12 2024-05-14 四川华鲲振宇智能科技有限责任公司 基于深度学习的服务器故障预测及自动处理方法及系统

Similar Documents

Publication Publication Date Title
CN110750377A (zh) 一种故障定位方法及装置
US11657309B2 (en) Behavior analysis and visualization for a computer infrastructure
Borghesi et al. Anomaly detection using autoencoders in high performance computing systems
CN111209131B (zh) 一种基于机器学习确定异构系统的故障的方法和系统
CN101632093A (zh) 用于使用统计学分析来管理性能故障的系统和方法
CN108170566A (zh) 产品故障信息处理方法、系统、设备和协同工作平台
JP5933463B2 (ja) ログ生起異常検知装置及び方法
CN111665806A (zh) 基于管理系统的叶片气膜孔的加工方法、装置和管理系统
CN110489317B (zh) 基于工作流的云系统任务运行故障诊断方法与系统
CN111666978B (zh) 一种it系统运维大数据的智能故障预警系统
CN113220534A (zh) 集群多维度异常监控方法、装置、设备及存储介质
CN113704018A (zh) 应用运维数据处理方法、装置、计算机设备及存储介质
CN113487182B (zh) 设备健康状态评估方法、装置、计算机设备和介质
CN108809729A (zh) 一种分布式系统中ctdb服务的故障处理方法及装置
CN115794588A (zh) 内存故障预测方法、装置、系统及监测服务器
CN111913824A (zh) 确定数据链路故障原因的方法及相关设备
CN108039971A (zh) 一种告警方法及装置
CN111193643A (zh) 一种云服务器状态监控系统及方法
CN114238474A (zh) 基于排水系统的数据处理方法、装置、设备及存储介质
US11822578B2 (en) Matching machine generated data entries to pattern clusters
CN114327988A (zh) 一种可视化网络故障关系确定方法和装置
CN110716101B (zh) 电力线路故障定位方法、装置、计算机和存储介质
CN108280008A (zh) 一种针对Hadoop集群异常节点实时监测方法
CN113296994A (zh) 一种基于国产计算平台的故障诊断系统及方法
CN115080286A (zh) 一种网络设备日志异常的发现方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200204

RJ01 Rejection of invention patent application after publication