CN110489260B - 故障识别方法、装置及bmc - Google Patents

故障识别方法、装置及bmc Download PDF

Info

Publication number
CN110489260B
CN110489260B CN201910703044.3A CN201910703044A CN110489260B CN 110489260 B CN110489260 B CN 110489260B CN 201910703044 A CN201910703044 A CN 201910703044A CN 110489260 B CN110489260 B CN 110489260B
Authority
CN
China
Prior art keywords
hardware
fault
fault event
target
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910703044.3A
Other languages
English (en)
Other versions
CN110489260A (zh
Inventor
林震华
陈昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Technologies Co Ltd Chengdu Branch
Original Assignee
New H3C Technologies Co Ltd Chengdu Branch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Technologies Co Ltd Chengdu Branch filed Critical New H3C Technologies Co Ltd Chengdu Branch
Priority to CN201910703044.3A priority Critical patent/CN110489260B/zh
Publication of CN110489260A publication Critical patent/CN110489260A/zh
Application granted granted Critical
Publication of CN110489260B publication Critical patent/CN110489260B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开提供一种故障识别方法、装置及BMC,BMC将服务器触发的故障事件日志按照不同的故障权重关联到相应的目标硬件,从而可以根据预设时长内硬件的硬件故障权重之和来判断该硬件是否出现故障。如此,BMC能够自行识别服务器中的具体硬件是否发生故障。

Description

故障识别方法、装置及BMC
技术领域
本公开涉及故障检测技术领域,具体而言,涉及故障识别方法、装置及BMC。
背景技术
服务器作为数据中心的重要节点,不仅需要追求稳定可靠的性能,还需具有故障诊断功能。目前,服务器通常配置有基板管理控制器(Baseboard Management Controller,BMC),用于对服务器上各种硬件组件(如,CPU、风扇转速、系统温度、电压、电源、功耗等)的健康状况进行监控,当监控到异常时,会产生相应的事件日志并记录。
目前通常采用以下方式进行故障识别:第一,由运维或用户对记录的事件日志进行人工分析来排查故障部件;第二,将监控到的数据发送给外部独立系统进行实时分析,以识别服务器是否存在故障。
然而,第一种方式由于是人工分析,容易出现误判或漏判的情况;第二种方式需要将监控的数据发送到外网,提高了组网的复杂度。
发明内容
有鉴于此,本公开的目的之一在于提供一种故障识别方法、装置及BMC,以至少部分地改善上述问题。
为了达到上述目的,本公开采用如下技术方案:
第一方面,本公开提供一种故障识别方法,应用于服务器中的BMC,所述BMC预存有不同的故障事件日志与所述服务器的各个硬件的关联关系,所述关联关系包括每个所述硬件与关联的每个故障事件日志的第一关联权重;所述方法包括:
当所述服务器触发目标故障事件日志时,确定与所述目标故障事件日志关联的目标硬件,以及每个目标硬件与所述目标故障事件日志关联的第一关联权重;
根据每个目标硬件部件的第一关联权重得到该目标硬件部件与所述目标故障事件日志对应的硬件故障权重;
根据所述服务器的硬件在预设时长内的硬件故障权重之和判断该硬件是否出现故障。
第二方面,本公开提供一种故障识别装置,应用于服务器中的BMC,所述BMC预存有不同的故障事件日志与所述服务器的各个硬件的关联关系,所述关联关系包括每个所述硬件与关联的每个故障事件日志的第一关联权重;所述装置包括:
关联模块,用于当所述服务器触发目标故障事件日志时,确定与所述目标故障事件日志关联的目标硬件,以及每个目标硬件与所述目标故障事件日志关联的第一关联权重;
权重计算模块,用于根据每个目标硬件部件的第一关联权重得到该目标硬件部件与所述目标故障事件日志对应的硬件故障权重;
故障确定模块,用于根据所述服务器的硬件在预设时长内的硬件故障权重之和判断该硬件是否出现故障。
第三方面,本公开提供一种BMC,包括处理器及可读存储介质,所述可读存储介质存储有机器可执行指令,所述机器可执行指令被执行时促使所述处理器实现本公开第一方面提供的故障识别方法。
第四方面,本公开提供一种可读存储介质,其上存储有机器可执行指令,所述机器可执行指令被执行时,实现本公开第一方面提供的故障识别方法。
相较于现有技术,本公开提供的一种故障识别方法、装置及BMC,通过将服务器触发的故障事件日志按照不同的硬件故障权重关联到相应的目标硬件,从而可以根据服务器的硬件在预设时长内的硬件故障权重之和来判断该硬件是否出现故障。如此,BMC能够自行识别服务器中的具体硬件是否发生故障。
附图说明
为了更清楚地说明本公开的技术方案,下面将实施例中所需使用的附图做简单的介绍,应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。
图1为本公开提供的一种BMC的连接关系示意图;
图2为本公开提供的一种故障识别方法的流程示意图;
图3为本公开提供的故障识别方法的又一流程示意图;
图4为图3所示步骤S33的子步骤示意图;
图5为本公开提供的一种BMC的硬件结构示意图;
图6为本公开提供的一种故障识别装置的模块示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开的实施例的技术方案进行清楚、完整的描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本公开实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
请参阅图1,图1是本公开提供的一种服务器10的结构示意图。服务器10包括BMC100及多个硬件,所述多个硬件例如可以是图1示出的CPU(Central Processing Unit,中央处理器)、主板、风扇、传感器、PCIe(Peripheral Component Interconnect express,高速串行计算机总线扩展标准)设备、硬盘、电源、CPLD(Complex Programmable Logic Device,复杂可编程逻辑器件)等。
BMC 100可以实时采集所述多个硬件的状态参数,并将采集的状态参数与预设的门限值作比较,当检测到任意硬件的状态参数超过对应的门限值时,触发生成相应的系统事件日志(System Event Log,SEL)。当所述系统事件日志出现时,表示服务器10可能出现了故障。
除BMC 100之外,服务器10还包括可以从所述多个硬件采集监控数据的软件,例如,服务器10的OS(Operating System,操作系统)、ME(Management Engine,管理引擎)、BIOS(Basic Input Output System,基本输入输出系统)等,BMC 100可以从这些软件获取上述多个硬件的状态参数,以对服务器10的健康状态进行监控。
请参照图2,图2为本实施例提供的一种故障识别方法的流程示意图,该方法可以应用于图1所示的服务器10中的BMC 100。下面对该故障识别方法包括的步骤做详细阐述。
步骤S21,当所述服务器10触发目标故障事件日志时,根据预存的关联关系确定与所述目标故障事件日志关联的目标硬件,以及每个目标硬件与所述目标故障事件日志关联的第一关联权重。
步骤S22,根据每个目标硬件的第一关联权重得到该目标硬件部件与所述目标故障事件日志对应的硬件故障权重。
步骤S23,根据所述服务器的硬件在预设时长内的硬件故障权重之和判断该硬件是否出现故障。
本实施例中,BMC 100预存有不同的故障事件日志分别与服务器10的各个硬件的关联关系,所述关联关系包括每个所述硬件与关联的每个故障事件日志的第一关联权重。
其中,故障事件日志是指服务器10触发生成的系统事件日志。针对服务器10可能触发的每种故障事件日志,可以事先确定哪些硬件出错时会触发该种故障事件日志,并在BMC 100中预存这些硬件与该种故障事件日志的关联关系。针对每种故障事件日志关联的硬件,可以预先统计该硬件触发生成该种故障事件日志的概率大小,从而基于该概率大小设置该硬件与该种故障事件日志的第一关联权重。换言之,一个硬件与一种故障事件日志的第一关联权重,表征的是该硬件触发产生该种故障事件日志的概率。
本实施例中,每种故障事件日志可以与至少一个硬件相关联,每种故障事件日志关联的每个硬件具有与该种故障事件日志对应的第一关联权重。通常,一种故障事件日志关联的各个硬件的第一关联权重之和为100%。
同一硬件可能与不同种类的多个故障事件日志相关联。例如,电源可以与侦测到电源故障、电源预告警、失去电源输入、失去电源输入或超出范围、存在电源输入但超出范围、配置错误、电源冷备份状态、电源冗余、电源冗余丢失、电源风扇故障或不在位等多种类型的故障事件日志关联。又如,内存可以与可修正的ECC(Error Correcting Code,错误检查和纠正)、不可修正的ECC、Parity(奇偶校验)、内存清除失败、内存设备停用、达到可修正的ECC日志记录限制、配置错误、内存异常等多种类型的故障事件日志相关联。
每个硬件分别与不同类型的多个故障事件日志关联的第一关联权重可以相同,也可以不同,具体由实际统计数据或测试数据确定。例如,故障事件日志B和故障事件日志C均与硬件A1关联,其中,硬件A1与故障事件日志B关联的第一关联权重为25%,硬件A1与故障事件日志C关联的第一关联权重为30%。又如,故障事件日志C和故障事件日志D均与硬件A2关联,其中,硬件A2与故障事件日志C关联的第一关联权重为20%,硬件A2与故障事件日志D关联的第一关联权重也为20%。
在本实施例的一种实施方式中,服务器10触发的每个故障事件日志均可以是目标故障事件日志。在此情况下,在步骤S21中,如果BMC 100检测到服务器10触发故障事件日志,则触发的故障事件日志即为目标故障事件日志,BMC 100可以从预存的关联关系中查找与该目标故障事件日志关联的硬件作为目标硬件,并进一步从所述预存的关联关系中查找每个目标硬件与所述目标故障事件日志关联的第一关联权重。
此外,在实际应用中存在如下情形:
有些故障事件日志所对应的异常情况可以通过BMC 100的调节而自行恢复,例如指示CPU温度过高的故障事件日志,BMC 100能够在检测到CPU温度过高时,增大服务器10的风扇的转速,从而提高散热效率以降低CPU温度。当CPU温度降低至设定的门限值以下时,BMC 100可以减小服务器10的风扇转速。可见,对于如CPU温度过高的故障事件日志一样存在抖动情况的故障事件日志,其出现并不意味着服务器10一定出现了硬件故障。而当另一些故障事件日志被触发时,则可以比较明确地确定服务器10出现了硬件故障。
如果将服务器10触发的每个存在抖动情况的故障事件日志都关联到相应的目标硬件,则可能出现误报的情况。因此,在本实施例的又一种实施方式中,可以在BMC 100中预先将上述存在抖动情况的故障事件日志记录为预设日志,则当BMC 100检测到服务器10触发的故障事件日志时,可以先判断触发的故障事件日志是否为所述预设日志,再基于判断结果分别进行处理。详细地,本实施例提供的故障识别方法还可以包括图3所示步骤。
步骤S31,获取所述服务器10的每项监控数据,判断该项监控数据是否超过对应的预设门限值,若是,则基于该项监控数据触发故障事件日志。
步骤S32,判断触发的故障事件日志是否为预设日志。若是,则执行步骤S33,若否,则执行步骤S34。
步骤S33,对所述服务器10触发的该故障事件日志的数量进行统计,在该故障事件日志的统计数量达到第一预设值时,将该故障事件日志确定为所述目标故障事件日志。
例如,如果服务器10触发的故障事件日志B是预设日志,则需要在服务器10触发的故障事件日志B的数量达到第一预设值时,再将故障事件日志B作为目标故障事件日志关联到相应的目标硬件,即基于故障事件日志B执行图2所示的步骤。
步骤S34,将所述触发的故障事件日志确定为所述目标故障事件日志。
例如,如果服务器10触发的故障事件日志C不是预设日志,则可以直接将故障事件日志C作为目标故障事件日志关联到相应的目标硬件,即基于故障事件日志C执行图2所示的步骤。
值得说的是,在图3所示场景中,所述目标故障事件日志可以是与所述预设日志不同的其他故障事件日志(即,不存在抖动情况的故障事件日志),也可以是触发次数达到一定数量的所述预设日志。通过图3所示步骤,可以在一定程度上减少误报,提高故障识别的准确度。
可选地,为了进一步提高故障识别的准确度,可以采用漏斗机制对上述预设日志的数量进行统计。具体地,步骤S33中对所述服务器10触发的该故障事件日志的数量进行统计的步骤,可以通过如图4所示的流程实现:
对每个时间段内触发的该故障事件日志进行统计,并将每个时间段内触发的该故障事件日志的数量累加到该故障事件日志当前的统计数量上。其中,所述统计数量具有一初始值,例如可以为0。在统计过程中,可以按照图4所示流程对每个时间段的统计结果进行处理:
步骤S41,判断当前时间段内触发的该故障事件日志的数量是否为0。若是,则执行步骤S42;若否,则执行步骤S43。
步骤S42,将该故障事件日志当前的统计数量减去第二预设值,并跳转至步骤S46。
其中,所述第二预设值小于所述第一预设值。
步骤S43,在该故障事件日志当前的统计数量上累加之前的时间段内减去的所述第二预设值。
步骤S44,判断该故障事件日志的统计数量是否达到所述第一预设值。若是,则执行步骤S45,并在完成步骤S45时跳转至步骤S46;若否,则执行步骤S46。
步骤S45,将该故障事件日志的统计数量重置为所述初始值。
步骤S46,继续统计下一时间段内触发的该故障事件日志。
下面通过一个例子对图4所示流程进行详细阐述。
假定需要对每分钟内触发的指示CPU温度过高的故障事件日志T进行统计,设定第一预设值为10,第二预设值为1,系统事件日志T的已统计数量的初始值为0。
其中,第1分钟检测到5次故障事件日志T,即故障事件日志T在第1分钟内被触发了5次,则故障事件日志T当前的统计数量为5,小于设定的第一预设值10,故继续对第2分钟内触发的故障事件日志T进行统计。
第2分钟检测到0次故障事件日志T,即故障事件日志T在第1分钟内被触发的次数为0,则将故障事件日志T当前的统计数量5减去第二预设值1,并继续对下一分钟内触发的故障事件日志T进行统计。
第3分钟检测到1次故障事件日志T,则在故障事件日志T当前的统计数量4上累加第3分钟内检测到的值1,得到新的统计数量5;以及,将在第2分钟内减去的第二预设值1累加到故障事件日志T当前的统计数量5上,得到的值为6,小于第一预设值10,继续对下一分钟内触发的故障事件日志T进行统计。
第4分钟检测到0次故障事件日志T,则在故障事件日志T当前的统计数量6减去第二预设值1,得到新的统计数量5,并继续对下一分钟触发的故障事件日志T进行统计。
第5分钟检测到6次故障事件日志T,则在故障事件日志T当前的统计数量5上累加第3分钟内检测到的值6,得到新的统计数量11,并将第4分钟内减去的第二预设值1累加到当前的统计数量11上,得到的值为12,大于第一预设值10,故此时将故障事件日志T确定为目标故障事件日志,以及将故障事件日志T的统计数量重置为初始值0。
其中,当故障事件日志T被确定为目标故障事件日志时,可以按照图2所示步骤将故障事件日志T关联到相应的目标硬件。
本实施例中,在通过步骤S21确定与目标故障事件日志关联的目标硬件及每个目标硬件与该目标故障事件日志关联的第一关联权重后,可以有不同的方式来计算每个目标硬件与该目标故障事件日志对应的硬件故障权重。
在一种实现方式中,对于与所述目标故障事件日志关联的每个目标硬件,可以直接将该目标硬件与所述目标故障事件日志的第一关联权重作为该目标硬件与所述目标故障事件日志对应的硬件故障权重。
以上述的故障事件日志B为例,除硬件A1之外,故障事件日志B还与硬件A3和A4相关联。其中,如上所述,故障事件日志B与硬件A1的第一关联权重为25%,此外,故障事件日志B与硬件A3的第一关联权重为35%,与硬件A4的第一关联权重为40%。
在一个示例中,BMC 100检测到服务器10首次触发的故障事件日志B,并将其确定为目标故障事件日志,则可以按照步骤S21所述,确定首次触发的故障事件日志B关联的目标硬件为硬件A1、A3和A4,并且目标硬件A1、A3和A4关联至首次触发的故障事件日志B的第一关联权重分别为25%、35%和40%,则可以将25%确定为目标硬件A1与首次触发的故障事件日志B对应的硬件故障权重,将35%确定为目标硬件A3与首次触发的故障事件日志B对应的硬件故障权重,将40%确定为目标硬件A4与首次触发的故障事件日志B对应的硬件故障权重。值得说明的是,后续过程中,如BMC 100再次检测到服务器10触发的故障事件日志B,其处理流程与上述的对首次触发的故障事件日志B的处理流程类似。
在采用上述实现方式计算目标硬件的硬件故障权重的情况下,步骤S23的详细实现过程描述如下。
在步骤S23中,预设时长可以根据实际需求进行设定,例如可以是最近的一个周或半个月。在预设时间段内,BMC 100可能检测到服务器10触发的多个目标故障事件日志,所述多个目标故障事件日志的种类可以不全相同。例如,所述多个目标故障事件日志中可以包括5个上述的故障事件日志B及4个故障事件日志C。即,BMC 100在所述预设时长内检测到服务器10触发的5次目标故障事件日志B以及4次目标故障事件日志C。
由于服务器10在预设时长内触发了5次目标故障事件日志B,因此,目标硬件A1具有5个硬件故障权重25%,目标硬件A3具有5个硬件故障权重35%,目标硬件A4具有5个硬件故障权重40%。
假定故障事件日志C与硬件A1、A2及A3关联,如上所述,故障事件日志C与硬件A1的第一关联权重为30%,与硬件A2的第一关联权重为20%,此外,故障事件日志C与硬件A3的第一关联权重为50%。则在预设时长内,BMC 100在每次检测到服务器10触发的目标故障事件日志C时,可以按照步骤S21和步骤S22所述确定与目标故障事件日志C关联的目标硬件为A1、A2和A3,且目标硬件A1、A2和A3与每次触发的目标故障事件日志C对应的硬件故障权重分别为30%、20%、50%。由于服务器10在预设时长内触发了4次目标故障实际日志C,因此,目标硬件A1还具有4个硬件故障权重30%,目标硬件A2具有4个硬件故障权重20%,目标硬件A3还具有4个硬件故障权重50%。
在本实施例中,步骤S23可以通过多种实现方式来判断硬件是否出现故障。
在第一种实施方式中,可以由用户查询服务器10中的特定硬件是否发生故障,为便于理解,下面将用户查询的特定硬件描述为待识别硬件。对于用户查询的待识别硬件,BMC 100查找该待识别硬件在预设时长内的硬件故障权重,并计算查找到的硬件故障权重之和,如果所述硬件故障权重之和达到阈值,则确定该待识别硬件出现故障。
其中,阈值可以根据实际需求进行设置,例如可以通过数据统计的方式来确定。在上述示例中,服务器10在预设时长内触发了5次目标故障事件日志B和4次目标事件日志C。假定阈值为200%,用户查询服务器10的硬件A3是否发生故障,则BMC 100查找硬件A3在预设时长内的硬件故障权重,具体可以查找到5个硬件故障权重35%以及4个硬件故障权重30%,对查找到的各硬件故障权重求和,得到的和为:35%*5+30%*4=295%。可见,硬件A3在预设时长内的硬件故障权重之和达到了阈值200%,因此,BMC 100判定硬件A3出现了故障。
值得说明的是,当服务器10的某个硬件与预设时长内触发的各个目标故障事件日志均不存在关联关系时,用户将无法查找到的该硬件在预设时长内的硬件故障权重,此时,可以默认该硬件在预设时长内的硬件故障权重为0。对应地,该硬件在预设时长内的硬件故障权重之和也为0,没有达到上述的阈值,BMC 100可以确定该硬件没有发生故障。
在第二种实施方式中,可以分别计算服务器10中每个目标硬件在所述预设时长内的硬件故障权重之和,确定该预设时长内硬件故障权重之和最大的目标硬件出现了故障。
以服务器10在预设时长内触发了5次目标故障事件日志B和4次目标事件日志C为例,BMC 100对目标硬件A1在预设时长内的5个硬件故障权重25%及4个硬件故障权重30%进行求和,可以得到目标硬件A1在该预设时长内的硬件故障权重之和为245%。对目标硬件A2在预设时长内的4个硬件故障权重20%进行求和,可以得到目标硬件A2在该预设时长内的硬件故障权重之和为80%。对目标硬件A3在预设时长内的5个硬件故障权重35%以及4个硬件故障权重50%进行求和,可以得到目标硬件A3在该预设时长内的硬件故障权重之和为375%。对目标硬件A4在预设时长内的5个硬件故障权重40%进行求和,可以得到目标硬件A4在该预设时长内的硬件故障权重之和为200%。
因此,可以将上述预设时长内硬件故障权重之和最大的目标硬件A3确定为服务器10的故障硬件。
值得说明的是,在步骤S23的第二种实施方式中,可以根据需要进行设置,以将所述预设时长内硬件故障权重之和最大的一个、两个或多个目标硬件确定为故障硬件。例如,如果设置将硬件故障权重之和最大的两个目标硬件确定为故障硬件,则上述示例中的目标硬件A1和A3均被确定为故障硬件。
当然,在其他实施方式中,BMC 100可以同时采用上述的第一种和第二种实施方式来确定服务器10中的发生故障的硬件。
本实施例中,BMC 100还可以通过另一种实现方式来计算每个目标硬件与该目标故障事件日志对应的硬件故障权重。
详细地,在计算每个目标硬件与某一目标故障事件日志对应的硬件故障权重时,除了考虑该目标故障事件日志与该目标硬件的关联程度,还可以考虑触发该目标故障事件日志的监控数据与服务器故障的关联程度。
在本实施例中,每个故障事件日志均是由服务器10的监控数据触发的,而监控数据与服务器10的故障之间存在一定的关系。因此,可以预先确定服务器10的多项监控数据各自与服务器故障的关联程度并进行记录。例如,针对所述多项监控数据中的每一项,可以预先测试并统计当该项监控数据出现异常时,服务器10出现故障的概率,并根据该概率在BMC 100中设置该项监控数据与服务器10的故障的第二关联权重。换言之,BMC100还可以预存有服务器10的多项监控数据各自与服务器10故障的第二关联权重。
在此情况下,本实施例提供的故障识别方法还可以包括以下步骤:
将触发所述目标故障事件日志的目标监控数据与所述服务器故障的第二关联权重确定为所述目标故障事件日志关联的目标硬件的初始故障权重。
例如上述示例中的故障事件日志B,BMC 100在将所述服务器10触发的故障事件日志B确定为目标故障事件日志时,可以进一步确定故障事件日志B是由监控数据data1触发的,而BMC 100中预存了data1与服务器故障的第二关联权重为30%,因此可以确定与故障事件日志B关联的目标硬件A1、A3和A4的初始故障权重均为30%。
又如上述示例中的故障事件日志C,BMC 100在将服务器10触发的故障事件日志C确定为目标故障事件日志时,可以进一步确定故障事件日志C是由监控数据data2触发的,而BMC 100中预存了data2与服务器故障的第二关联权重为5%。则,可以确定与故障事件日志C关联的目标硬件A1、A2和A3具有初始故障权重5%。
在此情况下,每个目标硬件与目标故障事件日志对应的硬件故障权重根据该目标硬件与该目标故障事件日志对应的初始故障权重及该目标硬件与所述目标故障事件日志的第一关联权重计算得到。在一种可能的实现方式中,可以将所述初始故障权重与所述第一关联权重相加得到所述硬件故障权重。
例如,目标硬件A1与BMC 100每次确定的目标故障事件日志B相对应的硬件故障权重可以由初始故障权30%和第一关联权重25%相加得到,即为55%。类似地,可以得到目标硬件A3与BMC 100每次确定的目标故障事件日志B相对应的硬件故障权重为65%,目标硬件A4与BMC 100每次确定的目标故障事件日志B相对应的硬件故障权重为70%。
又如,目标硬件A1与BMC 100每次确定的目标故障事件日志C相对应的硬件故障权重可以由初始故障权重5%和第一关联权重30%得到,即为35%;类似地,可以得到目标硬件A2与BMC 100每次确定的故障事件日志C相对应的硬件故障权重为25%,目标硬件A3与BMC 100每次确定的目标故障事件日志C相对应的硬件故障权重为55%。
仍旧以上述的在预设时长内触发5次新的故障事件日志B、4次新的故障事件日志C为例,可以计算得到目标硬件A1在所述预设时长内的硬件故障权重之和为55%*5+35%*4=415%,目标硬件A2在所述预设时长内的硬件权重之和为25%*4=100%,目标硬件A3在所述预设时长内的硬件故障权重之和为65%*5+55%*4=545%,目标硬件A4在所述预设时长内的硬件故障权重之和为70%*5=350%。在此情况下,目标硬件A1和A3仍将被确定为故障硬件。
在本实施例中,每个故障事件日志均是由BMC 100将相应的监控数据与预设门限值进行比较而触发产生的,能够触发产生故障事件日志的监控数据通常可以明确指示服务器10是否发生故障。在此将这部分可以明确指示服务器故障的监控数据称为第一预设类型数据。服务器10中还存在无法明确指示服务器故障的监控数据,在此将这部分监控数据称为第二预设类型数据。
例如,ST硬盘的smart模块提供的187号smart信息不为100时,则无法明确指示硬盘的好坏。因此,当ST硬盘的187号smart信息的值不为100时,可以将ST硬盘的所有smart信息视作第二预设类型数据。
又如,HGST硬盘的smart模块提供的197号smart信息和198号smart信息的差值如果大于0,则无法明确指示硬盘的好坏。因此,当HGST硬盘的197号smart信息与198号smart信息之差大于0时,可以将HGST硬盘的所有smart信息均视作第二预设类型数据。
在本实施例中,当一项监控数据是第一预设类型数据时,可以由BMC 100检测该项监控数据是否触发目标故障事件日志,并在触发目标故障事件日志时按照图2所示流程进行处理。当一项监控数据是第二预设类型数据,可以通过预设分类模型对该项监控数据进行处理,以确定所述服务器10的故障硬件。
本实施例中,可以采集服务器10在预设时间段内的第二预设类型数据作为样本数据,并采用随机森林方式对所述样本数据进行训练,从而得到所述预设分类模型。通过随机森林方式训练得到的预设分类模型包括多个决策树,每个决策树包括多个分类节点,每个分类节点以一项监控数据作为分类特征。
其中,采集的第二预设类型数据在所述预设时间段内是变化的,可以计算用于表征所述第二预设类型数据在所述预设时间段内的变化情况的数据(例如方差、最大变化量、最小变化量、变化频率等)作为预设分类模型的一个分类特征,来对预设分类模型进行训练。
在训练得到预设分类模型后,可以使用预先采集的测试数据集对该预设分类模型进行测试,当测试得到的分类准确度满足要求后,可以认为该预设分类模型采用的各个分类特征与服务器故障的关联程度较高。因此,对于该训练得到的预设分类模型所使用的每个分类特征,如果检测到BMC 100中设置有该分类特征对应的监控数据的第二关联权重,则可以增大该第二关联权重,增大的具体比例可以通过测试确定。如此,可以进一步提升故障识别的准确度。
请参照图5,本实施例还提供一种BMC 100的硬件结构示意图。BMC100包括处理器110和可读存储介质120,处理器110和可读存储介质120经由系统总线连接。可读存储介质120存储有机器可执行指令,该机器可执行指令被执行时促使处理器110实现本公开提供的故障识别方法。
请参照图6,图6为本公开提供的一种故障识别装置600的模块示意图,应用于图1所示的服务器10中的BMC 100。故障识别装置600包括至少一个可以以软件形式存储于可读存储介质120中的功能模块。从功能上划分,故障识别装置600可以包括关联模块610、权重计算模块620以及故障确定模块630。
关联模块610用于当所述服务器触发目标故障事件日志时,确定与所述目标故障事件日志关联的目标硬件,以及每个目标硬件与所述目标故障事件日志关联的第一关联权重。
权重计算模块620用于根据每个目标硬件部件的第一关联权重得到该目标硬件部件与所述目标故障事件日志对应的硬件故障权重。
故障确定模块630用于根据服务器100的硬件在预设时长内的硬件故障权重之和判断该硬件是否出现故障。
可选地,BMC 100还可以预存有所述服务器10的多项监控数据各自与服务器故障的第二关联权重。在此情况下,关联模块620还可以用于:
将触发所述目标故障事件日志的目标监控数据与所述服务器故障的第二关联权重确定为所述目标故障事件日志关联的目标硬件的初始故障权重。
对应地,每个目标硬件与所述目标故障事件日志对应的硬件故障权重根据该目标硬件的初始故障权重及该目标硬件与所述目标故障事件日志的第一关联权重计算得到。
关于上述功能模块的描述具体可以参照前文对相关步骤的详细描述,故障识别装置600包括的功能模块可以用于实现上文描述的故障识别方法。
综上所述,本公开提供一种故障识别方法、装置及BMC,通过将服务器触发的故障事件日志按照不同的权重关联到相应的目标硬件,从而可以确定每个目标硬件在预设时长内发生硬件故障的概率大小,进而依据该概率大小来确定服务器的故障硬件。如此,BMC能够自行识别服务器中发生故障的具体硬件并向用户预警。
此外,相较于现有技术中通过人工分析故障事件日志来确定故障硬件的方式,提高了准确度和分析效率;相较于现有技术中将故障事件日志发送给外部独立系统进行分析的方式,降低了所需的组网复杂度。
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种故障识别方法,其特征在于,应用于服务器中的基板管理控制器BMC,所述BMC预存有不同的故障事件日志与所述服务器的各个硬件的关联关系,所述关联关系包括每个所述硬件与关联的每个故障事件日志的第一关联权重;所述方法包括:
获取所述服务器的每项监控数据,判断该项监控数据是否超过对应的预设门限值,若是,则基于该项监控数据触发故障事件日志;若触发的故障事件日志是预设日志,则对所述服务器触发的该故障事件日志的数量进行统计,在该故障事件日志的统计数量达到第一预设值时,将该故障事件日志确定为目标故障事件日志,其中,所述对所述服务器触发的该故障事件日志的数量进行统计的步骤,包括:
对每个时间段内触发的该故障事件日志进行统计,并将每个时间段内触发的该故障事件日志的数量累加到该故障事件日志当前的统计数量上;其中,所述统计数量具有一初始值;在当前时间段内触发的该故障事件日志的数量为0的情况下,将该故障事件日志当前的统计数量减去第二预设值;其中,所述第二预设值小于所述第一预设值;在当前时间段内触发的该故障事件日志的数量不为0的情况下,在该故障事件日志当前的统计数量上累加之前的时间段内减去的所述第二预设值;在该故障事件日志的统计数量达到所述第一预设值时,将该故障事件日志的统计数量重置为所述初始值;
若触发的故障事件日志不是预设日志,则将该故障事件日志确定为所述目标故障事件日志;
当所述服务器触发目标故障事件日志时,根据预存的关联关系确定与所述目标故障事件日志关联的目标硬件,以及每个目标硬件与所述目标故障事件日志关联的第一关联权重;
根据每个目标硬件的第一关联权重得到该目标硬件与所述目标故障事件日志对应的硬件故障权重;
根据所述服务器的硬件在预设时长内的硬件故障权重之和判断该硬件是否出现故障。
2.根据权利要求1所述的方法,其特征在于,所述根据所述服务器的硬件在预设时长内的硬件故障权重之和判断该硬件是否出现故障的步骤,包括:
针对所述服务器中的待识别硬件,查找所述待识别硬件在所述预设时长内的硬件故障权重,并计算查找到的硬件故障权重之和,若所述硬件故障权重之和达到阈值,则确定所述待识别硬件出现故障;和/或,
分别计算每个目标硬件在所述预设时长内的硬件故障权重之和,确定该预设时长内硬件故障权重之和最大的目标硬件出现故障。
3.根据权利要求1或2所述的方法,其特征在于,所述BMC还预存有所述服务器的多项监控数据各自与服务器故障的第二关联权重;所述方法还包括:
将触发所述目标故障事件日志的目标监控数据与所述服务器故障的第二关联权重确定为所述目标故障事件日志关联的目标硬件的初始故障权重;
其中,每个目标硬件与所述目标故障事件日志对应的硬件故障权重根据该目标硬件的初始故障权重及该目标硬件与所述目标故障事件日志的第一关联权重计算得到。
4.根据权利要求1所述的方法,其特征在于,所述获取所述服务器的每项监控数据的步骤,包括:
在获取的一项监控数据是第一预设类型数据的情况下,执行所述判断该项监控数据是否超过对应的预设门限值的步骤;
在获取的一项监控数据是第二预设类型数据的情况下,通过预设分类模型对该项监控数据进行处理,确定所述服务器的故障硬件。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
采集所述服务器在预设时间段内的所述第二预设类型数据作为样本数据;
采用随机森林方式对所述样本数据进行训练,得到所述预设分类模型;其中,所述预设分类模型的分类特征包括表征所述第二预设类型数据在所述预设时间段内的变化情况的数据。
6.根据权利要求4或5所述的方法,其特征在于,所述方法还包括:
通过一测试数据集对所述预设分类模型进行测试;
当测试准确度达到预设比例时,确定所述预设分类模型当前使用的分类特征所对应的监控数据,如果确定的监控数据具有第二关联权重,则增大所述确定的监控数据的第二关联权重。
7.一种故障识别装置,其特征在于,应用于服务器中的BMC,所述BMC预存有不同的故障事件日志与所述服务器的各个硬件的关联关系,所述关联关系包括每个所述硬件与关联的每个故障事件日志的第一关联权重;所述装置包括:
获取所述服务器的每项监控数据,判断该项监控数据是否超过对应的预设门限值,若是,则基于该项监控数据触发故障事件日志;若触发的故障事件日志是预设日志,则对所述服务器触发的该故障事件日志的数量进行统计,在该故障事件日志的统计数量达到第一预设值时,将该故障事件日志确定为目标故障事件日志,其中,所述对所述服务器触发的该故障事件日志的数量进行统计的步骤,包括:
对每个时间段内触发的该故障事件日志进行统计,并将每个时间段内触发的该故障事件日志的数量累加到该故障事件日志当前的统计数量上;其中,所述统计数量具有一初始值;在当前时间段内触发的该故障事件日志的数量为0的情况下,将该故障事件日志当前的统计数量减去第二预设值;其中,所述第二预设值小于所述第一预设值;在当前时间段内触发的该故障事件日志的数量不为0的情况下,在该故障事件日志当前的统计数量上累加之前的时间段内减去的所述第二预设值;在该故障事件日志的统计数量达到所述第一预设值时,将该故障事件日志的统计数量重置为所述初始值;
若触发的故障事件日志不是预设日志,则将该故障事件日志确定为所述目标故障事件日志;
关联模块,用于当检测到所述服务器触发的目标故障事件日志时,根据预存的关联关系确定与所述目标故障事件日志关联的目标硬件,以及每个目标硬件与所述目标故障事件日志关联的第一关联权重;
权重计算模块,用于根据每个目标硬件部件的第一关联权重得到该目标硬件部件与所述目标故障事件日志对应的硬件故障权重;
故障确定模块,用于根据所述服务器的硬件在预设时长内的硬件故障权重之和判断该硬件是否出现故障。
8.根据权利要求7所述的装置,其特征在于,所述BMC还预存有所述服务器的多项监控数据各自与服务器故障的第二关联权重;所述关联模块,还用于:
将触发所述目标故障事件日志的目标监控数据与所述服务器故障的第二关联权重确定为所述目标故障事件日志关联的目标硬件的初始故障权重;
其中,每个目标硬件与所述目标故障事件日志对应的硬件故障权重根据该目标硬件的初始故障权重及该目标硬件与所述目标故障事件日志的第一关联权重计算得到。
9.一种BMC,其特征在于,包括处理器及可读存储介质,所述可读存储介质存储有机器可执行指令,所述机器可执行指令被执行时促使所述处理器实现权利要求1-6中任意一项所述的故障识别方法。
10.一种可读存储介质,其特征在于,其上存储有机器可执行指令,所述机器可执行指令被执行时,实现权利要求1-6中任意一项所述的故障识别方法。
CN201910703044.3A 2019-07-31 2019-07-31 故障识别方法、装置及bmc Active CN110489260B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910703044.3A CN110489260B (zh) 2019-07-31 2019-07-31 故障识别方法、装置及bmc

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910703044.3A CN110489260B (zh) 2019-07-31 2019-07-31 故障识别方法、装置及bmc

Publications (2)

Publication Number Publication Date
CN110489260A CN110489260A (zh) 2019-11-22
CN110489260B true CN110489260B (zh) 2023-03-24

Family

ID=68549150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910703044.3A Active CN110489260B (zh) 2019-07-31 2019-07-31 故障识别方法、装置及bmc

Country Status (1)

Country Link
CN (1) CN110489260B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110879543B (zh) * 2019-12-31 2022-04-15 清华四川能源互联网研究院 一种电力系统的实时混合仿真平台
CN111338908A (zh) * 2020-03-10 2020-06-26 山东超越数控电子股份有限公司 一种基于bmc自动调整部件监控周期的方法
CN113553243A (zh) * 2020-04-24 2021-10-26 捷普科技(上海)有限公司 远端侦错方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009230533A (ja) * 2008-03-24 2009-10-08 Nec Computertechno Ltd 故障解析機能を備えた情報処理装置、故障解析方法及び故障解析プログラム
CN109284251A (zh) * 2018-08-14 2019-01-29 平安普惠企业管理有限公司 日志管理方法、装置、计算机设备以及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391765A (zh) * 2014-10-27 2015-03-04 浪潮电子信息产业股份有限公司 一种自动诊断服务器启动故障的方法
CN105721187B (zh) * 2014-12-03 2018-12-07 中国移动通信集团江苏有限公司 一种业务故障诊断方法及装置
IN2015CH04995A (zh) * 2015-09-18 2015-10-09 Wipro Ltd
GB201621434D0 (en) * 2016-12-16 2017-02-01 Palantir Technologies Inc Processing sensor logs
US11354301B2 (en) * 2017-11-13 2022-06-07 LendingClub Bank, National Association Multi-system operation audit log
CN109840157A (zh) * 2017-11-28 2019-06-04 中国移动通信集团浙江有限公司 故障诊断的方法、装置、电子设备和存储介质
CN109981328B (zh) * 2017-12-28 2022-02-25 中国移动通信集团陕西有限公司 一种故障预警方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009230533A (ja) * 2008-03-24 2009-10-08 Nec Computertechno Ltd 故障解析機能を備えた情報処理装置、故障解析方法及び故障解析プログラム
CN109284251A (zh) * 2018-08-14 2019-01-29 平安普惠企业管理有限公司 日志管理方法、装置、计算机设备以及存储介质

Also Published As

Publication number Publication date
CN110489260A (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
US9672085B2 (en) Adaptive fault diagnosis
CN110489260B (zh) 故障识别方法、装置及bmc
CN109783262B (zh) 故障数据处理方法、装置、服务器及计算机可读存储介质
US8352789B2 (en) Operation management apparatus and method thereof
US8635498B2 (en) Performance analysis of applications
CN111010291B (zh) 业务流程异常告警方法、装置、电子设备及存储介质
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
US9547545B2 (en) Apparatus and program for detecting abnormality of a system
US9658908B2 (en) Failure symptom report device and method for detecting failure symptom
CN110286656B (zh) 一种错误数据容忍的虚警过滤方法和装置
CN111722952A (zh) 业务系统的故障分析方法、系统、设备和存储介质
CN110727533A (zh) 一种告警的方法、装置、设备和介质
CN112286771A (zh) 一种针对全域资源监控的告警方法
JP6482743B1 (ja) リスク評価装置、リスク評価システム、リスク評価方法、及び、リスク評価プログラム
CN113689911A (zh) 一种故障诊断方法、装置、设备及可读存储介质
CN115794588A (zh) 内存故障预测方法、装置、系统及监测服务器
Zhu et al. Automatic fault diagnosis in cloud infrastructure
CN115766402B (zh) 服务器故障根因的过滤方法和装置、存储介质及电子装置
WO2019049521A1 (ja) リスク評価装置、リスク評価システム、リスク評価方法、リスク評価プログラム、及び、データ構造
US20170302506A1 (en) Methods and apparatus for fault detection
AU2014200806B1 (en) Adaptive fault diagnosis
CN111309584A (zh) 数据处理方法、装置、电子设备及存储介质
CN116126574A (zh) 一种系统故障诊断方法、装置、设备及存储介质
CN114610560B (zh) 系统异常监控方法、装置和存储介质
JP6907622B2 (ja) 障害監視装置、障害監視システムおよびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant