CN115766402B - 服务器故障根因的过滤方法和装置、存储介质及电子装置 - Google Patents
服务器故障根因的过滤方法和装置、存储介质及电子装置 Download PDFInfo
- Publication number
- CN115766402B CN115766402B CN202310030520.6A CN202310030520A CN115766402B CN 115766402 B CN115766402 B CN 115766402B CN 202310030520 A CN202310030520 A CN 202310030520A CN 115766402 B CN115766402 B CN 115766402B
- Authority
- CN
- China
- Prior art keywords
- target
- alarm
- fault
- fault alarm
- target fault
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000001914 filtration Methods 0.000 title claims abstract description 23
- 230000007257 malfunction Effects 0.000 claims abstract description 9
- 238000011084 recovery Methods 0.000 claims description 103
- 238000013145 classification model Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 2
- 230000008439 repair process Effects 0.000 abstract description 14
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 10
- 238000003745 diagnosis Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Abstract
本申请公开了一种服务器故障根因的过滤方法和装置、存储介质及电子装置,涉及计算机技术领域,该服务器故障根因的过滤方法包括:获取服务器中产生的目标故障告警;根据目标故障告警携带的第一告警信息对目标故障告警进行分类,得到目标告警类型,其中,故障告警的告警类型包括:根因告警和关联告警,根因告警用于指示对应的故障告警是引起服务器故障的根本原因,关联告警用于指示对应的故障告警是由所关联的属于根因告警的故障告警引起的;根据目标告警类型确定是否上报目标故障告警,采用上述技术方案,解决了相关技术中,服务器故障修复的效率较低等问题。
Description
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种服务器故障根因的过滤方法和装置、存储介质及电子装置。
背景技术
目前,在存储、服务器、云数中心、IT、嵌入式计数等等领域,所有智能器件都依赖于固件、系统的稳定。在上述场景中,在研发、测试、客户业务运行过程中,当设备软硬件系统发生错误、故障时,一般处理流程需要经过错误探测、故障诊断、故障修复、故障告警报告。但是由于计算机系统软硬件越来越复杂,系统中特性、服务依赖深度较大,问题发生后多个服务、特性都会产生故障传导并触发多个服务、特性重复报告故障告警。
当前现状有如下明显缺陷:1、引发大量的服务工单,引发客户恐慌,导致设备、服务提供商的直接、间接经济损失;2、大量告警上报后,客户、服务需要人工判断故障根因,再针对根因完成故障修复;增大了RTO(Recovery Time Objective,恢复时间目标)/RPO(Recovery Point Objective,恢复点目标)。
针对相关技术中,服务器故障修复的效率较低等问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种服务器故障根因的过滤方法和装置、存储介质及电子装置,以至少解决相关技术中,服务器故障修复的效率较低等问题。
根据本申请实施例的一个实施例,提供了一种服务器故障根因的过滤方法,包括:
获取服务器中产生的目标故障告警;
根据所述目标故障告警携带的第一告警信息对所述目标故障告警进行分类,得到目标告警类型,其中,故障告警的告警类型包括:根因告警和关联告警,所述根因告警用于指示对应的故障告警是引起所述服务器故障的根本原因,所述关联告警用于指示对应的故障告警是由所关联的属于所述根因告警的故障告警引起的;
根据所述目标告警类型确定是否上报所述目标故障告警。
可选的,所述根据所述目标故障告警携带的第一告警信息对所述目标故障告警进行分类,得到目标告警类型,包括:
从所述目标故障告警中查找关联告警字段,其中,所述关联告警字段用于指示所述目标故障告警是否为所述关联告警,所述第一告警信息包括所述关联告警字段;
在所述关联告警字段用于指示所述目标故障告警为所述关联告警的情况下,确定所述目标告警类型为所述关联告警;
在所述关联告警字段用于指示所述目标故障告警不为所述关联告警的情况下,确定所述目标告警类型为所述根因告警。
可选的,所述根据所述目标故障告警携带的第一告警信息对所述目标故障告警进行分类,得到目标告警类型,包括:
从所述目标故障告警中提取目标告警特征,其中,所述目标告警特征用于指示所述目标故障告警的发生原因,所述第一告警信息包括所述目标告警特征;
根据所述目标告警特征对所述目标故障告警进行分类,得到所述目标告警类型。
可选的,所述根据所述目标告警特征对所述目标故障告警进行分类,得到所述目标告警类型,包括:
在所述目标告警特征用于指示所述目标故障告警的发生原因为其他故障告警的情况下,确定所述目标告警类型为所述关联告警;
在所述目标告警特征用于指示所述目标故障告警的发生原因为所述服务器中的硬件设备的情况下,确定所述目标告警类型为所述根因告警。
可选的,所述根据所述目标故障告警携带的第一告警信息对所述目标故障告警进行分类,得到目标告警类型,包括:
将所述目标故障告警输入目标告警分类模型,其中,所述目标告警分类模型是使用标注了所述根因告警的第一告警样本和标注了所述关联告警类型的第二告警样本对初始告警分类模型进行训练得到的;
获取所述目标告警分类模型输出的所述目标告警类型。
可选的,所述根据所述目标告警类型确定是否上报所述目标故障告警,包括:
在所述目标告警类型为所述根因告警的情况下,上报所述目标故障告警;
在所述目标告警类型为所述关联告警的情况下,根据所述目标故障告警携带的第二告警信息确定是否上报所述目标故障告警。
可选的,所述根据所述目标故障告警携带的第二告警信息确定是否上报所述目标故障告警,包括:
获取所述目标故障告警对应的目标关联周期,其中,所述目标关联周期用于指示与所述目标故障告警具有关联关系的属于所述根因告警的目标关联故障告警所在的时间区间;
在所述目标故障告警的获取时间前后所述目标关联周期的时间范围内查找是否获取到所述目标关联故障告警;
在查找到所述目标关联故障告警的情况下,忽略所述目标故障告警;
在未查找到所述目标关联故障告警的情况下,上报所述目标故障告警。
可选的,在所述目标故障告警的获取时间前后所述目标关联周期的时间范围内查找是否获取到所述目标关联故障告警之前,所述方法还包括以下之一:
从具有对应关系的故障告警和关联故障告警中查找所述目标故障告警对应的所述目标关联故障告警;
从所述目标故障告警中提取关联故障告警字段,其中,所述关联故障告警字段用于记录与所述目标故障告警具有关联关系的属于所述根因告警的目标关联故障告警。
可选的,在所述根据所述目标告警类型确定是否上报所述目标故障告警之后,所述方法还包括:
根据所述目标故障告警携带的第三告警信息确定所述目标故障告警对应的恢复时机;
在检测到所述服务器达到所述恢复时机的情况下,恢复所述目标故障告警。
可选的,根据所述目标故障告警携带的第三告警信息确定所述目标故障告警对应的恢复时机,包括:
从所述目标故障告警中查找重启恢复字段,其中,所述重启恢复字段用于指示产生所述目标故障告警的目标设备重启后所述目标故障告警是否恢复,所述第三告警信息包括所述重启恢复字段;
在所述重启恢复字段用于指示产生所述目标故障告警的目标设备重启后所述目标故障告警恢复的情况下,确定所述恢复时机为所述目标设备重启。
可选的,在检测到所述服务器达到所述恢复时机的情况下,恢复所述目标故障告警,包括:
检测所述目标设备是否被执行重启操作;
在检测到所述目标设备被执行所述重启操作且所述目标设备重启成功的情况下,恢复所述目标故障告警。
可选的,在所述从所述目标故障告警中查找重启恢复字段之后,所述方法还包括:
在所述重启恢复字段用于指示产生所述目标故障告警的目标设备重启后所述目标故障告警不恢复的情况下,从所述目标故障告警中查找设备标识字段,其中,所述设备标识字段用于指示产生所述目标故障告警的所述目标设备的目标设备标识;
确定所述恢复时机为所述目标设备所在位置上的设备标识更换。
可选的,在检测到所述服务器达到所述恢复时机的情况下,恢复所述目标故障告警,包括:
检测所述目标设备所在位置上的设备标识;
在检测到所述目标设备所在位置上的设备标识从所述目标设备标识更换为参考设备标识的情况下,恢复所述目标故障告警。
可选的,所述获取服务器中产生的目标故障告警,包括:
在检测到所述服务器中发生故障的情况下,采集所述故障的目标故障数据;
根据所述目标故障数据对所述故障的告警源进行定位,得到目标告警源;
根据所述目标告警源对所述故障进行恢复;
在所述故障恢复失败的情况下,生成所述目标故障告警。
可选的,所述采集所述故障的目标故障数据,包括:
对所述故障进行目标次数的重试;
在重试失败的情况下,采集所述故障的初始故障数据;
剔除所述初始故障数据中超出目标数据区间的数据,得到参考故障数据;
对所述参考故障数据进行平均数运算,得到所述目标故障数据。
可选的,所述根据所述目标故障数据对所述故障的告警源进行定位,得到目标告警源,包括:
从具有对应关系的故障数据和故障原因中获取所述目标故障数据对应的故障原因作为候选故障原因;
根据所述服务器中设备的拓扑关系和所述目标故障数据从所述候选故障原因中查找目标故障原因;
将所述目标故障原因在所述服务器中对应的现场可更换单元FRU确定为所述目标告警源。
可选的,所述根据所述服务器中设备的拓扑关系和所述目标故障数据从所述候选故障原因中查找目标故障原因,包括:
从所述服务器中设备的拓扑关系中查找所述目标故障数据对应的目标拓扑关系;
根据所述目标拓扑关系中设备的运行状态对所述候选故障原因进行排查,得到所述目标故障原因。
可选的,所述根据所述目标告警源对所述故障进行恢复,包括:
从具有对应关系的告警源和恢复流程中获取所述目标告警源对应的目标恢复流程;
在获取到所述目标恢复流程的情况下,执行所述目标恢复流程;
在未获取到所述目标恢复流程,或者,所述目标恢复流程执行失败的情况下,确定所述故障恢复失败。
可选的,所述生成所述目标故障告警,包括:
判断所述目标故障数据是否落入告警阈值范围内;
在所述目标故障数据落入所述告警阈值范围内的情况下,生成所述目标故障告警。
根据本申请实施例的另一个实施例,还提供了一种服务器故障根因的过滤装置,包括:
获取模块,用于获取服务器中产生的目标故障告警;
分类模块,用于根据所述目标故障告警携带的第一告警信息对所述目标故障告警进行分类,得到目标告警类型,其中,故障告警的告警类型包括:根因告警和关联告警,所述根因告警用于指示对应的故障告警是引起所述服务器故障的根本原因,所述关联告警用于指示对应的故障告警是由所关联的属于所述根因告警的故障告警引起的;
第一确定模块,用于根据所述目标告警类型确定是否上报所述目标故障告警。
根据本申请实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述服务器故障根因的过滤方法。
根据本申请实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的服务器故障根因的过滤方法。
在本申请实施例中,获取服务器中产生的目标故障告警;根据目标故障告警携带的第一告警信息对目标故障告警进行分类,得到目标告警类型,其中,故障告警的告警类型包括:根因告警和关联告警,根因告警用于指示对应的故障告警是引起服务器故障的根本原因,关联告警用于指示对应的故障告警是由所关联的属于根因告警的故障告警引起的;根据目标告警类型确定是否上报目标故障告警,即首先获取服务器中产生的目标故障告警,然后根据目标故障告警携带的第一告警信息对目标故障告警进行分类,得到目标告警类型,目标告警类型包括根因告警和关联告警,其中,根因告警用于指示对应的故障告警是引起服务器故障的根本原因,关联告警用于指示对应的故障告警是由所关联的属于根因告警的故障告警引起的,最后根据目标告警类型确定是否上报目标故障告警,避免了大量关联告警上报导致降低服务器故障修复的效率的情况出现。采用上述技术方案,解决了相关技术中,服务器故障修复的效率较低等问题,实现了提高服务器故障修复的效率的技术效果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例的一种服务器故障根因的过滤方法的硬件环境示意图;
图2是根据本申请实施例的一种服务器故障根因的过滤方法的流程图;
图3是根据本申请实施例的一种目标故障告警的产生的示意图;
图4是根据本申请实施例的一种目标告警源的定位的示意图;
图5是根据本申请实施例的一种目标故障告警的数据库的示意图;
图6是根据本申请实施例的一种服务器故障根因的过滤装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请实施例所提供的方法实施例可以在计算机终端、设备终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是根据本申请实施例的一种服务器故障根因的过滤方法的硬件环境示意图。如图1所示,计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,在一个示例性实施例中,上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示等同功能或比图1所示功能更多的不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的服务器故障根因的过滤方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种服务器故障根因的过滤方法,应用于上述计算机终端,图2是根据本申请实施例的一种服务器故障根因的过滤方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,获取服务器中产生的目标故障告警;
步骤S204,根据所述目标故障告警携带的第一告警信息对所述目标故障告警进行分类,得到目标告警类型,其中,故障告警的告警类型包括:根因告警和关联告警,所述根因告警用于指示对应的故障告警是引起所述服务器故障的根本原因,所述关联告警用于指示对应的故障告警是由所关联的属于所述根因告警的故障告警引起的;
步骤S206,根据所述目标告警类型确定是否上报所述目标故障告警。
通过上述步骤,首选获取服务器中产生的目标故障告警,然后根据目标故障告警携带的第一告警信息对目标故障告警进行分类,得到目标告警类型,目标告警类型包括根因告警和关联告警,其中,根因告警用于指示对应的故障告警是引起服务器故障的根本原因,关联告警用于指示对应的故障告警是由所关联的属于根因告警的故障告警引起的,最后根据目标告警类型确定是否上报目标故障告警,避免了大量关联告警上报导致降低服务器故障修复的效率的情况出现。采用上述技术方案,解决了相关技术中,服务器故障修复的效率较低等问题,实现了提高服务器故障修复的效率的技术效果。
在上述步骤S202提供的技术方案中,获取服务器中产生的目标故障告警。
可选地,在本实施例中,目标故障告警可以但不限于为服务器产生的关于任何器件、硬件异常的告警,硬件可以但不限于包括主板,机箱等等部件或者设备。
可选地,在本实施例中,上述多个设备可以构成一个业务集群,每个设备节点上部署了各种服务,这些服务之间也有软硬件依赖关系。
在一个示例性实施例中,可以但不限于通过以下方式获取服务器中产生的目标故障告警:在检测到所述服务器中发生故障的情况下,采集所述故障的目标故障数据;根据所述目标故障数据对所述故障的告警源进行定位,得到目标告警源;根据所述目标告警源对所述故障进行恢复;在所述故障恢复失败的情况下,生成所述目标故障告警。
可选地,在本实施例中,图3是根据本申请实施例的一种目标故障告警的产生的示意图,如图3所示,在检测到服务器中发生故障的情况下,通过硬件采集过滤层采集故障的目标故障数据,基于目标故障数据通过故障诊断过滤层根据目标故障数据对故障的告警源进行定位,得到目标告警源,然后通过故障修复过滤层根据目标告警源对故障进行恢复,在故障恢复失败的情况下,生成目标故障告警。
可选地,在本实施例中,目标故障数据可以但不限于包括硬件采集过滤层采集到的硬件感知层感知到的数据,比如:硬件的温度,电压,RAS(Reliability,Availabilityand Serviceability,可靠性可用性和可维护性)信号等等。
可选地,在本实施例中,如图3所示,从最底层开始的硬件感知层提供器件、部件、主板、机箱的基本硬件信息能力;多个设备节点构成一个业务集群;每个设备节点上部署了各种服务,这些服务之间也有软硬件依赖关系;在节点机箱管理服务、业务管理服务之上是集群管理(CM,Cluster Mangement)。在集群管理层,需要将各个节点的故障告警信息汇聚,然后再通过设计的告警依赖关系进行告警抑制、根因告警过滤器抑制告警;也可以通过智能推理过滤器进行告警抑制、根因告警;在上述根因告警过滤框架中,通过四个过滤层次完成根因的层层阻断,最终完成根因告警方案的实现。
在一个示例性实施例中,可以但不限于通过以下方式采集所述故障的目标故障数据:对所述故障进行目标次数的重试;在重试失败的情况下,采集所述故障的初始故障数据;剔除所述初始故障数据中超出目标数据区间的数据,得到参考故障数据;对所述参考故障数据进行平均数运算,得到所述目标故障数据。
可选地,在本实施例中,对所述故障进行目标次数的重试;在重试失败的情况下,采集所述故障的初始故障数据可以但不限于是指对于一个故障,可以通过失败多次重试再报错到故障诊断层,过滤器件,避免因环境干扰等出现的瞬时故障;
可选地,在本实施例中,剔除所述初始故障数据中超出目标数据区间的数据,得到参考故障数据可以但不限于是指设置数据合理区间,超过合理区间数据判断为假值丢弃方式剔除瞬时假值,不上报故障诊断层;
可选地,在本实施例中,对所述参考故障数据进行平均数运算,得到所述目标故障数据可以但不限于是指通过平均数算法,对数据取平均数之后再上报到故障诊断层。
在一个示例性实施例中,可以但不限于通过以下方式根据所述目标故障数据对所述故障的告警源进行定位,得到目标告警源:从具有对应关系的故障数据和故障原因中获取所述目标故障数据对应的故障原因作为候选故障原因;根据所述服务器中设备的拓扑关系和所述目标故障数据从所述候选故障原因中查找目标故障原因;将所述目标故障原因在所述服务器中对应的现场可更换单元FRU确定为所述目标告警源。
可选地,在本实施例中,图4是根据本申请实施例的一种目标告警源的定位的示意图,如图4所示,从具有对应关系的故障数据和故障原因中获取所述目标故障数据对应的故障原因作为候选故障原因,比如,主板A 的机箱管理服务硬件采集过滤层采集到目标故障数据指示FRU N(FRU,Field Replace Unit,现场可更换单元)上的IIC(Inter-IntegratedCircuit,集成电路总线)传感器D失败,对应的候选故障原因可能包括:
1、主板A的MCU B IIC控制器故障;
2、主板A到IIC switch的IIC1 通道故障;
3、IIC switch C芯片故障;
4、IIC switch C 到FRU N上的IIC 2 通道故障;
5、FRU N IIC 传感器D故障。
根据所述服务器中设备的拓扑关系(主板A的MCU B通过IIC 1与IIC Switch C连接,IIC Switch C通过IIC 2与FRU N中的传感器D连接,IIC Switch C通过IIC 3与FRU N中的传感器E连接,IIC Switch C通过IIC 4与FRU M中的传感器F连接)和所述目标故障数据从所述候选故障原因中查找目标故障原因;将所述目标故障原因在所述服务器中对应的现场可更换单元FRU确定为所述目标告警源。
在一个示例性实施例中,可以但不限于通过以下方式根据所述服务器中设备的拓扑关系和所述目标故障数据从所述候选故障原因中查找目标故障原因:从所述服务器中设备的拓扑关系中查找所述目标故障数据对应的目标拓扑关系;根据所述目标拓扑关系中设备的运行状态对所述候选故障原因进行排查,得到所述目标故障原因。
可选地,在本实施例中,根据所述目标拓扑关系中设备的运行状态对所述候选故障原因进行排查,得到所述目标故障原因,如图4所示,比如,
已知MCU B的上述硬件拓扑,如果硬件采集过滤层报告MCU B访问传感器D、传感器E、传感器F均失败,则判定主板A的IIC 1 故障,报告主板A IIC 1通道故障,目标故障原因可能包括:
1、主板A的MCU B IIC控制器故障;
2、主板A到IIC switch的IIC1 通道故障
3、IIC switch C芯片故障。
已知MCU B的上述硬件拓扑,如果硬件采集过滤层报告MCU B访问传感器D、传感器E、传感器F中某一个故障,另外两个传感器访问正常,则判断为FRU 传感器访问故障,目标故障原因可能包括:
1、IIC switch C 到FRU N上的IIC 2 通道故障;
2、FRU N IIC 传感器D故障。
在一个示例性实施例中,可以但不限于通过以下方式根据所述目标告警源对所述故障进行恢复:从具有对应关系的告警源和恢复流程中获取所述目标告警源对应的目标恢复流程;在获取到所述目标恢复流程的情况下,执行所述目标恢复流程;在未获取到所述目标恢复流程,或者,所述目标恢复流程执行失败的情况下,确定所述故障恢复失败。
可选地,在本实施例中,如图3所示,将所述目标故障原因在所述服务器中对应的现场可更换单元FRU确定为所述目标告警源,目标告警源在故障修复过滤层获取目标告警源对应的目标恢复流程,在获取到所述目标恢复流程的情况下,执行所述目标恢复流程,故障修复过滤层负责对误入异常状态的软硬件系统进行自动恢复,避免事态异常呆滞、扩大,比如,1、状态机因某种低概率触发原因进入到异常状态无法完成正常协商,设备无法正常接入系统。可以通过retraining(再训练)机制、或者对端点设备下电上电重启训练协商,将设备接入系统,提升了设备可用性,避免产生告警;2、对于某些IIC总线因某器件/环境瞬时异常拉死,导致IIC器件访问失败。可以通过复位IIC设备树等措施,将IIC总线恢复。
在一个示例性实施例中,可以但不限于通过以下方式生成所述目标故障告警:判断所述目标故障数据是否落入告警阈值范围内;在所述目标故障数据落入所述告警阈值范围内的情况下,生成所述目标故障告警。
可选地,在本实施例中,告警阈值范围需要设置合理,如温度/电压的回差设计,避免告警反复发生的乒乓效应。例如,某温度的告警值为39摄氏度,告警恢复值设定为37摄氏度。当真实温度在39摄氏度上下徘徊时,就可以产生稳定告警而不导致告警/恢复反复产生。
在上述步骤S204提供的技术方案中,根据所述目标故障告警携带的第一告警信息对所述目标故障告警进行分类,得到目标告警类型,其中,故障告警的告警类型包括:根因告警和关联告警,所述根因告警用于指示对应的故障告警是引起所述服务器故障的根本原因,所述关联告警用于指示对应的故障告警是由所关联的属于所述根因告警的故障告警引起的。
可选地,在本实施例中,如图4所示,假如IIC Switch C发生故障告警,传感器D发生故障告警,并且,IIC Switch C发生故障是引起所述传感器D故障的根本原因,那么,IICSwitch C的故障告警为根因告警,传感器D的故障告警为关联告警。
在一个示例性实施例中,可以但不限于通过以下方式根据所述目标故障告警携带的第一告警信息对所述目标故障告警进行分类,得到目标告警类型:从所述目标故障告警中查找关联告警字段,其中,所述关联告警字段用于指示所述目标故障告警是否为所述关联告警,所述第一告警信息包括所述关联告警字段;在所述关联告警字段用于指示所述目标故障告警为所述关联告警的情况下,确定所述目标告警类型为所述关联告警;在所述关联告警字段用于指示所述目标故障告警不为所述关联告警的情况下,确定所述目标告警类型为所述根因告警。
可选地,在本实施例中,关联告警字段可以但不限于包括告警ID,其中,告警ID可以为告警类型编码,全局唯一,该字段是区分某种告警事件类型的唯一身份索引识别字段。
可选地,在本实施例中,根据关联告警字段可以确定目标故障告警的目标告警类型,目标告警类型可以指示目标故障告警是否对其它告警有关联依赖关系,在目标告警类型指示目标故障告警对其它告警有关联依赖关系,即为关联告警的情况下确定所述目标告警类型为所述关联告警,则需要进一步判断是否有根因告警;如果该告警无依赖,目标故障告警不为所述关联告警的情况下,确定目标告警类型为所述根因告警,可直接上报。
在一个示例性实施例中,可以但不限于通过以下方式根据所述目标故障告警携带的第一告警信息对所述目标故障告警进行分类,得到目标告警类型:从所述目标故障告警中提取目标告警特征,其中,所述目标告警特征用于指示所述目标故障告警的发生原因,所述第一告警信息包括所述目标告警特征;根据所述目标告警特征对所述目标故障告警进行分类,得到所述目标告警类型。
可选地,在本实施例中,对所述目标故障告警进行分类可以但不限于基于目标故障告警对应的目标告警特征进行判定。
在一个示例性实施例中,可以但不限于通过以下方式根据所述目标告警特征对所述目标故障告警进行分类,得到所述目标告警类型:在所述目标告警特征用于指示所述目标故障告警的发生原因为其他故障告警的情况下,确定所述目标告警类型为所述关联告警;在所述目标告警特征用于指示所述目标故障告警的发生原因为所述服务器中的硬件设备的情况下,确定所述目标告警类型为所述根因告警。
可选地,在本实施例中,在所述目标告警特征用于指示所述目标故障告警的发生原因为所述服务器中的硬件设备的情况下,可以但不限于包括硬件的物理损坏,此时可以确定目标告警类型为所述根因告警
在一个示例性实施例中,可以但不限于通过以下方式根据所述目标故障告警携带的第一告警信息对所述目标故障告警进行分类,得到目标告警类型:将所述目标故障告警输入目标告警分类模型,其中,所述目标告警分类模型是使用标注了所述根因告警的第一告警样本和标注了所述关联告警类型的第二告警样本对初始告警分类模型进行训练得到的;获取所述目标告警分类模型输出的所述目标告警类型。
可选地,在本实施例中,目标告警分类模型可以对输入的目标故障告警进行分类,确定目标故障告警的目标告警类型。
在上述步骤S206提供的技术方案中,根据所述目标告警类型确定是否上报所述目标故障告警。
可选地,在本实施例中,是否上报所述目标故障告警取决于目标告警类型,为了避免产生大量的关联告警,干扰系统故障的根本原因判断,加速修复效率,可以将目标告警类型为根因告警的目标故障告警上报。
在一个示例性实施例中,可以但不限于通过以下方式根据所述目标告警类型确定是否上报所述目标故障告警:在所述目标告警类型为所述根因告警的情况下,上报所述目标故障告警;在所述目标告警类型为所述关联告警的情况下,根据所述目标故障告警携带的第二告警信息确定是否上报所述目标故障告警。
可选地,在本实施例中,在所述目标告警类型为所述关联告警的情况下,根据所述目标故障告警携带的第二告警信息确定是否上报所述目标故障告警。
在一个示例性实施例中,可以但不限于通过以下方式根据所述目标故障告警携带的第二告警信息确定是否上报所述目标故障告警:获取所述目标故障告警对应的目标关联周期,其中,所述目标关联周期用于指示与所述目标故障告警具有关联关系的属于所述根因告警的目标关联故障告警所在的时间区间;在所述目标故障告警的获取时间前后所述目标关联周期的时间范围内查找是否获取到所述目标关联故障告警;在查找到所述目标关联故障告警的情况下,忽略所述目标故障告警;在未查找到所述目标关联故障告警的情况下,上报所述目标故障告警。
可选地,在本实施例中,目标关联周期可以但不限于为关联告警根因报告时间区间,如果在关联周期内,根因告警产生,则本告警无效,不需报告;如果在关联周期内根因告警未产生,则本告警有效上报,其中,目标关联周期的具体设计可以根据目标故障告警具有关联关系的属于所述根因告警的目标关联故障告警与目标故障告警上报的时间差。例如,目标故障告警与目标关联故障告警上报的最大可能时间差是1分钟,则关联周期可以设置为1分钟。该属性可以保存在集群告警根因过滤层,目标故障告警对应的事件数据库中,作为该目标故障告警的固有属性,当关联告警报告给CM后,CM需要判断告警报告前后1分钟内是否有根因告警上报,如果有,则关联告警不需要报告,只报告根因告警即可。
在一个示例性实施例中,在所述目标故障告警的获取时间前后所述目标关联周期的时间范围内查找是否获取到所述目标关联故障告警之前,所述方法还包括以下之一:
从具有对应关系的故障告警和关联故障告警中查找所述目标故障告警对应的所述目标关联故障告警;
从所述目标故障告警中提取关联故障告警字段,其中,所述关联故障告警字段用于记录与所述目标故障告警具有关联关系的属于所述根因告警的目标关联故障告警。
可选地,在本实施例中,图5是根据本申请实施例的一种目标故障告警的数据库的示意图,如图5所示,从具有对应关系的故障告警和关联故障告警中查找所述目标故障告警对应的所述目标关联故障告警,比如,已知目标故障告警的告警ID,从具有对应关系的故障告警和关联故障告警中查找所述目标故障告警(告警ID)对应的所述目标关联故障告警(根因告警ID 1和根因告警ID N)。
可选地,在本实施例中,如图5所示,根据关联告警及根因告警具体设计,确定关联告警可能的根因告警。该属性保存在集群告警根因过滤层该告警事件数据库中,作为该告警的固有属性。目标故障告警上报到CM之后,CM在告警根因过滤层依照数据库中保存的根因告警,查找根因告警是否有报告,如果有根因告警,则不需要再报告关联告警,只报告根因告警即可。如果关联告警没有找到根因告警,则关联告警本身就是根因,可以报告。
可选地,在本实施例中,一种目标故障告警的目标告警类型在设计时,先分析清楚该目标故障告警是对问题的根因告警,还是对已有告警有关联依赖,即可能由其它根因告警产生的故障传导结果;确认【是否关联告警】字段的属性,该属性保存在集群告警根因过滤层该告警事件数据库中,作为该告警的固有属性。
在一个示例性实施例中,在所述根据所述目标告警类型确定是否上报所述目标故障告警之后,可以但不限于包括以下方式:根据所述目标故障告警携带的第三告警信息确定所述目标故障告警对应的恢复时机;在检测到所述服务器达到所述恢复时机的情况下,恢复所述目标故障告警。
可选地,在本实施例中,目标故障告警可以通过不同的方式恢复,在检测到所述服务器达到所述恢复时机的情况下,也就是说,检测到对应的恢复事件发生,则恢复所述目标故障告警。
在一个示例性实施例中,可以但不限于通过以下方式根据所述目标故障告警携带的第三告警信息确定所述目标故障告警对应的恢复时机:从所述目标故障告警中查找重启恢复字段,其中,所述重启恢复字段用于指示产生所述目标故障告警的目标设备重启后所述目标故障告警是否恢复,所述第三告警信息包括所述重启恢复字段;在所述重启恢复字段用于指示产生所述目标故障告警的目标设备重启后所述目标故障告警恢复的情况下,确定所述恢复时机为所述目标设备重启。
可选地,在本实施例中,如图5所示,如果从所述目标故障告警中查找重启恢复字段,比如【重启是否恢复】为“是”的情况下,确定所述恢复时机为所述目标设备重启。针对设备重启/上下电特定场景,需要确定【重启是否恢复】字段属性,该属性保存在集群告警根因过滤层该告警事件数据库中,作为该告警的固有属性。如果该告警重启后会恢复,CM需要在设备重启后上报告警已恢复,并更新本地数据库;如果该告警重启后不恢复,则CM在设备重启后不报告告警恢复。
在一个示例性实施例中,可以但不限于通过以下方式在检测到所述服务器达到所述恢复时机的情况下,恢复所述目标故障告警:检测所述目标设备是否被执行重启操作;在检测到所述目标设备被执行所述重启操作且所述目标设备重启成功的情况下,恢复所述目标故障告警。
可选地,在本实施例中,检测所述目标设备是否被执行重启操作,在检测到所述目标设备被执行所述重启操作且所述目标设备重启成功的情况下,表示检测到了恢复时机,则恢复所述目标故障告警。
在一个示例性实施例中,在所述从所述目标故障告警中查找重启恢复字段之后,可以但不限于包括以下方式:在所述重启恢复字段用于指示产生所述目标故障告警的目标设备重启后所述目标故障告警不恢复的情况下,从所述目标故障告警中查找设备标识字段,其中,所述设备标识字段用于指示产生所述目标故障告警的所述目标设备的目标设备标识;确定所述恢复时机为所述目标设备所在位置上的设备标识更换。
可选地,在本实施例中,如图5所示,针对【重启是否恢复】为重启不恢复的告警,表明该告警为硬件/设备故障,不随系统重启而恢复;此类故障必须等客户/服务更换之后才能恢复,因此需要CM收到该位置设备唯一识别信息(如SN)变化告警后,恢复告警;
在一个示例性实施例中,可以但不限于通过以下方式在检测到所述服务器达到所述恢复时机的情况下,恢复所述目标故障告警:检测所述目标设备所在位置上的设备标识;在检测到所述目标设备所在位置上的设备标识从所述目标设备标识更换为参考设备标识的情况下,恢复所述目标故障告警。
可选地,在本实施例中,在检测到所述目标设备所在位置上的设备标识从所述目标设备标识更换为参考设备标识的情况下,说明目标设备已经更换,则恢复所述目标故障告警。
经过上述四层(硬件采集过滤层、故障诊断过滤层、故障修复过滤层、告警根因过滤层),管软客户接口能够对客户/服务提供真正的故障告警,客户/服务能够依据精确的故障告警进行设备维护。通过四层故障过滤,提供了准确的告警报告,有效提高服务的准确性和服务效率;不会因为多告警引发客户恐慌,减少设备、服务提供商的直接、间接经济损失;对故障进行探测、诊断、修复、汇聚、根因诊断、根因告警,确保问题发生后能够进行根因告警,提升问题解决效率,降低RTO、RPO,提升客户满意度。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
图6是根据本申请实施例的一种服务器故障根因的过滤装置的结构框图;如图6所示,包括:
获取模块602,用于获取服务器中产生的目标故障告警;
分类模块604,用于根据所述目标故障告警携带的第一告警信息对所述目标故障告警进行分类,得到目标告警类型,其中,故障告警的告警类型包括:根因告警和关联告警,所述根因告警用于指示对应的故障告警是引起所述服务器故障的根本原因,所述关联告警用于指示对应的故障告警是由所关联的属于所述根因告警的故障告警引起的;
第一确定模块606,用于根据所述目标告警类型确定是否上报所述目标故障告警。
通过上述实施例,首先获取服务器中产生的目标故障告警,然后根据目标故障告警携带的第一告警信息对目标故障告警进行分类,得到目标告警类型,目标告警类型包括根因告警和关联告警,其中,根因告警用于指示对应的故障告警是引起服务器故障的根本原因,关联告警用于指示对应的故障告警是由所关联的属于根因告警的故障告警引起的,最后根据目标告警类型确定是否上报目标故障告警,避免了大量关联告警上报导致降低服务器故障修复的效率的情况出现。采用上述技术方案,解决了相关技术中,服务器故障修复的效率较低等问题,实现了提高服务器故障修复的效率的技术效果。
在一个示例性实施例中,所述分类模块,包括:
第一查找单元,用于从所述目标故障告警中查找关联告警字段,其中,所述关联告警字段用于指示所述目标故障告警是否为所述关联告警,所述第一告警信息包括所述关联告警字段;
第一确定单元,用于在所述关联告警字段用于指示所述目标故障告警为所述关联告警的情况下,确定所述目标告警类型为所述关联告警;
第二确定单元,用于在所述关联告警字段用于指示所述目标故障告警不为所述关联告警的情况下,确定所述目标告警类型为所述根因告警。
在一个示例性实施例中,所述分类模块,包括:
提取单元,用于从所述目标故障告警中提取目标告警特征,其中,所述目标告警特征用于指示所述目标故障告警的发生原因,所述第一告警信息包括所述目标告警特征;
分类单元,用于根据所述目标告警特征对所述目标故障告警进行分类,得到所述目标告警类型。
在一个示例性实施例中,所述分类单元,还用于:
在所述目标告警特征用于指示所述目标故障告警的发生原因为其他故障告警的情况下,确定所述目标告警类型为所述关联告警;
在所述目标告警特征用于指示所述目标故障告警的发生原因为所述服务器中的硬件设备的情况下,确定所述目标告警类型为所述根因告警。
在一个示例性实施例中,所述分类模块,包括:
输入单元,用于将所述目标故障告警输入目标告警分类模型,其中,所述目标告警分类模型是使用标注了所述根因告警的第一告警样本和标注了所述关联告警类型的第二告警样本对初始告警分类模型进行训练得到的;
获取单元,用于获取所述目标告警分类模型输出的所述目标告警类型。
在一个示例性实施例中,所述第一确定模块,包括:
上报单元,用于在所述目标告警类型为所述根因告警的情况下,上报所述目标故障告警;
第三确定单元,用于在所述目标告警类型为所述关联告警的情况下,根据所述目标故障告警携带的第二告警信息确定是否上报所述目标故障告警。
在一个示例性实施例中,所述第三确定单元,还用于:
获取所述目标故障告警对应的目标关联周期,其中,所述目标关联周期用于指示与所述目标故障告警具有关联关系的属于所述根因告警的目标关联故障告警所在的时间区间;
在所述目标故障告警的获取时间前后所述目标关联周期的时间范围内查找是否获取到所述目标关联故障告警;
在查找到所述目标关联故障告警的情况下,忽略所述目标故障告警;
在未查找到所述目标关联故障告警的情况下,上报所述目标故障告警。
在一个示例性实施例中,所述装置还包括以下之一:
第一查找模块,用于在所述目标故障告警的获取时间前后所述目标关联周期的时间范围内查找是否获取到所述目标关联故障告警之前,从具有对应关系的故障告警和关联故障告警中查找所述目标故障告警对应的所述目标关联故障告警;
提取模块,用于从所述目标故障告警中提取关联故障告警字段,其中,所述关联故障告警字段用于记录与所述目标故障告警具有关联关系的属于所述根因告警的目标关联故障告警。
在一个示例性实施例中,所述装置还包括:
第二确定模块,用于在所述根据所述目标告警类型确定是否上报所述目标故障告警之后,根据所述目标故障告警携带的第三告警信息确定所述目标故障告警对应的恢复时机;
恢复模块,用于在检测到所述服务器达到所述恢复时机的情况下,恢复所述目标故障告警。
在一个示例性实施例中,第二确定模块,包括:
第二查找单元,用于从所述目标故障告警中查找重启恢复字段,其中,所述重启恢复字段用于指示产生所述目标故障告警的目标设备重启后所述目标故障告警是否恢复,所述第三告警信息包括所述重启恢复字段;
第四确定单元,用于在所述重启恢复字段用于指示产生所述目标故障告警的目标设备重启后所述目标故障告警恢复的情况下,确定所述恢复时机为所述目标设备重启。
在一个示例性实施例中,恢复模块,包括:
第一检测单元,用于检测所述目标设备是否被执行重启操作;
第一恢复单元,用于在检测到所述目标设备被执行所述重启操作且所述目标设备重启成功的情况下,恢复所述目标故障告警。
在一个示例性实施例中,所述装置还包括:
第二查找模块,用于在所述从所述目标故障告警中查找重启恢复字段之后,在所述重启恢复字段用于指示产生所述目标故障告警的目标设备重启后所述目标故障告警不恢复的情况下,从所述目标故障告警中查找设备标识字段,其中,所述设备标识字段用于指示产生所述目标故障告警的所述目标设备的目标设备标识;
第三确定模块,用于确定所述恢复时机为所述目标设备所在位置上的设备标识更换。
在一个示例性实施例中,恢复模块,包括:
第二检测单元,用于检测所述目标设备所在位置上的设备标识;
第二恢复单元,用于在检测到所述目标设备所在位置上的设备标识从所述目标设备标识更换为参考设备标识的情况下,恢复所述目标故障告警。
在一个示例性实施例中,所述获取模块,包括:
采集单元,用于在检测到所述服务器中发生故障的情况下,采集所述故障的目标故障数据;
定位单元,用于根据所述目标故障数据对所述故障的告警源进行定位,得到目标告警源;
第三恢复单元,用于根据所述目标告警源对所述故障进行恢复;
生成单元,用于在所述故障恢复失败的情况下,生成所述目标故障告警。
在一个示例性实施例中,所述采集单元,用于:
对所述故障进行目标次数的重试;
在重试失败的情况下,采集所述故障的初始故障数据;
剔除所述初始故障数据中超出目标数据区间的数据,得到参考故障数据;
对所述参考故障数据进行平均数运算,得到所述目标故障数据。
在一个示例性实施例中,所述定位单元,用于:
从具有对应关系的故障数据和故障原因中获取所述目标故障数据对应的故障原因作为候选故障原因;
根据所述服务器中设备的拓扑关系和所述目标故障数据从所述候选故障原因中查找目标故障原因;
将所述目标故障原因在所述服务器中对应的现场可更换单元FRU确定为所述目标告警源。
在一个示例性实施例中,所述定位单元,还用于:
从所述服务器中设备的拓扑关系中查找所述目标故障数据对应的目标拓扑关系;
根据所述目标拓扑关系中设备的运行状态对所述候选故障原因进行排查,得到所述目标故障原因。
在一个示例性实施例中,所述第三恢复单元,还用于:
从具有对应关系的告警源和恢复流程中获取所述目标告警源对应的目标恢复流程;
在获取到所述目标恢复流程的情况下,执行所述目标恢复流程;
在未获取到所述目标恢复流程,或者,所述目标恢复流程执行失败的情况下,确定所述故障恢复失败。
在一个示例性实施例中,所述生成单元,还用于:
判断所述目标故障数据是否落入告警阈值范围内;
在所述目标故障数据落入所述告警阈值范围内的情况下,生成所述目标故障告警。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (20)
1.一种服务器故障根因的过滤方法,其特征在于,包括:
获取服务器中产生的目标故障告警;
根据所述目标故障告警携带的第一告警信息对所述目标故障告警进行分类,得到目标告警类型,其中,故障告警的告警类型包括:根因告警和关联告警,所述根因告警用于指示对应的故障告警是引起所述服务器故障的根本原因,所述关联告警用于指示对应的故障告警是由所关联的属于所述根因告警的故障告警引起的;
根据所述目标告警类型确定是否上报所述目标故障告警;
其中,所述根据所述目标告警类型确定是否上报所述目标故障告警,包括:
在所述目标告警类型为所述关联告警的情况下,根据所述目标故障告警携带的第二告警信息确定是否上报所述目标故障告警;
其中,所述根据所述目标故障告警携带的第二告警信息确定是否上报所述目标故障告警,包括:
获取所述目标故障告警对应的目标关联周期,其中,所述目标关联周期用于指示与所述目标故障告警具有关联关系的属于所述根因告警的目标关联故障告警所在的时间区间;
在所述目标故障告警的获取时间前后所述目标关联周期的时间范围内查找是否获取到所述目标关联故障告警;
在查找到所述目标关联故障告警的情况下,忽略所述目标故障告警;
在未查找到所述目标关联故障告警的情况下,上报所述目标故障告警;
其中,在所述目标故障告警的获取时间前后所述目标关联周期的时间范围内查找是否获取到所述目标关联故障告警之前,所述方法还包括以下之一:
从具有对应关系的故障告警和关联故障告警中查找所述目标故障告警对应的所述目标关联故障告警;
从所述目标故障告警中提取关联故障告警字段,其中,所述关联故障告警字段用于记录与所述目标故障告警具有关联关系的属于所述根因告警的目标关联故障告警。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标故障告警携带的第一告警信息对所述目标故障告警进行分类,得到目标告警类型,包括:
从所述目标故障告警中查找关联告警字段,其中,所述关联告警字段用于指示所述目标故障告警是否为所述关联告警,所述第一告警信息包括所述关联告警字段;
在所述关联告警字段用于指示所述目标故障告警为所述关联告警的情况下,确定所述目标告警类型为所述关联告警;
在所述关联告警字段用于指示所述目标故障告警不为所述关联告警的情况下,确定所述目标告警类型为所述根因告警。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标故障告警携带的第一告警信息对所述目标故障告警进行分类,得到目标告警类型,包括:
从所述目标故障告警中提取目标告警特征,其中,所述目标告警特征用于指示所述目标故障告警的发生原因,所述第一告警信息包括所述目标告警特征;
根据所述目标告警特征对所述目标故障告警进行分类,得到所述目标告警类型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述目标告警特征对所述目标故障告警进行分类,得到所述目标告警类型,包括:
在所述目标告警特征用于指示所述目标故障告警的发生原因为其他故障告警的情况下,确定所述目标告警类型为所述关联告警;
在所述目标告警特征用于指示所述目标故障告警的发生原因为所述服务器中的硬件设备的情况下,确定所述目标告警类型为所述根因告警。
5.根据权利要求1所述的方法,其特征在于,所述根据所述目标故障告警携带的第一告警信息对所述目标故障告警进行分类,得到目标告警类型,包括:
将所述目标故障告警输入目标告警分类模型,其中,所述目标告警分类模型是使用标注了所述根因告警的第一告警样本和标注了所述关联告警类型的第二告警样本对初始告警分类模型进行训练得到的;
获取所述目标告警分类模型输出的所述目标告警类型。
6.根据权利要求1所述的方法,其特征在于,所述根据所述目标告警类型确定是否上报所述目标故障告警,还包括:
在所述目标告警类型为所述根因告警的情况下,上报所述目标故障告警。
7.根据权利要求1所述的方法,其特征在于,在所述根据所述目标告警类型确定是否上报所述目标故障告警之后,所述方法还包括:
根据所述目标故障告警携带的第三告警信息确定所述目标故障告警对应的恢复时机;
在检测到所述服务器达到所述恢复时机的情况下,恢复所述目标故障告警。
8.根据权利要求7所述的方法,其特征在于,根据所述目标故障告警携带的第三告警信息确定所述目标故障告警对应的恢复时机,包括:
从所述目标故障告警中查找重启恢复字段,其中,所述重启恢复字段用于指示产生所述目标故障告警的目标设备重启后所述目标故障告警是否恢复,所述第三告警信息包括所述重启恢复字段;
在所述重启恢复字段用于指示产生所述目标故障告警的目标设备重启后所述目标故障告警恢复的情况下,确定所述恢复时机为所述目标设备重启。
9.根据权利要求8所述的方法,其特征在于,在检测到所述服务器达到所述恢复时机的情况下,恢复所述目标故障告警,包括:
检测所述目标设备是否被执行重启操作;
在检测到所述目标设备被执行所述重启操作且所述目标设备重启成功的情况下,恢复所述目标故障告警。
10.根据权利要求8所述的方法,其特征在于,在所述从所述目标故障告警中查找重启恢复字段之后,所述方法还包括:
在所述重启恢复字段用于指示产生所述目标故障告警的目标设备重启后所述目标故障告警不恢复的情况下,从所述目标故障告警中查找设备标识字段,其中,所述设备标识字段用于指示产生所述目标故障告警的所述目标设备的目标设备标识;
确定所述恢复时机为所述目标设备所在位置上的设备标识更换。
11.根据权利要求10所述的方法,其特征在于,在检测到所述服务器达到所述恢复时机的情况下,恢复所述目标故障告警,包括:
检测所述目标设备所在位置上的设备标识;
在检测到所述目标设备所在位置上的设备标识从所述目标设备标识更换为参考设备标识的情况下,恢复所述目标故障告警。
12.根据权利要求1所述的方法,其特征在于,所述获取服务器中产生的目标故障告警,包括:
在检测到所述服务器中发生故障的情况下,采集所述故障的目标故障数据;
根据所述目标故障数据对所述故障的告警源进行定位,得到目标告警源;
根据所述目标告警源对所述故障进行恢复;
在所述故障恢复失败的情况下,生成所述目标故障告警。
13.根据权利要求12所述的方法,其特征在于,所述采集所述故障的目标故障数据,包括:
对所述故障进行目标次数的重试;
在重试失败的情况下,采集所述故障的初始故障数据;
剔除所述初始故障数据中超出目标数据区间的数据,得到参考故障数据;
对所述参考故障数据进行平均数运算,得到所述目标故障数据。
14.根据权利要求12所述的方法,其特征在于,所述根据所述目标故障数据对所述故障的告警源进行定位,得到目标告警源,包括:
从具有对应关系的故障数据和故障原因中获取所述目标故障数据对应的故障原因作为候选故障原因;
根据所述服务器中设备的拓扑关系和所述目标故障数据从所述候选故障原因中查找目标故障原因;
将所述目标故障原因在所述服务器中对应的现场可更换单元FRU确定为所述目标告警源。
15.根据权利要求14所述的方法,其特征在于,所述根据所述服务器中设备的拓扑关系和所述目标故障数据从所述候选故障原因中查找目标故障原因,包括:
从所述服务器中设备的拓扑关系中查找所述目标故障数据对应的目标拓扑关系;
根据所述目标拓扑关系中设备的运行状态对所述候选故障原因进行排查,得到所述目标故障原因。
16.根据权利要求12所述的方法,其特征在于,所述根据所述目标告警源对所述故障进行恢复,包括:
从具有对应关系的告警源和恢复流程中获取所述目标告警源对应的目标恢复流程;
在获取到所述目标恢复流程的情况下,执行所述目标恢复流程;
在未获取到所述目标恢复流程,或者,所述目标恢复流程执行失败的情况下,确定所述故障恢复失败。
17.根据权利要求12所述的方法,其特征在于,所述生成所述目标故障告警,包括:
判断所述目标故障数据是否落入告警阈值范围内;
在所述目标故障数据落入所述告警阈值范围内的情况下,生成所述目标故障告警。
18.一种服务器故障根因的过滤装置,其特征在于,包括:
获取模块,用于获取服务器中产生的目标故障告警;
分类模块,用于根据所述目标故障告警携带的第一告警信息对所述目标故障告警进行分类,得到目标告警类型,其中,故障告警的告警类型包括:根因告警和关联告警,所述根因告警用于指示对应的故障告警是引起所述服务器故障的根本原因,所述关联告警用于指示对应的故障告警是由所关联的属于所述根因告警的故障告警引起的;
第一确定模块,用于根据所述目标告警类型确定是否上报所述目标故障告警;
其中,所述第一确定模块,包括:
第三确定单元,用于在所述目标告警类型为所述关联告警的情况下,根据所述目标故障告警携带的第二告警信息确定是否上报所述目标故障告警;
其中,所述第三确定单元,还用于:
获取所述目标故障告警对应的目标关联周期,其中,所述目标关联周期用于指示与所述目标故障告警具有关联关系的属于所述根因告警的目标关联故障告警所在的时间区间;
在所述目标故障告警的获取时间前后所述目标关联周期的时间范围内查找是否获取到所述目标关联故障告警;
在查找到所述目标关联故障告警的情况下,忽略所述目标故障告警;
在未查找到所述目标关联故障告警的情况下,上报所述目标故障告警;
其中,所述装置还包括以下之一:
第一查找模块,用于在所述目标故障告警的获取时间前后所述目标关联周期的时间范围内查找是否获取到所述目标关联故障告警之前,从具有对应关系的故障告警和关联故障告警中查找所述目标故障告警对应的所述目标关联故障告警;
提取模块,用于从所述目标故障告警中提取关联故障告警字段,其中,所述关联故障告警字段用于记录与所述目标故障告警具有关联关系的属于所述根因告警的目标关联故障告警。
19.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行权利要求1至17中任一项所述的方法。
20.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行权利要求1至17中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310030520.6A CN115766402B (zh) | 2023-01-09 | 2023-01-09 | 服务器故障根因的过滤方法和装置、存储介质及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310030520.6A CN115766402B (zh) | 2023-01-09 | 2023-01-09 | 服务器故障根因的过滤方法和装置、存储介质及电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115766402A CN115766402A (zh) | 2023-03-07 |
CN115766402B true CN115766402B (zh) | 2023-04-28 |
Family
ID=85348787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310030520.6A Active CN115766402B (zh) | 2023-01-09 | 2023-01-09 | 服务器故障根因的过滤方法和装置、存储介质及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115766402B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117389997B (zh) * | 2023-12-12 | 2024-04-16 | 云和恩墨(北京)信息技术有限公司 | 数据库安装流程的故障检测方法和装置、电子设备、介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114356499A (zh) * | 2021-12-27 | 2022-04-15 | 山东浪潮科学研究院有限公司 | Kubernetes集群告警根因分析方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017008197A1 (zh) * | 2015-07-10 | 2017-01-19 | 华为技术有限公司 | 告警信息上报方法及装置 |
CN110891283A (zh) * | 2019-11-22 | 2020-03-17 | 超讯通信股份有限公司 | 一种基于边缘计算模型的小基站监控装置及方法 |
CN111459695A (zh) * | 2020-03-12 | 2020-07-28 | 平安科技(深圳)有限公司 | 根因定位方法、装置、计算机设备和存储介质 |
CN114253610A (zh) * | 2021-11-25 | 2022-03-29 | 苏州浪潮智能科技有限公司 | 一种器件老化导致系统无法正常启动的改进办法及装置 |
-
2023
- 2023-01-09 CN CN202310030520.6A patent/CN115766402B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114356499A (zh) * | 2021-12-27 | 2022-04-15 | 山东浪潮科学研究院有限公司 | Kubernetes集群告警根因分析方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115766402A (zh) | 2023-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9672085B2 (en) | Adaptive fault diagnosis | |
US9571334B2 (en) | Systems and methods for correlating alarms in a network | |
CN106789306B (zh) | 通信设备软件故障检测收集恢复方法和系统 | |
CN110716842B (zh) | 集群故障检测方法和装置 | |
CN110955550B (zh) | 一种云平台故障定位方法、装置、设备及存储介质 | |
CN111181767A (zh) | 一种面向复杂系统的监控和故障自愈系统及其方法 | |
CN111722952A (zh) | 业务系统的故障分析方法、系统、设备和存储介质 | |
CN115766402B (zh) | 服务器故障根因的过滤方法和装置、存储介质及电子装置 | |
WO2006117833A1 (ja) | 監視シミュレーション装置,方法およびそのプログラム | |
CN115118581B (zh) | 一种基于5g的物联网数据全链路监控和智能保障系统 | |
CN105607973B (zh) | 一种虚拟机系统中设备故障处理的方法、装置及系统 | |
CN112000502B (zh) | 海量错误日志的处理方法、装置、电子装置及存储介质 | |
CN114363151A (zh) | 故障检测方法和装置、电子设备和存储介质 | |
CN114793132A (zh) | 一种光模块的检测方法、装置、电子设备及存储介质 | |
CN116723085A (zh) | 服务冲突的处理方法、装置、存储介质及电子装置 | |
CN104158843A (zh) | 分布式文件存储系统的存储单元失效检测方法及装置 | |
CN111611097A (zh) | 故障检测方法、装置、设备及存储介质 | |
CN117271234A (zh) | 故障诊断方法、装置、存储介质及电子装置 | |
CN114327988B (zh) | 一种可视化网络故障关系确定方法和装置 | |
CN111309584A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN116264541A (zh) | 一种基于多维度的数据库容灾方法及装置 | |
CN114116122A (zh) | 一种应用容器高可用负载平台 | |
AU2014200806B1 (en) | Adaptive fault diagnosis | |
CN111950448A (zh) | 基于机器视觉的高压隔离开关故障状态检测方法及装置 | |
CN111835566A (zh) | 一种系统故障管理方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |