CN113485861A - 一种基于资源优化策略的基层故障诊断方法及装置 - Google Patents

一种基于资源优化策略的基层故障诊断方法及装置 Download PDF

Info

Publication number
CN113485861A
CN113485861A CN202110772240.3A CN202110772240A CN113485861A CN 113485861 A CN113485861 A CN 113485861A CN 202110772240 A CN202110772240 A CN 202110772240A CN 113485861 A CN113485861 A CN 113485861A
Authority
CN
China
Prior art keywords
fault
management unit
level management
monitoring data
fault diagnosis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110772240.3A
Other languages
English (en)
Inventor
建澜涛
黄益明
张祯
陈恒
郑生滨
朱可夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Jiangnan Computing Technology Institute
Original Assignee
Wuxi Jiangnan Computing Technology Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Jiangnan Computing Technology Institute filed Critical Wuxi Jiangnan Computing Technology Institute
Priority to CN202110772240.3A priority Critical patent/CN113485861A/zh
Publication of CN113485861A publication Critical patent/CN113485861A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0778Dumping, i.e. gathering error/state information after a fault for later diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种基于资源优化策略的基层故障诊断方法及装置,该方法包括构建整机故障诊断树,整机故障诊断树包括由系统基层至顶层分别设置的第一级管理单元、第二级管理单元、第三级管理单元;当各第一级管理单元采集到总错监控数据时,对总错监控数据进行故障解析,确定故障数据信息;生成各故障数据信息对应的各故障诊断结果,并将各故障诊断结果发送至第二级管理单元;第二级管理单元对接收到的各故障诊断结果进行过滤后,将过滤诊断结果发送至第三级管理单元;第三级管理单元基于接收到的过滤诊断结果生成并展示故障报文。本发明实现了采用分布式故障处理方式代替原有集中式故障处理方式,以分级并发方式实现了诊断数据的高效汇集。

Description

一种基于资源优化策略的基层故障诊断方法及装置
技术领域
本申请涉及高性能计算机故障诊断技术领域,具体而言,涉及一种基于资源优化策略的基层故障诊断方法及装置。
背景技术
随着高性能计算迈入E级时代,系统性能大幅提升的同时,其规模也在迅速增长,各种关键组件数量十分庞大,平均无故障时间将缩短至小时计,对整机的可靠性以及可用性提出了非常严苛的要求,如何在故障出现的第一时刻发现故障并有效排除故障对高性能计算机的可靠稳定运行起着至关重要的作用。
目前对高性能计算机的故障诊断主流方式为基于海量监测数据发现故障点,进而在故障点上运行故障诊断流程。其存在的缺陷是当故障点数量急剧增多时,仅依靠总控制台进行并发诊断,大量的并发数据将对管理网络造成巨大的负担,此外还受限于总控制台的并发能力及对海量数据的并行处理能力,大量的底层硬件并发访问也将对维护接口造成巨大压力,目前的处理方式其效率已经不能满足高性能计算机的实时高效的故障诊断需求。
发明内容
为了解决上述问题,本申请实施例提供了一种基于资源优化策略的基层故障诊断方法及装置。
第一方面,本申请实施例提供了一种基于资源优化策略的基层故障诊断方法,所述方法包括:
构建整机故障诊断树,所述整机故障诊断树包括由系统基层至顶层分别设置的第一级管理单元、第二级管理单元、第三级管理单元;
当各所述第一级管理单元采集到总错监控数据时,对所述总错监控数据进行故障解析,确定故障数据信息;
生成各所述故障数据信息对应的各故障诊断结果,并将各所述故障诊断结果发送至所述第二级管理单元;
所述第二级管理单元对接收到的各所述故障诊断结果进行过滤后,将过滤诊断结果发送至第三级管理单元;
所述第三级管理单元基于接收到的所述过滤诊断结果生成并展示故障报文。
优选的,所述第一级管理单元为分布式管理单元,所述第二级管理单位为区域集中式管理单元,所述第三级管理单元为总控管理单元。
优选的,所述第一级管理单元包括数据解析模块和故障树诊断模块;
所述当各所述第一级管理单元采集到总错监控数据时,对所述总错监控数据进行故障解析,确定故障数据信息,包括:
当各所述数据解析模块采集到总错监控数据时,对所述总错监控数据进行故障解析,得到异常监控数据;
所述数据解析模块基于预设的信息交换协议将所述异常监控数据发送至所述故障树诊断模块;
所述故障树诊断模块接收到所述异常监控数据后,对所述异常监控数据进行故障诊断,确定故障数据信息。
优选的,所述对所述总错监控数据进行故障解析,得到异常监控数据,包括:
实时解析各所述总错监控数据,将出现错误的总错监控数据确定为异常监控数据;
查询所述异常监控数据对应的芯片中存在错误的异常芯片;
当存在所述异常芯片时,查询所述异常芯片中存在寄存器错误的异常寄存器;
当存在所述异常寄存器时,查询所述异常寄存器中存在位码错误的异常位置。
优选的,所述基于预设的信息交换协议将所述异常监控数据发送至所述故障树诊断模块,包括:
获取所述异常监控数据中的所述异常位置,将所述异常位置发送至所述故障树诊断模块。
优选的,所述生成各所述故障数据信息对应的各故障诊断结果,并将各所述故障诊断结果发送至所述第二级管理单元,包括:
生成各所述故障数据信息对应的各故障诊断结果,确定每个所述故障诊断结果对应的重要程度等级;
获取故障信息收集指令,确定所述故障信息收集指令对应的信息收集等级;
将重要程度等级不高于所述信息收集等级的各所述故障诊断结果发送至所述第二级管理单元。
优选的,所述对接收到的各所述故障诊断结果进行过滤后,将过滤诊断结果发送至第三级管理单元,包括:
对接收到的各所述故障诊断结果进行过滤,筛选并删除结果相同的所述故障诊断结果,得到过滤诊断结果;
将各所述过滤诊断结果发送至第三级管理单元。
第二方面,本申请实施例提供了一种基于资源优化策略的基层故障诊断装置,所述装置包括:
构建模块,用于构建整机故障诊断树,所述整机故障诊断树包括由系统基层至顶层分别设置的第一级管理单元、第二级管理单元、第三级管理单元;
解析模块,用于当各所述第一级管理单元采集到总错监控数据时,对所述总错监控数据进行故障解析,确定故障数据信息;
生成模块,用于生成各所述故障数据信息对应的各故障诊断结果,并将各所述故障诊断结果发送至所述第二级管理单元;
过滤模块,用于所述第二级管理单元对接收到的各所述故障诊断结果进行过滤后,将过滤诊断结果发送至第三级管理单元;
展示模块,用于所述第三级管理单元基于接收到的所述过滤诊断结果生成并展示故障报文。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面或第一方面的任意一种可能的实现方式提供的方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面或第一方面的任意一种可能的实现方式提供的方法。
本发明的有益效果为:1.采用分布式故障处理方式代替原有集中式故障处理方式,高效复用监控数据,利用多级维护管理架构,以分级并发方式实现了诊断数据的高效汇集。
2.从系统层级来说,以最优方式使用系统各种资源,以最小代价实现了与系统规模近乎无关的高效故障诊断,提升了高性能计算机的可靠性。
3.与传统的从系统上层生成故障排查指令后,往下逐个排查到底层后再底层将故障数据逐级往上传递的方式不同,本申请能够从底部基层采集数据信息时一并获取故障信息并直接传递至上层,诊断效率更高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于资源优化策略的基层故障诊断方法的流程示意图;
图2为本申请实施例提供的整机故障诊断树的架构举例示意图;
图3为本申请实施例提供的一种基于资源优化策略的基层故障诊断装置的结构示意图;
图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
在下述介绍中,术语“第一”、“第二”仅为用于描述的目的,而不能理解为指示或暗示相对重要性。下述介绍提供了本申请的多个实施例,不同实施例之间可以替换或者合并组合,因此本申请也可认为包含所记载的相同和/或不同实施例的所有可能组合。因而,如果一个实施例包含特征A、B、C,另一个实施例包含特征B、D,那么本申请也应视为包括含有A、B、C、D的一个或多个所有其他可能的组合的实施例,尽管该实施例可能并未在以下内容中有明确的文字记载。
下面的描述提供了示例,并且不对权利要求书中阐述的范围、适用性或示例进行限制。可以在不脱离本申请内容的范围的情况下,对描述的元素的功能和布置做出改变。各个示例可以适当省略、替代或添加各种过程或组件。例如所描述的方法可以以所描述的顺序不同的顺序来执行,并且可以添加、省略或组合各种步骤。此外,可以将关于一些示例描述的特征组合到其他示例中。
参见图1,图1是本申请实施例提供的一种基于资源优化策略的基层故障诊断方法的流程示意图。在本申请实施例中,所述方法包括:
S101、构建整机故障诊断树,所述整机故障诊断树包括由系统基层至顶层分别设置的第一级管理单元、第二级管理单元、第三级管理单元。
本申请的执行主体可以是云端服务器。
在本申请实施例中,在进行诊断前,首先需要基于设计来构建整机故障诊断树,通过构建出来的诊断树来从系统底部基层来接口服务层,进而开始逐级向上实现故障树诊断流程,构建出的整机故障诊断树的结构可以如图2所示。
在一种可实施方式中,所述第一级管理单元为分布式管理单元,所述第二级管理单位为区域集中式管理单元,所述第三级管理单元为总控管理单元。
在本申请实施例中,由于传统的故障诊断方式是从系统顶层确定开始故障诊断后,从顶层依次将指令传输至系统基层,再在系统基层进行集中式故障处理后,将故障处理结果逐级传送回系统顶层。而本申请由于是通过系统基层直接开始故障诊断,采用集中式故障处理会极大的增加系统的负担,故在基层即第一级采用分布式故障处理方式,再在第二级进行区域集中式管理,最终汇总至第三级总控。
S102、当各所述第一级管理单元采集到总错监控数据时,对所述总错监控数据进行故障解析,确定故障数据信息。
所述总错监控数据在本申请实施例中可以理解为第一级管理单元从接口的服务层中实时采集到的系统基层监控数据。
在本申请实施例中,第一级管理单元在正常工作中采集到总错监控数据后,便会直接复用其采集到的总错监控数据来进行其中故障信息的解析,以此减少对底层硬件的重复访问,同时减轻管理网络的负担。
在一种可实施方式中,所述第一级管理单元包括数据解析模块和故障树诊断模块;
所述当各所述第一级管理单元采集到总错监控数据时,对所述总错监控数据进行故障解析,确定故障数据信息,包括:
当各所述数据解析模块采集到总错监控数据时,对所述总错监控数据进行故障解析,得到异常监控数据;
所述数据解析模块基于预设的信息交换协议将所述异常监控数据发送至所述故障树诊断模块;
所述故障树诊断模块接收到所述异常监控数据后,对所述异常监控数据进行故障诊断,确定故障数据信息。
所述数据解析模块在本申请实施例中可以理解为在第一级管理单元中进行数据解析的基础模块,其除了进行故障数据解析外,还会进行一些其他的基础功能工作。
所述故障树诊断模块在本申请实施例中可以理解为在第一级管理单元中单独设立的专用于故障诊断的模块。
所述故障数据信息在本申请实施例中可以理解为经过诊断后所确定的异常监控数据的相关数据信息,以此辅助故障树诊断模块快速确定故障的源头、原因等。
在本申请实施例中,总错监控数据将由进行基础功能工作的数据解析模块来采集,其采集总错监控数据后,会对总错监控数据进行故障解析来判断其中是否存在故障,并在存在故障时生成异常监控数据。由于数据解析模块在正常情况下还负责大量的系统基层运转工作,为了均衡底层维护服务的负载,数据解析模块仅对总错监控数据中的故障进行解析,得到异常监控数据后,其会基于预先设置好的信息交换协议向故障树诊断模块交换异常监控数据,由故障树诊断模块来对异常监控数据进行诊断,进而确定故障数据信息。
在一种可实施方式中,所述对所述总错监控数据进行故障解析,得到异常监控数据,包括:
实时解析各所述总错监控数据,将出现错误的总错监控数据确定为异常监控数据;
查询所述异常监控数据对应的芯片中存在错误的异常芯片;
当存在所述异常芯片时,查询所述异常芯片中存在寄存器错误的异常寄存器;
当存在所述异常寄存器时,查询所述异常寄存器中存在位码错误的异常位置。
在本申请实施例中,数据解析模块会对采集到的各个总错监控数据进行解析,来分析各个总错监控数据是否处于其理论上应该处于的数据状态。对于出现错误的总错监控数据,便将其确定为异常监控数据。根据异常监控数据,便能查询到异常监控数据所对应的各芯片中的异常芯片,再进一步确定异常芯片中出现错误的异常存储器,进而最终确定出是存储器中的具体哪一位码出现错误。
在一种可实施方式中,所述基于预设的信息交换协议将所述异常监控数据发送至所述故障树诊断模块,包括:
获取所述异常监控数据中的所述异常位置,将所述异常位置发送至所述故障树诊断模块。
在本申请实施例中,并不会将异常监控数据全部发送至故障树诊断模块,而是通过预设的信息交换协议,只将出现异常的异常位置作为故障信息发送,提高了传输和诊断的效率。示例性的,假如一64位寄存器出现错误,解析出其第4位出现错误,仅会将这第4位作为异常位置发送,而不是发送全部的64位。
S103、生成各所述故障数据信息对应的各故障诊断结果,并将各所述故障诊断结果发送至所述第二级管理单元。
在本申请实施例中,确定出具体出现故障的详细位置,是为了第一级管理单元的模块之间能够高效低负载的进行故障信息的交互,然而,用户在大部分情况下,并不需要知道诸如CPU的具体哪一个寄存器的哪一位错误,其仅需要知道是哪个CPU出现了错误。因此,还需要基于故障数据信息来确定并生成对应的各故障诊断结果,通过故障诊断结果来使用户直观的了解到问题所在,并将故障诊断结果发送至第二级管理单元来集中处理和发送。
在一种可实施方式中,所述生成各所述故障数据信息对应的各故障诊断结果,并将各所述故障诊断结果发送至所述第二级管理单元,包括:
生成各所述故障数据信息对应的各故障诊断结果,确定每个所述故障诊断结果对应的重要程度等级;
获取故障信息收集指令,确定所述故障信息收集指令对应的信息收集等级;
将重要程度等级不高于所述信息收集等级的各所述故障诊断结果发送至所述第二级管理单元。
所述重要程度等级在本申请实施例中可以理解为基于故障诊断结果的内容确定的该故障的严重程度而划分的等级。诸如警告某个部件可能存在问题需要工作人员进行查看、表征某个部件已经损坏需要更换等。
在本申请实施例中,每个故障诊断结果将对应有一个重要程度等级,而用户在不同的情况下,对于所需的故障诊断结果种类的需求是不同的,某些情况下用户可能只想要知道已经确定发生故障的部件,某些情况下可能需要知道包括可能存在问题的警告在内的所有问题部件信息。用户首先会基于自身需求输入故障信息收集指令,第一级管理单元将基于故障信息收集指令确定信息收集等级,即确定用户期望收集什么程度等级的故障信息,以此对接收到的各故障诊断结果进行有选择的发送。
S104、所述第二级管理单元对接收到的各所述故障诊断结果进行过滤后,将过滤诊断结果发送至第三级管理单元。
在本申请实施例中,第二级管理单元在接收到故障诊断结果后,会对故障诊断结果进行过滤,将多余的故障诊断结果进行过滤后,才会将剩余的过滤诊断结果发送至第三级管理单元。
在一种可实施方式中,所述对接收到的各所述故障诊断结果进行过滤后,将过滤诊断结果发送至第三级管理单元,包括:
对接收到的各所述故障诊断结果进行过滤,筛选并删除结果相同的所述故障诊断结果,得到过滤诊断结果;
将各所述过滤诊断结果发送至第三级管理单元。
在本申请实施例中,由于前期的故障诊断过程是基于对具体的某个芯片中的某个寄存器的某一位错误的诊断,因此可能会出现多个不同的寄存器或不同位错误最终所指向的诊断结果相同,例如都是同一个CPU出现错误需要更换,这样会导致信息出现冗余,故需要先进行信息过滤,将指向结果相同的故障诊断结果筛选出来,并将重复的删去。
S105、所述第三级管理单元基于接收到的所述过滤诊断结果生成并展示故障报文。
在本申请实施例中,第三级管理单元将基于过滤诊断结果生成故障报文,并将其展示至用户,以便用户直观的了解到系统的问题。
下面将结合附图3,对本申请实施例提供的基于资源优化策略的基层故障诊断装置进行详细介绍。需要说明的是,附图3所示的基于资源优化策略的基层故障诊断装置,用于执行本申请图1所示实施例的方法,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请图1所示的实施例。
请参见图3,图3是本申请实施例提供的一种基于资源优化策略的基层故障诊断装置的结构示意图。如图3所示,所述装置包括:
构建模块301,用于构建整机故障诊断树,所述整机故障诊断树包括由系统基层至顶层分别设置的第一级管理单元、第二级管理单元、第三级管理单元;
解析模块302,用于当各所述第一级管理单元采集到总错监控数据时,对所述总错监控数据进行故障解析,确定故障数据信息;
生成模块303,用于生成各所述故障数据信息对应的各故障诊断结果,并将各所述故障诊断结果发送至所述第二级管理单元;
过滤模块304,用于所述第二级管理单元对接收到的各所述故障诊断结果进行过滤后,将过滤诊断结果发送至第三级管理单元;
展示模块305,用于所述第三级管理单元基于接收到的所述过滤诊断结果生成并展示故障报文。
在一种可实施方式中,解析模块302包括:
故障解析单元,用于当各所述数据解析模块采集到总错监控数据时,对所述总错监控数据进行故障解析,得到异常监控数据;
信息交换单元,用于所述数据解析模块基于预设的信息交换协议将所述异常监控数据发送至所述故障树诊断模块;
故障诊断单元,用于所述故障树诊断模块接收到所述异常监控数据后,对所述异常监控数据进行故障诊断,确定故障数据信息。
在一种可实施方式中,故障解析单元包括:
解析元件,用于实时解析各所述总错监控数据,将出现错误的总错监控数据确定为异常监控数据;
第一查询元件,用于查询所述异常监控数据对应的芯片中存在错误的异常芯片;
第二查询元件,用于当存在所述异常芯片时,查询所述异常芯片中存在寄存器错误的异常寄存器;
第三查询元件,用于当存在所述异常寄存器时,查询所述异常寄存器中存在位码错误的异常位置。
在一种可实施方式中,信息交换单元包括:
信息交换元件,用于获取所述异常监控数据中的所述异常位置,将所述异常位置发送至所述故障树诊断模块。
在一种可实施方式中,生成模块303包括:
生成单元,用于生成各所述故障数据信息对应的各故障诊断结果,确定每个所述故障诊断结果对应的重要程度等级;
收集等级确定单元,用于获取故障信息收集指令,确定所述故障信息收集指令对应的信息收集等级;
等级比对单元,用于将重要程度等级不高于所述信息收集等级的各所述故障诊断结果发送至所述第二级管理单元。
在一种可实施方式中,过滤模块304包括:
过滤单元,用于对接收到的各所述故障诊断结果进行过滤,筛选并删除结果相同的所述故障诊断结果,得到过滤诊断结果;
过滤诊断结果发送单元,用于将各所述过滤诊断结果发送至第三级管理单元。
本领域的技术人员可以清楚地了解到本申请实施例的技术方案可借助软件和/或硬件来实现。本说明书中的“单元”和“模块”是指能够独立完成或与其他部件配合完成特定功能的软件和/或硬件,其中硬件例如可以是现场可编程门阵列(Field-ProgrammableGate Array,FPGA)、集成电路(Integrated Circuit,IC)等。
本申请实施例的各处理单元和/或模块,可通过实现本申请实施例所述的功能的模拟电路而实现,也可以通过执行本申请实施例所述的功能的软件而实现。
参见图4,其示出了本申请实施例所涉及的一种电子设备的结构示意图,该电子设备可以用于实施图1所示实施例中的方法。如图4所示,电子设备400可以包括:至少一个中央处理器401,至少一个网络接口404,用户接口403,存储器405,至少一个通信总线402。
其中,通信总线402用于实现这些组件之间的连接通信。
其中,用户接口403可以包括显示屏(Display)、摄像头(Camera),可选用户接口403还可以包括标准的有线接口、无线接口。
其中,网络接口404可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,中央处理器401可以包括一个或者多个处理核心。中央处理器401利用各种接口和线路连接整个电子设备400内的各个部分,通过运行或执行存储在存储器405内的指令、程序、代码集或指令集,以及调用存储在存储器405内的数据,执行终端400的各种功能和处理数据。可选的,中央处理器401可以采用数字信号处理(Digital SignalProcessing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。中央处理器401可集成中央中央处理器(Central Processing Unit,CPU)、图像中央处理器(GraphicsProcessing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到中央处理器401中,单独通过一块芯片进行实现。
其中,存储器405可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器405包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器405可用于存储指令、程序、代码、代码集或指令集。存储器405可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器405可选的还可以是至少一个位于远离前述中央处理器401的存储装置。如图4所示,作为一种计算机存储介质的存储器405中可以包括操作系统、网络通信模块、用户接口模块以及程序指令。
在图4所示的电子设备400中,用户接口403主要用于为用户提供输入的接口,获取用户输入的数据;而中央处理器401可以用于调用存储器405中存储的基于资源优化策略的基层故障诊断应用程序,并具体执行以下操作:
构建整机故障诊断树,所述整机故障诊断树包括由系统基层至顶层分别设置的第一级管理单元、第二级管理单元、第三级管理单元;
当各所述第一级管理单元采集到总错监控数据时,对所述总错监控数据进行故障解析,确定故障数据信息;
生成各所述故障数据信息对应的各故障诊断结果,并将各所述故障诊断结果发送至所述第二级管理单元;
所述第二级管理单元对接收到的各所述故障诊断结果进行过滤后,将过滤诊断结果发送至第三级管理单元;
所述第三级管理单元基于接收到的所述过滤诊断结果生成并展示故障报文。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。其中,计算机可读存储介质可以包括但不限于任何类型的盘,包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC),或适合于存储指令和/或数据的任何类型的媒介或设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(Read-Only Memory, ROM)、随机存取存储器(Random Access Memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通进程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(Read-Only Memory, ROM)、随机存取器(Random AccessMemory,RAM)、磁盘或光盘等。
以上所述者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践这里的公开后,将容易想到本公开的其实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限定。

Claims (10)

1.一种基于资源优化策略的基层故障诊断方法,其特征在于,所述方法包括:
构建整机故障诊断树,所述整机故障诊断树包括由系统基层至顶层分别设置的第一级管理单元、第二级管理单元、第三级管理单元;
当各所述第一级管理单元采集到总错监控数据时,对所述总错监控数据进行故障解析,确定故障数据信息;
生成各所述故障数据信息对应的各故障诊断结果,并将各所述故障诊断结果发送至所述第二级管理单元;
所述第二级管理单元对接收到的各所述故障诊断结果进行过滤后,将过滤诊断结果发送至第三级管理单元;
所述第三级管理单元基于接收到的所述过滤诊断结果生成并展示故障报文。
2.根据权利要求1所述的方法,其特征在于,所述第一级管理单元为分布式管理单元,所述第二级管理单位为区域集中式管理单元,所述第三级管理单元为总控管理单元。
3.根据权利要求1所述的方法,其特征在于,所述第一级管理单元包括数据解析模块和故障树诊断模块;
所述当各所述第一级管理单元采集到总错监控数据时,对所述总错监控数据进行故障解析,确定故障数据信息,包括:
当各所述数据解析模块采集到总错监控数据时,对所述总错监控数据进行故障解析,得到异常监控数据;
所述数据解析模块基于预设的信息交换协议将所述异常监控数据发送至所述故障树诊断模块;
所述故障树诊断模块接收到所述异常监控数据后,对所述异常监控数据进行故障诊断,确定故障数据信息。
4.根据权利要求3所述的方法,其特征在于,所述对所述总错监控数据进行故障解析,得到异常监控数据,包括:
实时解析各所述总错监控数据,将出现错误的总错监控数据确定为异常监控数据;
深度查询所述异常监控数据对应的芯片中存在错误的异常芯片;
当存在所述异常芯片时,查询所述异常芯片中存在寄存器错误的异常寄存器;
当存在所述异常寄存器时,查询所述异常寄存器中存在位码错误的异常位置。
5.根据权利要求4所述的方法,其特征在于, 所述基于预设的信息交换协议将所述异常监控数据发送至所述故障树诊断模块,包括:
获取所述异常监控数据中的所述异常位置,将所述异常位置发送至所述故障树诊断模块。
6.根据权利要求1所述的方法,其特征在于,所述生成各所述故障数据信息对应的各故障诊断结果,并将各所述故障诊断结果发送至所述第二级管理单元,包括:
生成各所述故障数据信息对应的各故障诊断结果,确定每个所述故障诊断结果对应的重要程度等级;
获取故障信息收集指令,确定所述故障信息收集指令对应的信息收集等级;
将重要程度等级不高于所述信息收集等级的各所述故障诊断结果发送至所述第二级管理单元。
7.根据权利要求1所述的方法,其特征在于,所述对接收到的各所述故障诊断结果进行过滤后,将过滤诊断结果发送至第三级管理单元,包括:
对接收到的各所述故障诊断结果进行过滤,筛选并删除结果相同的所述故障诊断结果,得到过滤诊断结果;
将各所述过滤诊断结果发送至第三级管理单元。
8.一种基于资源优化策略的基层故障诊断装置,其特征在于,所述装置包括:
构建模块,用于构建整机故障诊断树,所述整机故障诊断树包括由系统基层至顶层分别设置的第一级管理单元、第二级管理单元、第三级管理单元;
解析模块,用于当各所述第一级管理单元采集到总错监控数据时,对所述总错监控数据进行故障解析,确定故障数据信息;
生成模块,用于生成各所述故障数据信息对应的各故障诊断结果,并将各所述故障诊断结果发送至所述第二级管理单元;
过滤模块,用于所述第二级管理单元对接收到的各所述故障诊断结果进行过滤后,将过滤诊断结果发送至第三级管理单元;
展示模块,用于所述第三级管理单元基于接收到的所述过滤诊断结果生成并展示故障报文。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述方法的步骤。
CN202110772240.3A 2021-07-08 2021-07-08 一种基于资源优化策略的基层故障诊断方法及装置 Pending CN113485861A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110772240.3A CN113485861A (zh) 2021-07-08 2021-07-08 一种基于资源优化策略的基层故障诊断方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110772240.3A CN113485861A (zh) 2021-07-08 2021-07-08 一种基于资源优化策略的基层故障诊断方法及装置

Publications (1)

Publication Number Publication Date
CN113485861A true CN113485861A (zh) 2021-10-08

Family

ID=77938053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110772240.3A Pending CN113485861A (zh) 2021-07-08 2021-07-08 一种基于资源优化策略的基层故障诊断方法及装置

Country Status (1)

Country Link
CN (1) CN113485861A (zh)

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04209094A (ja) * 1990-08-03 1992-07-30 Shimizu Corp 故障診断システム
US5596712A (en) * 1991-07-08 1997-01-21 Hitachi, Ltd. Method and system for diagnosis and analysis of products troubles
CA2272609A1 (en) * 1996-11-27 1998-06-04 Telefonaktiebolaget Lm Ericsson Software fault management system
US6208955B1 (en) * 1998-06-12 2001-03-27 Rockwell Science Center, Llc Distributed maintenance system based on causal networks
GB0127552D0 (en) * 2001-11-16 2002-01-09 Abb Ab Analysing events
US7120819B1 (en) * 2001-11-15 2006-10-10 3Com Corporation Method and system for fault diagnosis in a data network
JP2007286924A (ja) * 2006-04-17 2007-11-01 Fuji Xerox Co Ltd 故障診断モデル生成装置、故障診断モデル生成方法、故障診断システム、及び、故障診断方法
US7516025B1 (en) * 2004-06-29 2009-04-07 Sun Microsystems, Inc. System and method for providing a data structure representative of a fault tree
JP2014228932A (ja) * 2013-05-20 2014-12-08 日本電気通信システム株式会社 障害通知装置、障害通知プログラムならびに障害通知方法
CN104375020A (zh) * 2014-10-08 2015-02-25 河海大学 一种分布式在线电网故障诊断系统及其方法
US9594621B1 (en) * 2014-12-30 2017-03-14 Juniper Networks, Inc. Online network device diagnostic monitoring and fault recovery system
CN108415409A (zh) * 2018-03-19 2018-08-17 黄河水利职业技术学院 一种多级汽车故障诊断系统和诊断方法
CN109711062A (zh) * 2018-12-28 2019-05-03 广东电网有限责任公司 一种基于云服务的设备故障诊断方法及装置
CN110276372A (zh) * 2019-05-08 2019-09-24 复变时空(武汉)数据科技有限公司 基于云平台的燃料电池发动机故障诊断方法
CN110779716A (zh) * 2019-11-01 2020-02-11 苏州德姆斯信息技术有限公司 嵌入式机械故障智能诊断设备及诊断方法
WO2020183340A1 (en) * 2019-03-14 2020-09-17 Abb Schweiz Ag A method of detecting faults in intelligent electronic devices
CN111913133A (zh) * 2020-06-30 2020-11-10 北京航天测控技术有限公司 分布式故障诊断维修方法、装置、设备及计算机可读介质

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04209094A (ja) * 1990-08-03 1992-07-30 Shimizu Corp 故障診断システム
US5596712A (en) * 1991-07-08 1997-01-21 Hitachi, Ltd. Method and system for diagnosis and analysis of products troubles
CA2272609A1 (en) * 1996-11-27 1998-06-04 Telefonaktiebolaget Lm Ericsson Software fault management system
US6208955B1 (en) * 1998-06-12 2001-03-27 Rockwell Science Center, Llc Distributed maintenance system based on causal networks
US7120819B1 (en) * 2001-11-15 2006-10-10 3Com Corporation Method and system for fault diagnosis in a data network
GB0127552D0 (en) * 2001-11-16 2002-01-09 Abb Ab Analysing events
US7516025B1 (en) * 2004-06-29 2009-04-07 Sun Microsystems, Inc. System and method for providing a data structure representative of a fault tree
JP2007286924A (ja) * 2006-04-17 2007-11-01 Fuji Xerox Co Ltd 故障診断モデル生成装置、故障診断モデル生成方法、故障診断システム、及び、故障診断方法
JP2014228932A (ja) * 2013-05-20 2014-12-08 日本電気通信システム株式会社 障害通知装置、障害通知プログラムならびに障害通知方法
CN104375020A (zh) * 2014-10-08 2015-02-25 河海大学 一种分布式在线电网故障诊断系统及其方法
US9594621B1 (en) * 2014-12-30 2017-03-14 Juniper Networks, Inc. Online network device diagnostic monitoring and fault recovery system
CN108415409A (zh) * 2018-03-19 2018-08-17 黄河水利职业技术学院 一种多级汽车故障诊断系统和诊断方法
CN109711062A (zh) * 2018-12-28 2019-05-03 广东电网有限责任公司 一种基于云服务的设备故障诊断方法及装置
WO2020183340A1 (en) * 2019-03-14 2020-09-17 Abb Schweiz Ag A method of detecting faults in intelligent electronic devices
CN110276372A (zh) * 2019-05-08 2019-09-24 复变时空(武汉)数据科技有限公司 基于云平台的燃料电池发动机故障诊断方法
CN110779716A (zh) * 2019-11-01 2020-02-11 苏州德姆斯信息技术有限公司 嵌入式机械故障智能诊断设备及诊断方法
CN111913133A (zh) * 2020-06-30 2020-11-10 北京航天测控技术有限公司 分布式故障诊断维修方法、装置、设备及计算机可读介质

Similar Documents

Publication Publication Date Title
CN110086666B (zh) 一种告警方法、装置及系统
KR100968313B1 (ko) 이동단말장치, 이동단말장치의 진단 방법
CN108234170B (zh) 一种服务器集群的监控方法和装置
CN109408338B (zh) 抓取NVME硬盘trace的方法、装置、设备及系统
CN109976959A (zh) 一种用于服务器故障检测的便携式设备及方法
CN108521339A (zh) 一种基于集群日志的反馈式节点故障处理方法及系统
CN101197621A (zh) 一种对网管系统故障进行远程诊断定位的方法及其系统
CN112988679B (zh) 日志采集控制方法、装置、存储介质及服务器
US20220019495A1 (en) Machine learning-based techniques for providing focus to problematic compute resources represented via a dependency graph
CN113391978B (zh) 一种主机的巡检方法和装置
CN112051771B (zh) 多云数据采集方法、装置、计算机设备和存储介质
CN116016123A (zh) 故障处理方法、装置、设备及介质
CN113537590A (zh) 一种数据异常预测方法及系统
CN101398781B (zh) 一种快速诊断系统软件缺陷的系统及方法
CN110609761B (zh) 确定故障源的方法、装置、存储介质和电子设备
CN113485861A (zh) 一种基于资源优化策略的基层故障诊断方法及装置
CN113065779A (zh) 数据处理方法、装置和电子设备
CN112260902A (zh) 网络设备监控方法、装置、设备及存储介质
CN111654405A (zh) 通信链路的故障节点方法、装置、设备及存储介质
CN110381035A (zh) 网络安全测试方法、装置、计算机设备及可读存储介质
CN112291302B (zh) 物联网设备行为数据分析方法与处理系统
CN114490003A (zh) 大规模数据的分布式作业调度方法及相关设备
CN1735047A (zh) 一种故障自诊断方法和装置
CN112764992A (zh) 线程池的监控方法、装置及设备
CN112187543A (zh) 一种云平台事件监控系统、方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination