CN115098294A - 异常事件的处理方法、电子设备及管理终端 - Google Patents

异常事件的处理方法、电子设备及管理终端 Download PDF

Info

Publication number
CN115098294A
CN115098294A CN202211015815.8A CN202211015815A CN115098294A CN 115098294 A CN115098294 A CN 115098294A CN 202211015815 A CN202211015815 A CN 202211015815A CN 115098294 A CN115098294 A CN 115098294A
Authority
CN
China
Prior art keywords
processor
event
abnormal event
abnormal
manager
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211015815.8A
Other languages
English (en)
Other versions
CN115098294B (zh
Inventor
马少阳
罗建洪
刘琛
杨珏
段秋阳
张钰勃
杨上山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Moore Threads Technology Co Ltd
Original Assignee
Moore Threads Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Moore Threads Technology Co Ltd filed Critical Moore Threads Technology Co Ltd
Priority to CN202211015815.8A priority Critical patent/CN115098294B/zh
Publication of CN115098294A publication Critical patent/CN115098294A/zh
Application granted granted Critical
Publication of CN115098294B publication Critical patent/CN115098294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开涉及一种异常事件的处理方法、电子设备及管理终端,所述处理方法包括:获取异常事件;确定所述异常事件对应的事件类别;其中,所述事件类别用以表示所述异常事件的异常程度;根据所述事件类别,对所述异常事件进行处理。本公开实施例可自动确定每个异常事件的事件类别,并据此对异常事件进行自动化的处理,节约了人工修复的修复成本,此外,自动化的处理流程也有助于降低修复时长,使得处理器可应用于高可靠的场景。

Description

异常事件的处理方法、电子设备及管理终端
技术领域
本公开涉及信息处理技术领域,尤其涉及一种异常事件的处理方法、电子设备及管理终端。
背景技术
随着处理器行业的发展,开发人员逐渐开始使用处理器集群进行数据的处理,以提高各项业务功能的实际处理速度。而处理器本身可能存在技术漏洞或随着运行时间的增加而出现故障的异常情况,上述异常情况易导致处理器或处理器集群对应的业务功能无法正常实现。故如何更好地对异常事件进行处理,是开发人员亟需解决的技术问题。
发明内容
本公开提出了一种异常事件的处理技术方案。
根据本公开的一方面,提供了一种异常事件的处理方法,应用于处理器或处理器管理器,所述处理器管理器与至少一个处理器相连,所述处理方法包括:获取异常事件;确定所述异常事件对应的事件类别;其中,所述事件类别用以表示所述异常事件的异常程度;根据所述事件类别,对所述异常事件进行处理。
在一种可能的实施方式中,所述处理器或所述处理器管理器包括至少一个功能模块;所述根据所述事件类别,对所述异常事件进行处理,包括:根据所述事件类别,对所述异常事件进行以下任意一项处理:根据所述异常事件,生成提示信息;保存所述异常事件;对所述异常事件对应的功能模块进行修复;针对所述处理器或所述处理器管理器进行整体修复,得到修复结果;保存所述异常事件以及所述修复结果。
在一种可能的实施方式中,所述根据所述事件类别,对所述异常事件进行处理,包括以下至少一项:在确定所述事件类别为第一类别的情况下,保存所述异常事件;在确定所述事件类别为第一类别的情况下,根据所述异常事件,生成提示信息,并保存所述异常事件;其中,所述提示信息用以保存至处理器或处理器管理器的异常事件记录模块,和/或用以发送至管理终端;在确定所述事件类别为第二类别的情况下,根据所述异常事件,生成提示信息,并保存所述异常事件;其中,所述第二类别对应的异常事件比所述第一类别的异常程度更高。
在一种可能的实施方式中,所述根据所述事件类别,对所述异常事件进行处理,包括:在确定所述事件类别为第三类别的情况下,根据所述异常事件生成提示信息;对所述异常事件对应的功能模块进行修复或针对所述处理器或所述处理器管理器进行整体修复,得到修复结果;其中,所述第三类别对应的异常事件比第二类别的异常程度更高;保存所述异常事件以及修复结果。
在一种可能的实施方式中,所述对所述异常事件对应的功能模块进行修复,包括:对所述异常事件对应的功能模块进行复位,直至对所述异常事件对应的功能模块修复成功;在修复失败的次数达到第一预设次数、和/或修复时长高于第一时长的情况下,停止对所述异常事件对应的功能模块进行修复,并针对所述处理器或所述处理器管理器进行整体修复。
在一种可能的实施方式中,所述对所述异常事件对应的功能模块进行复位,包括:随着对所述异常事件对应的功能模块进行复位的次数的增加,增加每次对所述异常事件对应的功能模块进行复位的时间间隔。
在一种可能的实施方式中,所述针对所述处理器或所述处理器管理器进行整体修复,包括:重新建立与处理器管理器或处理器的连接,直至对所述处理器或所述处理器管理器修复成功;在以下至少一种情况下,停止对所述处理器或所述处理器管理器进行修复,并对所述处理器或所述处理器管理器执行隔离操作:修复失败的次数达到第二预设次数、修复的单次时长高于第二时长、修复的总时长高于第三时长。
在一种可能的实施方式中,所述重新建立与处理器管理器或处理器的连接,包括:通过插拔、复位、上下电中的至少一项建立与处理器管理器或处理器的连接;所述重新建立与处理器管理器或处理器的连接,还包括:随着插拔或复位或上下电的修复失败的次数的增加,增加每次插拔或复位或上下电的时间间隔。
在一种可能的实施方式中,功能模块包括:软件功能模块、硬件引擎中的至少一项;其中,所述软件功能模块用以确定逻辑指令序列、所述逻辑指令序列对应的数据中的至少一个,并将所述逻辑指令序列中的至少一个指令或所述至少一个指令对应的数据发送至所述硬件引擎或对应的软件模块;所述硬件引擎用以对所述逻辑指令序列中的至少一个指令或所述至少一个指令对应的数据进行处理。
在一种可能的实施方式中,应用于处理器管理器,所述获取异常事件包括:获取所述至少一个处理器发送的异常事件;所述根据所述事件类别,对所述异常事件进行处理,包括:根据所述事件类别,发送所述异常事件对应的处理指令至所述至少一个处理器;其中,所述处理指令用于确定所述异常事件的处理方式。
在一种可能的实施方式中,应用于处理器,所述根据所述事件类别,对所述异常事件进行处理,包括:在确定与所述处理器对应的处理器管理器通信成功的情况下,发送所述异常事件至所述处理器对应的处理器管理器;在确定与所述处理器对应的处理器管理器通信失败的情况下,对所述异常事件进行处理。
根据本公开的一方面,提供了一种异常事件的处理方法,应用于管理终端;所述管理终端与处理器管理器相连;所述处理器管理器与至少一个处理器相连;所述处理方法包括:获取处理器管理器发送的提示信息、和/或异常事件日志;其中所述异常事件日志用以保存异常事件、所述异常事件对应的修复结果中的至少一个;显示所述提示信息、和/或异常事件日志。
根据本公开的一方面,提供了一种电子设备,包括处理器或处理器管理器,所述处理器管理器与至少一个处理器相连,所述处理器或处理器管理器包括:健康监控模块,用以获取异常事件;异常事件处理模块,用以确定所述异常事件对应的事件类别;其中,所述事件类别用以表示所述异常事件的异常程度;所述异常事件处理模块还用以根据所述事件类别,对所述异常事件进行处理。
在一种可能的实施方式中,所述处理器或所述处理器管理器包括至少一个功能模块;所述根据所述事件类别,对所述异常事件进行处理,包括:根据所述事件类别,对所述异常事件进行以下任意一项处理:根据所述异常事件,生成提示信息;保存所述异常事件;对所述异常事件对应的功能模块进行修复;针对所述处理器或所述处理器管理器进行整体修复,得到修复结果;保存所述异常事件以及所述修复结果。
在一种可能的实施方式中,所述处理器或处理器管理器还包括异常事件记录模块,所述根据所述事件类别,对所述异常事件进行处理,包括以下至少一项:在确定所述事件类别为第一类别的情况下,保存所述异常事件至异常事件记录模块;在确定所述事件类别为第一类别的情况下,根据所述异常事件,生成提示信息,并保存所述异常事件;其中,所述提示信息用以保存至处理器或处理器管理器的异常事件记录模块,和/或用以发送至管理终端;在确定所述事件类别为第二类别的情况下,根据所述异常事件,生成提示信息,并保存所述异常事件至异常事件记录模块;其中,所述第二类别对应的异常事件比所述第一类别的异常程度更高。
在一种可能的实施方式中,所述根据所述事件类别,对所述异常事件进行处理,包括:在确定所述事件类别为第三类别的情况下,根据所述异常事件生成提示信息;通过所述处理器或所述处理器管理器的异常自愈模块,对所述异常事件对应的功能模块进行修复或针对所述处理器或所述处理器管理器进行整体修复,得到修复结果;其中,所述第三类别对应的异常事件比第二类别的异常程度更高;保存所述异常事件以及修复结果至异常事件记录模块。
在一种可能的实施方式中,所述对所述异常事件对应的功能模块进行修复,包括:对所述异常事件对应的功能模块进行复位,直至对所述异常事件对应的功能模块修复成功;在修复失败的次数达到第一预设次数、和/或修复时长高于第一时长的情况下,停止对所述异常事件对应的功能模块进行修复,并针对所述处理器或所述处理器管理器进行整体修复。
在一种可能的实施方式中,所述对所述异常事件对应的功能模块进行复位,包括:随着对所述异常事件对应的功能模块进行复位的次数的增加,增加每次对所述异常事件对应的功能模块进行复位的时间间隔。
在一种可能的实施方式中,所述针对所述处理器或所述处理器管理器进行整体修复,包括:重新建立与处理器管理器或处理器的连接,直至对所述处理器或所述处理器管理器修复成功;在以下至少一种情况下,停止对所述处理器或所述处理器管理器进行修复,并对所述处理器或所述处理器管理器执行隔离操作:修复失败的次数达到第二预设次数、修复的单次时长高于第二时长、修复的总时长高于第三时长。
在一种可能的实施方式中,所述重新建立与处理器管理器或处理器的连接,包括:通过插拔、复位、上下电中的至少一项建立与处理器管理器或处理器的连接;所述重新建立与处理器管理器或处理器的连接,还包括:随着插拔或复位或上下电的修复失败的次数的增加,增加每次插拔或复位或上下电的时间间隔。
在一种可能的实施方式中,功能模块包括:软件功能模块、硬件引擎中的至少一项;其中,所述软件功能模块用以确定逻辑指令序列、所述逻辑指令序列对应的数据中的至少一个,并将所述逻辑指令序列中的至少一个指令或所述至少一个指令对应的数据发送至所述硬件引擎或对应的软件模块;所述硬件引擎用以对所述逻辑指令序列中的至少一个指令或所述至少一个指令对应的数据进行处理。
在一种可能的实施方式中,所述电子设备为处理器管理器,所述获取异常事件包括:获取所述至少一个处理器发送的异常事件;所述根据所述事件类别,对所述异常事件进行处理,包括:根据所述事件类别,发送所述异常事件对应的处理指令至所述至少一个处理器;其中,所述处理指令用于确定所述异常事件的处理方式。
在一种可能的实施方式中,所述电子设备为处理器,所述根据所述事件类别,对所述异常事件进行处理,包括:在确定与所述处理器对应的处理器管理器通信成功的情况下,发送所述异常事件至所述处理器对应的处理器管理器;在确定与所述处理器对应的处理器管理器通信失败的情况下,对所述异常事件进行处理。
根据本公开的一方面,提供了一种管理终端,所述管理终端与至少一个处理器管理器相连;所述处理器管理器与至少一个处理器相连;所述管理终端包括:信息获取模块,用以获取处理器管理器发送的提示信息、和/或异常事件日志;其中所述异常事件日志用以保存异常事件、修复结果中的至少一个;信息显示模块,用以显示所述提示信息、和/或异常事件日志。
根据本公开的一方面,提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。
在本公开实施例中,可获取异常事件,而后确定所述异常事件对应的事件类别;最终根据所述事件类别,对所述异常事件进行处理。本公开实施例提供的处理方法,可自动确定每个异常事件的事件类别,并据此对异常事件进行自动化的处理,节约了人工修复的修复成本,此外,自动化的处理流程也有助于降低修复时长,使得处理器可应用于高可靠的场景。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。
图1示出了根据本公开实施例提供的四种系统架构的参考示意图。
图2示出了本公开实施例提供的异常事件的处理方法的流程图。
图3示出了本公开实施例提供的异常事件的处理方法的参考示意图。
图4示出了本公开实施例提供的异常事件的处理方法的流程图。
图5示出了根据本公开实施例提供的对功能模块进行修复的参考示意图。
图6示出了根据本公开实施例提供的图5中GPU卡修复流程的参考示意图。
图7示出了根据本公开实施例提供的处理方法的流程图。
图8示出了根据本公开实施例提供的系统架构的参考示意图。
图9示出了根据本公开实施例提供的异常事件的处理方法的参考示意图。
图10示出了根据本公开实施例提供的电子设备的框图。
图11示出了根据本公开实施例提供的管理终端的框图。
图12示出了根据本公开实施例提供的一种电子设备的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
另外,为了更好地说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
相关技术中,针对处理器的异常事件进行处理,通常是由人工进行修复,此举易造成以下问题:针对处理器集群场景,人工修复的耗时过长(例如:处理器级别的逐一排查、功能模块级别的逐一排查等带来的耗时),易导致处理器对应的业务功能中断时间过长。此外,人工修复的高耗时在一些高可靠场景下(例如:网上银行、云存储等用户希望可以随时使用其业务功能的场景),是开发人员、用户均无法容忍的。另外,人工修复的排查成本也过高。
有鉴于此,本公开实施例提供了一种异常事件的处理方法,应用于处理器或处理器管理器,可获取异常事件,而后确定所述异常事件对应的事件类别;最终根据所述事件类别,对所述异常事件进行处理。本公开实施例提供的处理方法,可自动确定每个异常事件的事件类别,并据此对异常事件进行自动化的处理,节约了人工修复的修复成本,此外,自动化的处理流程也有助于降低修复时长,使得处理器可应用于高可靠的场景。
本公开实施例所述的处理器可为CPU(Central Processing Unit,中央处理器)、GPU(Graphics Processing Unit,图形处理器)、显示适配器、声音适配器等任意一种可执行数据处理操作的处理装置。本公开实施例所述的处理器管理器可为服务器或管理用的处理器,可用以集中管理与之连接的处理器即可。参阅图1所示,图1示出了本公开实施例提供的四种系统架构的参考示意图。图1中的四种系统架构可用以支持用户侧业务功能的执行。在图1中处理器表现为GPU(或称GPU卡),处理器管理器表现为GPU卡(管理卡)或服务器。结合图1所示,图1示出了本公开实施例提供的四种系统架构的参考示意图,其中(a)架构为处理器管理器(可参考图1中(a)的服务器)对应一个处理器(可参考图1中(a)的GPU卡),(b)架构为处理器管理器(可参考图1中(b)的服务器)对应多个处理器(可参考图1中(b)的GPU卡0到GPU卡N,也即对应N个GPU卡,N的数量不限),(c)架构包括多个处理器管理器(可参考图1中(c)的服务器A到服务器N),每个处理器管理器可对应多个处理器(可参考图1中(c)的GPU卡00到GPU卡30,其对应服务器A),(d)架构可将(c)架构中的部分或全部服务器替换为管理卡,该管理卡负责对其对应的处理器进行管理,其本身可负责实现与之连接的处理器的管理功能,也可负责实现业务流程中的部分或全部运算功能,本公开实施例在此不作限制。此外,上述系统架构仅作出示例性的描述,例如:(c)、(d)架构中的部分服务器、管理卡可不带有GPU卡,或每个服务器或管理卡对应的GPU卡的数量不同,本公开实施例在此不作限制。
参阅图2所示,图2示出了本公开实施例提供的异常事件的处理方法的流程图。所述处理方法可应用于处理器或处理器管理器,所述处理器管理器与至少一个处理器相连。示例性地,上述处理器管理器还可与多个处理器相连。如图2所示,所述处理方法包括:步骤S100,获取异常事件。示例性地,上述异常事件可包括任意一种使得处理器或处理器管理器无法准确执行对应的业务流程的软件异常或硬件异常,或对暂时不影响、影响很小的软件异常或硬件异常,本公开实施例在此不作限制。在一个示例中,上述异常事件可包括处理器主动上报的异常事件、通信异常事件、驱动模块异常事件、软件模块异常事件等,本公开实施例在此不作限制。例如:上述处理器主动上报的异常事件可为处理器产生的异常中断、由于处理器的部分或全部处理功能异常所导致的处理器失去或降低业务流程处理能力、对业务流程处理能力有少许影响等。上述通信异常事件可为处理器与处理器之间无法进行通信,例如:若二者的通信基于PCIE(Peripheral Component Interconnect Express,一种基于高速串行计算机扩展总线标准),则可表现为PCIE链路断开导致的PCIE异常事件。结合处理器与处理器管理器之间的管理关系,上述驱动模块异常事件可为与处理器管理器中对应的处理器的驱动模块(该模块用以保存处理器的驱动程序,以实现处理器管理器与处理器之间的交互、功能控制等)监控到的处理器异常。结合实际应用场景,用户通过应用程序实现业务功能,该业务功能对应逻辑指令序列,该逻辑指令序列用以处理器实现业务功能,则上述软件模块即可为保存该逻辑指令序列中部分或全部逻辑指令的模块。换言之,上述软件模块可规划处理器在不同时序处理的数据。而该软件模块中出现的异常(如软件逻辑异常、硬件异常)则可作为上述软件模块异常事件。
结合实际应用场景,上述处理器管理器可仅负责与之连接的处理器的统一管理,也可同时负责业务功能中的输入数据的处理。换言之,处理器管理器不仅具备执行处理器在业务功能中负责的业务流程的功能,也可具备对其连接的处理器进行集中管理的功能,处理器管理器具体的功能可由开发人员进行设定,本公开实施例在此不作限制。而在处理器管理器同时具备上述两种功能的情况下,上述异常事件可包括:与之连接的处理器发送的异常事件、自身的健康监控模块(用以自动检测异常事件的发生)检测到的异常事件。也即上述步骤S100可包括:获取所述至少一个处理器发送的异常事件或获取自身的健康监控模块检测到的异常事件。而在处理器中,上述步骤S100可包括:获取自身的健康监控模块检测到的异常事件。即处理器自身也可进行异常事件的监控,以避免通信异常事件发生时,处理器无法获取处理器管理器的修复指令,后文将予以详述。
继续参阅图2,步骤S200,确定所述异常事件对应的事件类别。其中,所述事件类别用以表示所述异常事件的异常程度。示例性地,可将事件类别分为四种:提示级别、警告级别、严重级别、致命级别,其对应的异常程度依次提升,且不同的事件类别可对应不同的处理方式。当然开发人员也可根据实际应用情况,对上述事件类别进行增删或修改。开发人员也可为每一种可能出现的异常事件预先设定对应的事件类别,例如:通过一预设对应表记录,处理器或处理器管理器可通过该对应表确定异常事件对应的事件类别,本公开实施例在此不作限制。
步骤S300,根据所述事件类别,对所述异常事件进行处理。
在一种可能的实施方式中,所述处理器或所述处理器管理器包括至少一个功能模块,所述根据所述事件类别,对所述异常事件进行处理,包括:根据所述事件类别,对所述异常事件进行以下任意一项处理:根据所述异常事件,生成提示信息;保存所述异常事件;对所述异常事件对应的功能模块进行修复;针对所述处理器或所述处理器管理器进行整体修复,得到修复结果;保存所述异常事件以及所述修复结果。示例性地,本公开实施例在此不限定不同的事件类别对应的异常事件的处理方式,例如:任意类别的异常事件均可生成提示信息,或也可以直接对功能模块、处理器、处理器管理器进行修复,本公开实施例在此不作限定,开发人员可根据实际需求进行设定。示例性地,上述修复结果可包括:修复成功、修复失败等,本公开实施例在此不作限定。结合图3所示,图3示出了本公开实施例提供的异常事件的处理方法的参考示意图。如图3所示,图3在获取异常事件后可确定异常事件对应的事件类别。而后根据异常事件的事件类别,按照既定规则(例如开发人员可预先设定每个事件类别的处理方式)确定是否进行:生成提示信息、保存异常事件、对异常事件进行修复等异常处理(可参考上文中的任意一项处理),而后执行对应的异常处理。
示例性地,所述功能模块可为软件功能模块、硬件引擎(例如:语音引擎、Copy引擎、片上网络逻辑模块(或称NOC逻辑模块)、SPU模块(或称服务处理模块)等)中的至少一项。其中,所述软件功能模块用以确定逻辑指令序列(可为上述业务功能中涉及的部分或全部逻辑指令)、所述逻辑指令序列对应的数据(例如:业务功能中用户输入的数据或开发人员预先配置的数据等)中的至少一个,并将所述逻辑指令序列中的至少一个指令或所述至少一个指令对应的数据发送至所述硬件引擎或对应的软件模块(软件模块的定义可参考上文)。所述硬件引擎用以对所述逻辑指令序列中的至少一个指令或所述至少一个指令对应的数据进行处理。示例性地,上述软件功能模块包括固件软件功能模块、驱动程序模块,其中固件软件功能模块可为关键功能模块,也即自愈流程可针对关键功能模块进行修复。上述关键功能模块可为软件功能模块中对业务流程较为重要的功能对应的模块,本公开实施例在此不作限定,可由开发人员设定。所述驱动程序模块用以保存与所述处理管理器连接的处理器的驱动程序。
在一种可能的实施方式中,若应用于处理器,则步骤S300可包括:在确定与所述处理器对应的处理器管理器通信成功的情况下,发送所述异常事件至所述处理器对应的处理器管理器。在确定与所述处理器对应的处理器管理器通信失败的情况下,对所述异常事件进行处理。在本公开实施例中,考虑到了处理器与处理器管理器之间可能出现的通信异常的情况,在此情况中,由于处理器无法与处理器管理器进行交互,故处理器无法获取处理器管理器的修复指令,而本公开实施例可通过检测通信是否成功,以确定是否由处理器自身进行修复,提高了系统的修复稳定性。
在一种可能的实施方式中,若应用于处理器管理器,则步骤S300可包括:根据所述事件类别,发送所述异常事件对应的处理指令至所述至少一个处理器。其中,所述处理指令用于确定所述异常事件的处理方式。示例性地,上述处理指令可指示处理器进行何种操作。例如:上述处理指令可为指示复位指令、指示断电指令、指示上电指令等,相应的,处理器在接收到上述处理指令后,生成复位指令(处理器带电复位)、断电指令、上电指令等以修复对应的卡件、功能模块等,即在本公开实施例中处理器可负责执行上述复位指令、断电指令、上电指令等进行自愈,处理器管理器可负责生成指示复位指令、指示断电指令、指示上电指令等对处理器的自愈方式进行指导。
在一种可能的实施方式中,步骤S300可包括:在确定所述事件类别为第一类别的情况下,保存所述异常事件。示例性地,上述异常事件可发送至与处理器连接的处理器管理器中的驱动模块,在驱动模块中可进行查看。在确定所述事件类别为第一类别的情况下,根据所述异常事件,生成提示信息,并保存所述异常事件;其中,所述提示信息用以保存至处理器或处理器管理器的异常事件记录模块,和/或用以发送至管理终端。示例性地,上述保存至异常事件记录模块的提示信息可用以提示处理器或处理器管理器的维护人员,上述发送至管理终端的提示信息可用以提示客户(例如:无需了解处理器的底层运行逻辑的租用者或业务流程的设计者等)。换言之,本公开实施例的提示信息可在检测到任意一种事件类别的情况下生成,也可在检测到部分事件类别的情况下生成,本公开实施例在此不作限定,可由开发人员根据实际需求设定。在确定所述事件类别为第二类别的情况下,根据所述异常事件,生成提示信息,并保存所述异常事件。其中,所述第二类别对应的异常事件比所述第一类别的异常程度更高。在本公开实施例中,可为每个异常事件设定对应的事件类别,以使处理器或处理器管理器确定异常事件对应的处理方式。示例性地,上述保存所述异常事件可包括:保存所述异常事件至处理器中的异常事件日志中、保存所述异常事件至与处理器连接的处理器管理器中的异常事件日志中、二者的异常事件日志均进行保存中的任意一项,本公开实施例在此不作限制。上述异常事件日志后续用以开发人员进行查阅,以确定处理器或处理器管理器的工作情况。开发人员可根据实际情况,确定是否对异常事件日志中记录的第一类别、第二类别对应的异常事件进行人工处理,本公开实施例在此不作限制。上述提示信息可为任意一种可产生提示作用的信息,具体的形式本公开实施例在此不作限制,可被开发人员后续查阅到即可。结合实际应用场景,上述处理器生成的提示信息可发送至处理器管理器,上述处理器管理器接收到的提示信息可发送至与处理器管理器相连的管理终端,该管理终端可配置有可视化界面,以显示上述提示信息。在一个示例中,上述管理终端还可显示异常事件的处理流程或结果,例如:复位开始时间、复位成功时间等。换言之,上述保存所述异常事件,可包括保存所述异常事件的处理结果或处理流程,以供后续管理终端进行显示调用。
参阅图4,图4示出了本公开实施例提供的异常事件的处理方法的流程图,如图4所示,在一种可能的实施方式中,步骤S300,可包括:步骤S310,在确定所述事件类别为第三类别的情况下,根据所述异常事件生成提示信息。其中,所述第三类别对应的异常事件比第二类别的异常程度更高。在一个示例中,还可根据第一类别、第二类别中至少一项对应的异常事件生成提示信息。换言之,本公开实施例在此不限定异常程度更低的异常事件的处理方式,若开发人员出于稳定性的考虑,也可不以异常程度作为提示信息的生成标准,也即每个异常事件均可以对应一个提示信息,并供管理终端进行显示调用。
步骤S320,对所述异常事件对应的功能模块进行修复或针对所述处理器或所述处理器管理器进行整体修复,得到修复结果。
在一种可能的实施方式中,步骤S320可包括:对所述异常事件对应的功能模块进行复位,直至对所述异常事件对应的功能模块修复成功。示例性地,上述复位可包括:通过对异常事件对应的功能模块的寄存器的写入操作,例如将寄存器对应的默认值写入至异常事件对应的功能模块的寄存器中,将功能模块重置为初始状态(例如重置寄存器中存储的值为初始数值,该过程中功能模块可一直带电)、通过对功能模块进行下电、上电,将功能模块重置为初始状态(该过程中功能模块可经历断电过程)中的至少一项,本公开实施例在此不作限制,可重置功能模块的工作状态即可。在修复失败的次数达到第一预设次数、和/或修复时长高于第一时长的情况下,停止对所述异常事件对应的功能模块进行修复,并针对所述处理器或所述处理器管理器进行整体修复。示例性地,本公开实施例在此不限定第一预设次数、第一时长的具体数值,开发人员可根据实际需求灵活设定。在一种可能的实施方式中,上述对所述异常事件对应的功能模块进行复位,可包括:随着对所述异常事件对应的功能模块进行复位的次数的增加,增加每次对所述异常事件对应的功能模块进行复位的时间间隔。结合实际应用场景,功能模块存在由于过热或被其他进程占用等而无法立即执行复位操作的情况,进而导致在第一时长内未完成复位。换言之,在上述情况下,功能模块未进行复位处理、或进行过少次数的复位处理即可能直接被判定为需要进行整体修复,而实际上,功能模块可能仅是因为暂时无法执行复位操作而被判定为修复失败。考虑到以上情况,本公开实施例通过递增式的时间间隔对功能模块进行复位处理,提高了功能模块实际执行的复位处理的次数,提高了修复结果的代表性,有利于提升功能模块的修复效果,也有利于降低功能模块的异常对其对应的处理器在整体上的影响(例如:处理器包括功能模块A、功能模块B,若A出现异常,且修复失败(即满足上述有关第一预设次数、第一时长的任意一个判定条件),则处理器将进行整体修复,在此情况下,功能模块B也将进入维护阶段而无法正常执行其对应的业务流程,故降低对处理器进行整体修复的概率,有利于降低功能模块对处理器上其他功能模块的影响)。
参阅图5,图5示出了根据本公开实施例提供的对功能模块进行修复的参考示意图,如图5所示,示例性地,此处以处理器为GPU、功能模块为GPU的硬件引擎为例,在开启GPU单引擎修复后,确定单引擎修复指令(例如上述复位)是否成功执行,若成功执行,则GPU单引擎修复流程结束,上报自愈成功消息(也即修复结果,后续可将修复结果保存至处理器或处理器管理器的异常事件日志中),并将GPU重新加入至业务流程中(即GPU可继续参与处理器管理器负责的部分业务功能),若未成功执行,则GPU重复执行单引擎修复指令,直至失败3次(也即此处以3次作为上述第一预设次数),开启GPU卡修复流程(也即此处以GPU卡修复流程作为上述整体修复),并结束GPU单引擎修复流程。当然,上述单引擎修复流程可由处理器发起,也可由与处理器连接的处理器管理器发起,本公开实施例在此不作限制。在一个示例中,也可设定预设条件(例如处理器与处理器管理器之间的通信是否成功)以确定具体的发起对象。在一个示例中,在应用于处理器的情况下,所述根据所述事件类别,对所述异常事件进行处理,可包括:在确定与所述处理器对应的处理器管理器通信成功的情况下,发送所述异常事件至所述处理器对应的处理器管理器。在确定与所述处理器对应的处理器管理器通信失败的情况下,对所述异常事件进行处理。
在一种可能的实施方式中,所述针对所述处理器或所述处理器管理器进行整体修复,包括:重新建立与处理器管理器或处理器的连接,直至对所述处理器或所述处理器管理器修复成功。示例性地,上文中的重新建立连接可包括:重新建立处理器管理器与处理器之间的通信通道、重新复位(可参考上文中复位的定义)所述处理器管理器或处理器等。示例性地,本公开实施例提供了几种可能出现的情况以供参考:1、处理器需要进行整体修复,则处理器管理器可先移除故障的处理器,而后再接入该处理器。处理器在接入后继续执行对应的业务流程。2、处理器管理器仅负责管理与之连接的处理器,则处理器管理器自身可进行重启,并尝试重新连接处理器(例如:与多个处理器均出现通信异常的场景,在该场景下,可能是处理器管理器自身出现了异常)。3、处理器管理器不仅负责管理与之连接的处理器,自身还负责业务功能中的部分业务流程,则处理器管理器可对负责的业务功能对应的模块进行复位,并尝试重新接入负责管理的模块。在一个示例中,针对处理器与处理器之间、处理器管理器与处理器管理器之间、管理终端与处理器管理器等任意一种控制层级,均可具备针对出现异常事件的处理器、数据处理器进行整体修复、对功能模块进行修复的能力(可体现为复位、上下电、插拔等),其设置对应的异常事件处理模块即可,本公开实施例在此不作限制,可由开发人员进行设定。
本公开实施例在此仅作出示例性的表述,在实际过程中还可能出现其他情况,可通过上述方式进行修复即可。在以下至少一种情况下,停止对所述处理器或所述处理器管理器进行修复,并对所述处理器或所述处理器管理器执行隔离操作:修复失败的次数达到第二预设次数、修复的单次时长高于第二时长、修复的总时长高于第三时长,示例性地,上述修复失败的次数可包括断开与处理器管理器或处理器的连接的失败次数、或建立与处理器管理器或处理器的连接的失败次数、或二者之和。示例性地,本公开实施例在此不限制第二预设次数、第二时长、第三时长的具体数值,开发人员可根据实际需求进行设定。示例性地,上述隔离操作可为:在人工处理之前,不再将上述处理器或处理器管理器作为实现业务功能的一部分、或在较长的预设时间之前,不再将上述处理器或处理器管理器作为实现业务功能的一部分,本公开实施例在此不作限制,可对无法自愈的处理器或处理器管理器进行业务隔离即可。
参阅图6,图6示出了根据本公开实施例提供的图5中GPU卡修复流程的参考示意图,如图6所示,此处以处理器为GPU,且对其进行整体修复为例,在开启GPU卡修复(也即整体修复)后,处理器管理器移除出现异常事件的GPU,若移除失败则计入失败次数,若移除成功则重新接入该GPU。若重新接入成功,则认为GPU的异常事件已被修复,GPU修复结束,后续可将异常事件、修复结果记录至该GPU和/或处理器管理器的异常事件日志中。若重新接入失败,则再次尝试重新接入,在失败5次(也即此处以5次作为上述第二预设次数)后,对该GPU进行隔离,后续可将异常事件、修复结果记录至处理器管理器的异常事件日志中,以供开发人员进行查阅。示例性地,图6仅作出示例性的表示,本公开实施例在此不限制整体修复的流程一定位于功能模块的修复之后,即在一些异常事件中,可以直接执行整体修复的流程,而无需执行上述功能模块的修复。
在一种可能的实施方式中,所述重新建立与处理器管理器或处理器的连接,包括:通过插拔、复位、上下电中的至少一项建立与处理器管理器或处理器的连接。示例性地,上述插拔可表现为对处理器或处理器管理器的物理插拔,复位可参考上文定义,上下电可表现为对处理器或处理器管理器的通断电管理,本公开在此不作限制。在此基础上,所述重新建立与处理器管理器或处理器的连接,还包括:随着插拔或复位或上下电的修复失败的次数的增加,增加每次插拔或复位或上下电的时间间隔。结合实际应用场景,处理器存在由于过热或被其他进程占用等而无法立即执行重新连接的情况,进而导致在第二时长内未完成重新连接。换言之,在上述情况下,处理器未进行重新连接、或进行过少次数的重新连接即可能直接被判定为需要进行处理器的隔离,而实际上,处理器可能仅是因为暂时无法执行重新连接操作而被判定为修复失败。考虑到以上情况,本公开实施例通过递增式的时间间隔对处理器进行重新连接,提高了处理器实际执行的重新连接的次数,提高了修复效果,降低了处理器被隔离的概率。
继续参阅图4,步骤S330,保存所述异常事件以及修复结果。示例性地,上述保存所述异常事件以及修复结果可包括:保存所述异常事件以及修复结果至处理器中的异常事件日志中、保存所述异常事件以及修复结果至与处理器连接的处理器管理器中的异常事件日志中、二者的异常事件日志均进行保存中的任意一项,本公开实施例在此不作限制。示例性地,上述修复结果可包括修复失败、修复成功、修复过程(例如复位次数、修复的时间间隔等)等,本公开实施例在此不作限制。
参阅图7,图7示出了根据本公开实施例提供的处理方法的流程图,如图7所示,本公开实施例还提供了一种异常事件的处理方法,应用于管理终端。所述管理终端与至少一个处理器管理器相连,所述处理器管理器与至少一个处理器相连。示例性地,上述管理终端可与多个处理器管理器相连,而每个处理器管理器还可与多个处理器相连,以构成处理器集群,本公开实施例在此不作限定。所述处理方法包括:步骤S600,获取处理器管理器发送的提示信息、和/或异常事件日志;其中所述异常事件日志用以保存异常事件、所述异常事件对应的修复结果中的至少一个。示例性地,上述提示信息、异常事件日志可由管理终端主动获取,也可由处理器管理器主动发送,而管理终端被动接收,本公开实施例在此不作限制。
步骤S700,显示所述提示信息、和/或异常事件日志。示例性地,上述管理终端可为任意一种电子设备,带有可视化界面即可,在一个示例中,上述管理终端还可包括更多的功能,例如:处理器管理器的停用及启用、处理器的停用及启用、查询处理器管理器或处理器的工作状态等,开发人员可根据实际需求进行设定,本公开实施例在此不作赘述。
参阅图8,图8示出了根据本公开实施例提供的系统架构的参考示意图。如图8所示,本公开实施例在此提供了一种系统架构以供参考,此处以处理器为GPU(或称为图8中的GPU卡)、处理器管理器为服务器或GPU管理卡为例,GPU可通过通信总线与服务器或GPU管理卡进行通信,以上报自身的健康状态、异常事件等,服务器或GPU管理卡可通过通信链路(例如:无线网络)与远端监控管理终端(也即上述管理终端)交互,以实现GPU、服务器或GPU管理卡的工作状态、异常事件的查询。示例性地,图8中的健康监控模块用以监控异常事件,如处理器主动上报的异常事件、PCIE上报的异常事件、处理器相关的驱动模块检测到的异常事件、软件模块的异常事件等。图8中的异常事件处理模块用以对异常事件进行分类(也即确定异常事件对应的事件类别),以对不同的异常事件进行不同的处理。如:异常事件若对应一般事件,则将该异常事件记录至图8中的异常事件记录模块(如异常事件记录模块可保存有异常事件日志,该日志可保存自愈情况、异常事件等相关信息,以供后续开发人员进行查阅)。异常事件若对应警告事件,则生成提示信息,并上报至远程监控管理终端,以显示给用户,并将该异常事件记录至图8中的异常事件记录模块。异常事件若对应严重异常事件、致命异常事件等异常程度更高的类别,则启动异常自愈模块,开启修复(也称自愈)流程,并将该异常事件记录至图8中的异常事件记录模块。图8中的异常自愈模块用以接收异常事件处理模块开启的功能模块修复或针对处理器、处理器管理器的整体修复的相关指令,并对功能模块或处理器、处理器管理器整体进行修复,并将修复结果返回给处理器管理器或处理器,后续可将修复结果也保存至异常事件记录模块。此处以处理器为GPU为例,异常自愈模块的自愈功能可包括:引擎自愈(也即对上述硬件引擎进行修复)、整卡自愈(也即上述针对处理器、处理器管理器进行整体修复)、关键软件功能模块自愈(也即对上述软件模块进行修复)。
当然,图8仅为示例性的表示,本公开实施例在此不限定系统架构中每个处理器、处理器管理器的结构,例如:结合图8,在服务器或GPU管理卡包括上述四个模块的情况下,GPU卡可以也包括上述四个模块,即可使其适配于通信异常中GPU管理卡无法对GPU进行管理的场景。GPU卡也可不包括上述全部四个模块,即异常事件的处理由服务器负责发起。GPU卡、GPU管理卡、服务器也可均包括上述四个模块,并设定预设条件,GPU在预设条件下启用上述四个模块,例如,与处理器管理器通信失败的场景下,处理器可启用上述四个模块。此外,同一系统架构下的处理器、处理器管理器的结构也可不同,本公开实施例在此不对处理器、处理器管理器的结构进行限定,开发人员可根据实际需求进行设定。
结合图9,图9示出了根据本公开实施例提供的异常事件的处理方法的参考示意图,此处以处理器为GPU为例,如图9所述,图9中的GPU卡异常事件监控可由上述健康监控模块负责,其可监控GPU卡监控模块上报(也即上报上文中的驱动模块异常事件)、GPU卡件异常事件上报(也即上文中的处理器主动上报的异常事件)、PCIE异常事件(也即上报上文中的通信异常事件),而后由GPU卡事件处理模块(也即上文中的异常事件处理模块)进行事件类别的确定。GPU卡自愈模块(也即上文中的异常自愈模块)在得到事件类别后,进行GPU自愈,并将自愈结果发送至GPU卡事件记录模块(也即上文中的异常事件记录模块),由GPU卡事件记录模块保存至异常事件日志中。
此处以出现异常事件的处理器为GPU为例,本公开实施例在此提供了一种具体的异常自愈模块执行的自愈流程以供参考:对于出现异常事件的GPU,先进行下电卡件操作,再进行上电卡件操作(若卡件对应一个独立的区域电源,也可表现为对区域电源进行通断操作)。若恢复正常,则认为GPU自愈成功,记录卡件自愈成功的修复结果保存至GPU或处理器管理器中的异常事件日志。若恢复失败,则再次进行自愈恢复流程(也即上文中的复位),在一定时间内(例如8小时或者一天内),自愈失败一定次数(例如8次或其他预设的次数),则进行GPU隔离(在一个示例中,可在隔离后向管理终端发送隔离信息,以提醒开发人员进行GPU的人工修复或替换)。而在一次GPU自愈失败后,下一次的自愈时间间隔可进行适当延长,例如,第一次失败后间隔30秒进行下一次自愈,再次失败后间隔6分钟进行自愈,等等,该间隔可依次增加或是增加至预设值后不再增加,本公开实施例在此不作限制,上述间隔也可由开发人员根据实际应用情况进行调整。本公开实施例提供的异常事件的处理方法,可在处理器或处理器管理器发生异常时,对其进行自愈,自愈后即可恢复其对应的业务功能,人工干预程度低,且可节省人工排查的时间。结合处理器集群的场景,人工处理的情况下需要进行大量排查,会消耗大量的时间。而在本公开实施例中,则可通过上述处理方法自动恢复处理器或处理器管理器的业务能力,有利于提高处理器或处理器管理器的可靠性。
可以理解,本公开提及的上述各个方法实施例,在不违背原理逻辑的情况下,均可以彼此相互结合形成结合后的实施例,限于篇幅,本公开不再赘述。本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
此外,本公开还提供了处理器、处理器管理器、管理终端、电子设备、计算机可读存储介质、程序,上述均可用来实现本公开提供的任一种异常事件的处理方法,相应技术方案和描述和参见方法部分的相应记载,不再赘述。
图10示出了根据本公开实施例提供的电子设备的框图,所述电子设备包括处理器或处理器管理器,所述处理器管理器与至少一个处理器相连,如图10所示,当所述电子设备为处理器或处理器管理器时,所述电子设备100包括:健康监控模块110,用以获取异常事件;异常事件处理模块120,用以确定所述异常事件对应的事件类别;其中,所述事件类别用以表示所述异常事件的异常程度;所述异常
事件处理模块还用以根据所述事件类别,对所述异常事件进行处理。
在一种可能的实施方式中,所述处理器或所述处理器管理器包括至少一个功能模块;所述根据所述事件类别,对所述异常事件进行处理,包括:根据所述事件类别,对所述异常事件进行以下任意一项处理:根据所述异常事件,生成提示信息;保存所述异常事件;对所述异常事件对应的功能模块进行修复;针对所述处理器或所述处理器管理器进行整体修复,得到修复结果;保存所述异常事件以及所述修复结果。
在一种可能的实施方式中,所述处理器或处理器管理器还包括异常事件记录模块,所述根据所述事件类别,对所述异常事件进行处理,包括以下至少一项:在确定所述事件类别为第一类别的情况下,保存所述异常事件至异常事件记录模块;在确定所述事件类别为第一类别的情况下,根据所述异常事件,生成提示信息,并保存所述异常事件;其中,所述提示信息用以保存至处理器或处理器管理器的异常事件记录模块,和/或用以发送至管理终端;在确定所述事件类别为第二类别的情况下,根据所述异常事件,生成提示信息,并保存所述异常事件至异常事件记录模块;其中,所述第二类别对应的异常事件比所述第一类别的异常程度更高。
在一种可能的实施方式中,所述根据所述事件类别,对所述异常事件进行处理,包括:在确定所述事件类别为第三类别的情况下,根据所述异常事件生成提示信息;通过所述处理器或所述处理器管理器的异常自愈模块,对所述异常事件对应的功能模块进行修复或针对所述处理器或所述处理器管理器进行整体修复,得到修复结果;其中,所述第三类别对应的异常事件比第二类别的异常程度更高;保存所述异常事件以及修复结果至异常事件记录模块。
在一种可能的实施方式中,所述对所述异常事件对应的功能模块进行修复,包括:对所述异常事件对应的功能模块进行复位,直至对所述异常事件对应的功能模块修复成功;在修复失败的次数达到第一预设次数、和/或修复时长高于第一时长的情况下,停止对所述异常事件对应的功能模块进行修复,并针对所述处理器或所述处理器管理器进行整体修复。
在一种可能的实施方式中,所述对所述异常事件对应的功能模块进行复位,包括:随着对所述异常事件对应的功能模块进行复位的次数的增加,增加每次对所述异常事件对应的功能模块进行复位的时间间隔。
在一种可能的实施方式中,所述针对所述处理器或所述处理器管理器进行整体修复,包括:重新建立与处理器管理器或处理器的连接,直至对所述处理器或所述处理器管理器修复成功;在以下至少一种情况下,停止对所述处理器或所述处理器管理器进行修复,并对所述处理器或所述处理器管理器执行隔离操作:修复失败的次数达到第二预设次数、修复的单次时长高于第二时长、修复的总时长高于第三时长。
在一种可能的实施方式中,所述重新建立与处理器管理器或处理器的连接,包括:通过插拔、复位、上下电中的至少一项建立与处理器管理器或处理器的连接;所述重新建立与处理器管理器或处理器的连接,还包括:随着插拔或复位或上下电的修复失败的次数的增加,增加每次插拔或复位或上下电的时间间隔。
在一种可能的实施方式中,所述功能模块包括:软件功能模块、硬件引擎中的至少一项;其中,所述软件功能模块用以确定逻辑指令序列、所述逻辑指令序列对应的数据中的至少一个,并将所述逻辑指令序列中的至少一个指令或所述至少一个指令对应的数据发送至所述硬件引擎或对应的软件模块;所述硬件引擎用以对所述逻辑指令序列中的至少一个指令或所述至少一个指令对应的数据进行处理。
在一种可能的实施方式中,所述电子设备为处理器管理器,所述获取异常事件包括:获取所述至少一个处理器发送的异常事件;所述根据所述事件类别,对所述异常事件进行处理,包括:根据所述事件类别,发送所述异常事件对应的处理指令至所述至少一个处理器;其中,所述处理指令用于确定所述异常事件的处理方式。
在一种可能的实施方式中,所述电子设备为处理器,所述根据所述事件类别,对所述异常事件进行处理,包括:在确定与所述处理器对应的处理器管理器通信成功的情况下,发送所述异常事件至所述处理器对应的处理器管理器;在确定与所述处理器对应的处理器管理器通信失败的情况下,对所述异常事件进行处理。
图11示出了根据本公开实施例提供的管理终端的框图,所述管理终端与至少一个处理器管理器相连;所述处理器管理器与至少一个处理器相连;如图11所示,所述管理终端200包括:信息获取模块210,用以获取处理器管理器发送的提示信息、和/或异常事件日志;其中所述异常事件日志用以保存异常事件、修复结果中的至少一个;信息显示模块220,用以显示所述提示信息、和/或异常事件日志。
该方法与计算机系统的内部结构存在特定技术关联,且能够解决如何提升硬件运算效率或执行效果的技术问题(包括减少数据存储量、减少数据传输量、提高硬件处理速度等),从而获得符合自然规律的计算机系统内部性能改进的技术效果。
在一些实施例中,本公开实施例提供的处理器、处理器管理器、管理终端等装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
本公开实施例还提出一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。计算机可读存储介质可以是易失性或非易失性计算机可读存储介质。
本公开实施例还提出一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器存储的指令,以执行上述方法。
本公开实施例还提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备的处理器中运行时,所述电子设备中的处理器执行上述方法。
电子设备可以被提供为处理器、处理器管理器、管理终端或其它形态的设备。
图12示出了根据本公开实施例提供的一种电子设备1900的框图。例如,电子设备1900可以被提供为一服务器或终端设备。参照图12,电子设备1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行上述方法。
电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源管理,一个有线或无线网络接口1950被配置为将电子设备1900连接到网络,和一个输入输出接口1958(I/O接口)。电子设备1900可以操作基于存储在存储器1932的操作系统,例如微软服务器操作系统(Windows ServerTM),苹果公司推出的基于图形用户界面操作系统(MacOS XTM),多用户多进程的计算机操作系统(UnixTM), 自由和开放原代码的类Unix操作系统(LinuxTM),开放原代码的类Unix操作系统(FreeBSDTM)或类似。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器1932,上述计算机程序指令可由电子设备1900的处理组件1922执行以完成上述方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是(但不限于)电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
若本申请技术方案涉及个人信息,应用本申请技术方案的产品在处理个人信息前,已明确告知个人信息处理规则,并取得个人自主同意。若本申请技术方案涉及敏感个人信息,应用本申请技术方案的产品在处理敏感个人信息前,已取得个人单独同意,并且同时满足“明示同意”的要求。例如,在摄像头等个人信息采集装置处,设置明确显著的标识告知已进入个人信息采集范围,将会对个人信息进行采集,若个人自愿进入采集范围即视为同意对其个人信息进行采集;或者在个人信息处理的装置上,利用明显的标识/信息告知个人信息处理规则的情况下,通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权;其中,个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (25)

1.一种异常事件的处理方法,其特征在于,应用于处理器或处理器管理器,所述处理器管理器与至少一个处理器相连,所述处理方法包括:
获取异常事件;
确定所述异常事件对应的事件类别;其中,所述事件类别用以表示所述异常事件的异常程度;
根据所述事件类别,对所述异常事件进行处理。
2.如权利要求1所述的处理方法,其特征在于,所述处理器或所述处理器管理器包括至少一个功能模块;所述根据所述事件类别,对所述异常事件进行处理,包括:
根据所述事件类别,对所述异常事件进行以下任意一项处理:根据所述异常事件,生成提示信息;保存所述异常事件;对所述异常事件对应的功能模块进行修复;针对所述处理器或所述处理器管理器进行整体修复,得到修复结果;保存所述异常事件以及所述修复结果。
3.如权利要求1或2所述的处理方法,其特征在于,所述根据所述事件类别,对所述异常事件进行处理,包括以下至少一项:
在确定所述事件类别为第一类别的情况下,保存所述异常事件;
在确定所述事件类别为第一类别的情况下,根据所述异常事件,生成提示信息,并保存所述异常事件;其中,所述提示信息用以保存至处理器或处理器管理器的异常事件记录模块,和/或用以发送至管理终端;
在确定所述事件类别为第二类别的情况下,根据所述异常事件,生成提示信息,并保存所述异常事件;其中,所述第二类别对应的异常事件比所述第一类别的异常程度更高。
4.如权利要求1所述的处理方法,其特征在于,所述根据所述事件类别,对所述异常事件进行处理,包括:
在确定所述事件类别为第三类别的情况下,根据所述异常事件生成提示信息;
对所述异常事件对应的功能模块进行修复或针对所述处理器或所述处理器管理器进行整体修复,得到修复结果;其中,所述第三类别对应的异常事件比第二类别的异常程度更高;
保存所述异常事件以及修复结果。
5.如权利要求4所述的处理方法,其特征在于,所述对所述异常事件对应的功能模块进行修复,包括:
对所述异常事件对应的功能模块进行复位,直至对所述异常事件对应的功能模块修复成功;
在修复失败的次数达到第一预设次数、和/或修复时长高于第一时长的情况下,停止对所述异常事件对应的功能模块进行修复,并针对所述处理器或所述处理器管理器进行整体修复。
6.如权利要求5所述的处理方法,其特征在于,所述对所述异常事件对应的功能模块进行复位,包括:随着对所述异常事件对应的功能模块进行复位的次数的增加,增加每次对所述异常事件对应的功能模块进行复位的时间间隔。
7.如权利要求4至6中任意一项所述的处理方法,其特征在于,所述针对所述处理器或所述处理器管理器进行整体修复,包括:
重新建立与处理器管理器或处理器的连接,直至对所述处理器或所述处理器管理器修复成功;
在以下至少一种情况下,停止对所述处理器或所述处理器管理器进行修复,并对所述处理器或所述处理器管理器执行隔离操作:修复失败的次数达到第二预设次数、修复的单次时长高于第二时长、修复的总时长高于第三时长。
8.如权利要求7所述的处理方法,其特征在于,所述重新建立与处理器管理器或处理器的连接,包括:通过插拔、复位、上下电中的至少一项建立与处理器管理器或处理器的连接;
所述重新建立与处理器管理器或处理器的连接,还包括:随着插拔或复位或上下电的修复失败的次数的增加,增加每次插拔或复位或上下电的时间间隔。
9.如权利要求2所述的处理方法,其特征在于,功能模块包括:软件功能模块、硬件引擎中的至少一项;其中,所述软件功能模块用以确定逻辑指令序列、所述逻辑指令序列对应的数据中的至少一个,并将所述逻辑指令序列中的至少一个指令或所述至少一个指令对应的数据发送至所述硬件引擎或对应的软件模块;所述硬件引擎用以对所述逻辑指令序列中的至少一个指令或所述至少一个指令对应的数据进行处理。
10.如权利要求1所述的处理方法,其特征在于,应用于处理器管理器,所述获取异常事件包括:获取所述至少一个处理器发送的异常事件;所述根据所述事件类别,对所述异常事件进行处理,包括:根据所述事件类别,发送所述异常事件对应的处理指令至所述至少一个处理器;其中,所述处理指令用于确定所述异常事件的处理方式。
11.如权利要求1所述的处理方法,其特征在于,应用于处理器,所述根据所述事件类别,对所述异常事件进行处理,包括:
在确定与所述处理器对应的处理器管理器通信成功的情况下,发送所述异常事件至所述处理器对应的处理器管理器;
在确定与所述处理器对应的处理器管理器通信失败的情况下,对所述异常事件进行处理。
12.一种异常事件的处理方法,其特征在于,应用于管理终端;所述管理终端与处理器管理器相连;所述处理器管理器与至少一个处理器相连;所述处理方法包括:
获取处理器管理器发送的提示信息、和/或异常事件日志;其中所述异常事件日志用以保存异常事件、所述异常事件对应的修复结果中的至少一个;
显示所述提示信息、和/或异常事件日志。
13.一种电子设备,包括处理器或处理器管理器,其特征在于,所述处理器管理器与至少一个处理器相连,所述处理器或处理器管理器包括:
健康监控模块,用以获取异常事件;
异常事件处理模块,用以确定所述异常事件对应的事件类别;其中,所述事件类别用以表示所述异常事件的异常程度;
所述异常事件处理模块还用以根据所述事件类别,对所述异常事件进行处理。
14.如权利要求13所述的电子设备,其特征在于,所述处理器或所述处理器管理器包括至少一个功能模块;所述根据所述事件类别,对所述异常事件进行处理,包括:
根据所述事件类别,对所述异常事件进行以下任意一项处理:根据所述异常事件,生成提示信息;保存所述异常事件;对所述异常事件对应的功能模块进行修复;针对所述处理器或所述处理器管理器进行整体修复,得到修复结果;保存所述异常事件以及所述修复结果。
15.如权利要求13或14所述的电子设备,其特征在于,所述处理器或处理器管理器还包括异常事件记录模块,所述根据所述事件类别,对所述异常事件进行处理,包括以下至少一项:
在确定所述事件类别为第一类别的情况下,保存所述异常事件至异常事件记录模块;
在确定所述事件类别为第一类别的情况下,根据所述异常事件,生成提示信息,并保存所述异常事件;其中,所述提示信息用以保存至处理器或处理器管理器的异常事件记录模块,和/或用以发送至管理终端;在确定所述事件类别为第二类别的情况下,根据所述异常事件,生成提示信息,并保存所述异常事件至异常事件记录模块;其中,所述第二类别对应的异常事件比所述第一类别的异常程度更高。
16.如权利要求13所述的电子设备,其特征在于,所述根据所述事件类别,对所述异常事件进行处理,包括:
在确定所述事件类别为第三类别的情况下,根据所述异常事件生成提示信息;
通过所述处理器或所述处理器管理器的异常自愈模块,对所述异常事件对应的功能模块进行修复或针对所述处理器或所述处理器管理器进行整体修复,得到修复结果;其中,所述第三类别对应的异常事件比第二类别的异常程度更高;
保存所述异常事件以及修复结果至异常事件记录模块。
17.如权利要求16所述的电子设备,其特征在于,所述对所述异常事件对应的功能模块进行修复,包括:
对所述异常事件对应的功能模块进行复位,直至对所述异常事件对应的功能模块修复成功;
在修复失败的次数达到第一预设次数、和/或修复时长高于第一时长的情况下,停止对所述异常事件对应的功能模块进行修复,并针对所述处理器或所述处理器管理器进行整体修复。
18.如权利要求17所述的电子设备,其特征在于,所述对所述异常事件对应的功能模块进行复位,包括:随着对所述异常事件对应的功能模块进行复位的次数的增加,增加每次对所述异常事件对应的功能模块进行复位的时间间隔。
19.如权利要求16至18中任意一项所述的电子设备,其特征在于,所述针对所述处理器或所述处理器管理器进行整体修复,包括:
重新建立与处理器管理器或处理器的连接,直至对所述处理器或所述处理器管理器修复成功;
在以下至少一种情况下,停止对所述处理器或所述处理器管理器进行修复,并对所述处理器或所述处理器管理器执行隔离操作:修复失败的次数达到第二预设次数、修复的单次时长高于第二时长、修复的总时长高于第三时长。
20.如权利要求19所述的电子设备,其特征在于,所述重新建立与处理器管理器或处理器的连接,包括:通过插拔、复位、上下电中的至少一项建立与处理器管理器或处理器的连接;
所述重新建立与处理器管理器或处理器的连接,还包括:随着插拔或复位或上下电的修复失败的次数的增加,增加每次插拔或复位或上下电的时间间隔。
21.如权利要求14所述的电子设备,其特征在于,功能模块包括:软件功能模块、硬件引擎中的至少一项;其中,所述软件功能模块用以确定逻辑指令序列、所述逻辑指令序列对应的数据中的至少一个,并将所述逻辑指令序列中的至少一个指令或所述至少一个指令对应的数据发送至所述硬件引擎或对应的软件模块;所述硬件引擎用以对所述逻辑指令序列中的至少一个指令或所述至少一个指令对应的数据进行处理。
22.如权利要求13所述的电子设备,其特征在于,所述电子设备为处理器管理器,所述获取异常事件包括:获取所述至少一个处理器发送的异常事件;所述根据所述事件类别,对所述异常事件进行处理,包括:根据所述事件类别,发送所述异常事件对应的处理指令至所述至少一个处理器;其中,所述处理指令用于确定所述异常事件的处理方式。
23.如权利要求13所述的电子设备,其特征在于,所述电子设备为处理器,所述根据所述事件类别,对所述异常事件进行处理,包括:
在确定与所述处理器对应的处理器管理器通信成功的情况下,发送所述异常事件至所述处理器对应的处理器管理器;
在确定与所述处理器对应的处理器管理器通信失败的情况下,对所述异常事件进行处理。
24.一种管理终端,其特征在于,所述管理终端与至少一个处理器管理器相连;所述处理器管理器与至少一个处理器相连;所述管理终端包括:
信息获取模块,用以获取处理器管理器发送的提示信息、和/或异常事件日志;其中所述异常事件日志用以保存异常事件、修复结果中的至少一个;
信息显示模块,用以显示所述提示信息、和/或异常事件日志。
25.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至12中任意一项所述的处理方法。
CN202211015815.8A 2022-08-24 2022-08-24 异常事件的处理方法、电子设备及管理终端 Active CN115098294B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211015815.8A CN115098294B (zh) 2022-08-24 2022-08-24 异常事件的处理方法、电子设备及管理终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211015815.8A CN115098294B (zh) 2022-08-24 2022-08-24 异常事件的处理方法、电子设备及管理终端

Publications (2)

Publication Number Publication Date
CN115098294A true CN115098294A (zh) 2022-09-23
CN115098294B CN115098294B (zh) 2022-11-15

Family

ID=83301704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211015815.8A Active CN115098294B (zh) 2022-08-24 2022-08-24 异常事件的处理方法、电子设备及管理终端

Country Status (1)

Country Link
CN (1) CN115098294B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116010156A (zh) * 2023-03-24 2023-04-25 摩尔线程智能科技(北京)有限责任公司 异常处理系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7043416B1 (en) * 2001-07-27 2006-05-09 Lsi Logic Corporation System and method for state restoration in a diagnostic module for a high-speed microprocessor
CN101373450A (zh) * 2007-08-21 2009-02-25 联想(北京)有限公司 处理cpu异常的方法及系统
CN109861844A (zh) * 2018-12-07 2019-06-07 中国人民大学 一种基于日志的云服务问题细粒度智能溯源方法
CN112114991A (zh) * 2020-09-18 2020-12-22 北京百度网讯科技有限公司 小程序的异常处理方法、装置、电子设备和存储介质
CN112783682A (zh) * 2021-02-01 2021-05-11 福建多多云科技有限公司 一种基于云手机服务的异常自动修复方法
WO2021206374A1 (ko) * 2020-04-06 2021-10-14 삼성전자 주식회사 전자 장치 및 이를 이용한 태스크 스케쥴링 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7043416B1 (en) * 2001-07-27 2006-05-09 Lsi Logic Corporation System and method for state restoration in a diagnostic module for a high-speed microprocessor
CN101373450A (zh) * 2007-08-21 2009-02-25 联想(北京)有限公司 处理cpu异常的方法及系统
CN109861844A (zh) * 2018-12-07 2019-06-07 中国人民大学 一种基于日志的云服务问题细粒度智能溯源方法
WO2021206374A1 (ko) * 2020-04-06 2021-10-14 삼성전자 주식회사 전자 장치 및 이를 이용한 태스크 스케쥴링 방법
CN112114991A (zh) * 2020-09-18 2020-12-22 北京百度网讯科技有限公司 小程序的异常处理方法、装置、电子设备和存储介质
CN112783682A (zh) * 2021-02-01 2021-05-11 福建多多云科技有限公司 一种基于云手机服务的异常自动修复方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116010156A (zh) * 2023-03-24 2023-04-25 摩尔线程智能科技(北京)有限责任公司 异常处理系统
CN116010156B (zh) * 2023-03-24 2024-06-04 摩尔线程智能科技(北京)有限责任公司 异常处理系统

Also Published As

Publication number Publication date
CN115098294B (zh) 2022-11-15

Similar Documents

Publication Publication Date Title
CN111796959B (zh) 宿主机容器自愈方法、装置及系统
US11438249B2 (en) Cluster management method, apparatus and system
CN107666493B (zh) 一种数据库配置方法及其设备
CN116107819A (zh) 一种服务器启动故障检测系统、方法、装置以及介质
CN104036043A (zh) 一种mysql高可用的方法及管理节点
CN112291082B (zh) 机房容灾处理方法、终端及存储介质
CN117251333A (zh) 一种硬盘信息获取方法、装置、设备及存储介质
CN115098294B (zh) 异常事件的处理方法、电子设备及管理终端
CN109254922A (zh) 一种服务器BMC Redfish功能的自动化测试方法及装置
CN108874441B (zh) 一种板卡配置方法、装置、服务器和存储介质
CN109032901A (zh) 一种远程带外ssd的监控方法、装置及受控终端
CN114978883A (zh) 网络唤醒的管理方法、装置、电子设备及存储介质
CN110502345A (zh) 一种过载保护方法、装置、计算机设备及存储介质
US20240264914A1 (en) Method and device for recovering self-test exception of server component, system and medium
CN114640709A (zh) 一种边缘节点的处理方法、装置及介质
WO2024119787A1 (zh) Amd服务器系统安装断电处理方法、装置、设备及介质
CN110968456B (zh) 分布式存储系统中故障磁盘的处理方法及装置
CN114647531B (zh) 故障解决方法、故障解决系统、电子设备及存储介质
CN114189429B (zh) 一种服务器集群故障的监测系统、方法、装置及介质
CN115599617A (zh) 总线检测方法、装置、服务器及电子设备
CN115344290A (zh) 一种分布式存储分组在线升级方法、装置、终端及介质
CN110532160B (zh) 一种bmc记录服务器系统热重启事件的方法
CN107480004B (zh) 故障恢复方法、装置和计算机设备
CN107783852B (zh) 一种dump文件生成方法及终端
CN111625193A (zh) 一种多路径别名的配置方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant