CN106844082A - 处理器预测故障分析方法及装置 - Google Patents

处理器预测故障分析方法及装置 Download PDF

Info

Publication number
CN106844082A
CN106844082A CN201710037473.2A CN201710037473A CN106844082A CN 106844082 A CN106844082 A CN 106844082A CN 201710037473 A CN201710037473 A CN 201710037473A CN 106844082 A CN106844082 A CN 106844082A
Authority
CN
China
Prior art keywords
core
error message
correct
logic
dispatch list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710037473.2A
Other languages
English (en)
Inventor
何海洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201710037473.2A priority Critical patent/CN106844082A/zh
Publication of CN106844082A publication Critical patent/CN106844082A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本发明公开了一种处理器预测故障分析方法及装置,所述方法包括:读取MCA错误信息;若所述MCA错误信息为可修正错误信息,则获取所述可修正错误信息对应的逻辑核心编号;将所述逻辑核心编号对应的核心由调度列表中移除;将所述核心设置于逻辑空闲状态。本发明实施例的技术方案通过读取MCA错误信息,当MCA错误信息为可修正错误信息时,将所述逻辑核心编号对应的核心由调度列表中移除,并将所述核心设置于逻辑空闲状态,以避免可能出现的致命错误。

Description

处理器预测故障分析方法及装置
技术领域
本发明涉及处理器测试技术领域,特别涉及一种处理器预测故障分析方法及装置。
背景技术
机器校验架构(MCA,Machine Check Architecture)是因特尔公司提出一种中央处理器(CPU)将硬件错误报告给操作系统(Operating System,OS)的服务器错误自检机制。目前主流的因特尔处理器都支持MCA机制。MCA机制主要是侦测并报告硬件错误,如系统总线(System Bus)错误,内存错误检查和纠正(ECC)错误,奇偶校验错误,缓存(cache)错误等。MCA机制在处理器内部主要通过一系列特殊模块寄存器(MSR,Model SpecificRegisters)实现。
在服务器系统运行稳定性测试时,处理器和内存出错的机会更大,会产生用于描述MCA机制侦测并报告硬件错误的MCA错误信息。MCA错误信息主要包括核心错误(CPUCORE)和非核心错误(CPU UNCORE)。这样如果CPU出现MCA机制中包含的错误,用户可以发现并针对这些错误进行解决,以避免这些错误不能得到及时解决从而导致系统宕机或重启,对客户造成重要数据丢失的无法挽回的后果。
发明内容
有鉴于此,本发明实施例的目的是提供一种解决MCA机制中包含的错误的处理器预测故障分析方法及装置。
为了实现上述目的,本发明实施例提供了一种处理器预测故障分析方法,包括:
接收硬件系统发送的机器错误信息;
若所述机器错误信息为可修正错误信息,则获取所述可修正错误信息对应的逻辑核心编号;
将所述逻辑核心编号对应的核心由调度列表中移除;
将所述核心设置为逻辑空闲状态。
本发明实施例还提供一种处理器预测故障分析装置,包括:
接收模块,配置为接收硬件系统发送的机器错误信息;
获取模块,配置为当所述机器错误信息为可修正错误信息时,、获取所述可修正错误信息对应的逻辑核心编号;
移除模块,配置为将所述逻辑核心编号对应的核心由调度列表中移除;
设置模块,配置为将所述核心设置为逻辑空闲状态。
由以上本发明实施例可以实现通过读取MCA错误信息,当MCA错误信息为可修正错误信息时,将所述逻辑核心编号对应的核心由调度列表中移除,并将所述核心设置于逻辑空闲状态,以避免可能出现的致命错误。
附图说明
图1为本发明的处理器预测故障分析方法的一种实施例的流程图;
图2为本发明的处理器预测故障分析方法的另一种实施例的流程图;
图3为本发明的处理器预测故障分析方法的在另一种实施例基础上的其中一种实施例的处理过程示意图;
图4为本发明的处理器预测故障分析装置的一种实施例的示意图;
图5为本发明的处理器预测故障分析装置的另一种实施例的示意图。
具体实施方式
此处参考附图描述本公开的各种方案以及特征。
应理解的是,可以对此处公开的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本公开的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本公开的实施例,并且与上面给出的对本公开的大致描述以及下面给出的对实施例的详细描述一起用于解释本公开的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本发明的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本发明进行了描述,但本领域技术人员能够确定地实现本发明的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
当结合附图时,鉴于以下详细说明,本公开的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本公开的具体实施例;然而,应当理解,所公开的实施例仅仅是本公开的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本公开模糊不清。因此,本文所公开的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本公开。
本说明书可使用词组“在一种实施例中”、“在另一种实施例中”或“在其中一个实施例中”,其均可指代根据本公开的相同或不同实施例中的一个或多个。
目前某些计算机芯片生产厂家生产的芯片具有机器校验架构(Machine CheckArchitecture,MAC)机制,来对服务器进行自检,并在发现硬件错误时发出中断或异常。系统软件收到中断或异常后,会对其进行响应,进行相应的修复、告警或其他策略等动作。通过厂家的远程访问服务(Remote Access Service,RAS)功能,保证在发生崩溃(crash)之前,服务器可以有机会做一些容错,以提高服务器的可靠性。
图1为本发明的处理器预测故障分析方法的一种实施例的流程图,如图1所示,本实施例的处理器预测故障分析方法,具体可以包括如下步骤:
接收硬件系统发送的机器错误信息。
具体地,本实施例的执行主体为操作系统。根据机器校验架构的设计,如果发生硬件固障,则固件(Firmware)会先于操作系统获取到机器错误信息,即机器校验错误(Machine Check Error,MCE)信息。并且,固件将所获取到的机器错误信息发送至操作系统,以便于操作系统进行处理。
判断机器错误信息是否为可修正错误信息,以便于根据机器错误信息的类型进行不同的处理。
若所述机器错误信息为可修正错误信息,则获取所述可修正错误信息对应的逻辑核心编号。
具体地,机器错误信息分为可修正(corrected)错误信息和不可修正(uncorrected)错误信息,固件判断机器错误信息是否为可修正错误信息,如果是可修正错误信息,则需要知道发生可修正错误信息的核心,具体是通过该核心对应的逻辑核心编号(ACPI ID)获得核心的信息,以便于操作系统进行后续处理。
本领域技术人员应该可以知道,若所述机器错误信息为不可修正错误信息,则根据不可修正错误信息的类型,由机器自动进行处理,无需将该不可修正的机器错误信息传送至操作系统。例如,不可修正错误信息分为可恢复、致命(fatal)和灾难(catastrophic)三种类型,对于致命和灾难类型的错误信息,不可修正错误信息要么已经导致机器无法正常启动,要么是操作系统无法解决的错误,因此无需将此错误信息发送至操作系统,对于可恢复的错误信息,则可以进行以下操作:无需采取措施、提供可恢复操作选项进行恢复,以及可恢复必要操作等进行自动恢复。
将所述逻辑核心编号对应的核心由调度列表中移除。
具体地,由于可修正错误信息发生在逻辑核心编号对应的核心,因此,可以将该核心由调度列表中移除,使其不再执行进程或中断,以避免进一步的致命错误的发生。
将所述核心设置为逻辑空闲状态。
具体地,由于所述逻辑核心编号对应的核心出现错误,为了避免更严重的错误发生,则将该核心设置为逻辑空闲状态,使其不再执行新的进程或中断,以避免出现更严重的错误。
本发明实施例的技术方案通过读取MCA错误信息,当MCA错误信息为可修正错误信息时,将所述逻辑核心编号对应的核心由调度列表中移除,并将所述核心设置于逻辑空闲状态,以避免可能出现的致命错误。
图2为本发明的处理器预测故障分析方法的另一种实施例的流程图,本实施例的处理器预测故障分析方法在如图1所示的实施例的基础上,进一步更加详细地介绍本发明的技术方案。如图2所示,本实施例的处理器预测故障分析方法,具体可以包括如下步骤:
接收硬件系统发送的机器错误信息。
具体地,本实施例的执行主体为操作系统。根据机器校验架构的设计,如果发生硬件固障,则固件(Firmware)会先于操作系统获取到机器错误信息,即机器校验错误(Machine Check Error,MCE)信息。并且,固件将所获取到的机器错误信息发送至操作系统,以便于操作系统进行处理。
判断机器错误信息是否为可修正错误信息,以便于根据机器错误信息的类型进行不同的处理。
若所述机器错误信息为可修正错误信息,则触发高级配置和电源管理接口事件,以通过高级配置和电源管理接口对象获取所述可修正错误信息对应的逻辑核心编号。
具体地,机器错误信息分为可修正(corrected)错误信息和不可修正(uncorrected)错误信息,固件判断机器错误信息是否为可修正错误信息,如果是可修正错误信息,则触发高级配置和电源管理接口(Advanced Configuration and PowerManagement Interface,ACPI)事件,以获得可修正错误信息对应的逻辑核心编号(ACPIID)。
目前ACPI已经定义了一个ACPI_PAD事件,对于每个事件,操作系统都有一个对应的模块对其进行处理。对于ACPI_PAD事件,其对应的对象为_PUR,_PUR对象可以向操作系统传送需要设置为空闲状态的核心的总数量,但是不能向操作系统传送具体的核心编号,因此,本实施例在具体实施时,需要扩展_PUR苹果定义,或者新增一个对象,来向操作系统传送需要设置为空闲状态的核心编号。
本领域技术人员应该可以知道,若所述机器错误信息为不可修正错误信息,则根据不可修正错误信息的类型,由机器自动进行处理,无需将该不可修正的机器错误信息传送至操作系统。例如,不可修正错误信息分为可恢复、致命(fatal)和灾难(catastrophic)三种类型,对于致命和灾难类型的错误信息,要么已经导致机器无法正常启动,要么是操作系统无法解决的错误,因此无需将此错误信息发送至操作系统,对于可恢复的错误信息,则可以进行相应的操作,如无需采取措施、提供可恢复操作选项进行恢复,以及可恢复必要操作等进行自动恢复。
解除进程或中断对所述核心的绑定。
具体地,由于逻辑核心编号对应的核心发生了错误,为防止发生更严重地的错误,需要使该核心不再执行进程或线程,为防止有新的进程被分配到该核心上去,需要解除进程或中断对该核心的绑定。
将所述核心执行的线程调度出去或者新建一个空线程以最高优先级去抢占其他核心;或者,
判断是否需要迁移所述核心执行的线程,若需要则将所述线程迁移到其他核心。
为使出现错误的核心所执行的进程或中断能够继续得以执行,在解除进程或中断对出现错误的核心的绑定后,可以将所解除的进程或中断调度或者迁移至其他核心。如果想将所述核心执行的线程迁移至其他的核心,可以采用现有技术中的处理器内部的线程迁移技术来对线程进行迁移。
将所述逻辑核心编号对应的核心由调度列表中移除。
具体地,由于可修正错误信息发生在逻辑核心编号对应的核心,因此,可以将该核心由调度列表中移除,使其不再执行进程或中断,以避免进一步的致命错误的发生。
将所述核心设置为逻辑空闲状态。
具体地,由于所述逻辑核心编号对应的核心出现错误,为了避免更严重的错误发生,则将该核心设置为逻辑空闲状态,使其不再执行新的进程或中断,以避免出现更严重的错误。下面对本实施例进行详细的举例说明,例如,处理器中有N个核心,核心2发生了可修正错误,固件(UEFI/BIOS)先于操作系统(Operating System,OS)获得该错误信息,则固件向操作系统发送了机器错误信息以通知OS将核心2移除,此时执行ACPI处理器的聚合设备处理程序(Processor Aggregator Device Handler),然后处理器将核心2从调度列表中移除,使新的进程或中断不再占用核心2,核心2的线程程调度或者迁移至其他的核心,再将核心2设置为空闲状态。具体过程如图3所示。
本发明实施例的技术方案通过读取MCA错误信息,当MCA错误信息为可修正错误信息时,将所述逻辑核心编号对应的核心由调度列表中移除,并解除进程或中断对该核心的绑定,将线程调度或迁移到其他核心,同时将所述核心设置于逻辑空闲状态,以避免可能出现的致命错误。
图4为本发明的处理器预测故障分析装置的一种实施例的示意图,如图4所示,本实施例的处理器预测故障分析装置,具体可以包括接收模块、获取模块、移除模块和设置模块。
接收模块,配置为接收硬件系统发送的机器错误信息;
获取模块,配置为当所述机器错误信息为可修正错误信息时,、获取所述可修正错误信息对应的逻辑核心编号;
移除模块,配置为将所述逻辑核心编号对应的核心由调度列表中移除;
设置模块,配置为将所述核心设置为逻辑空闲状态。
本实施例的处理器预测故障分析装置,通过采用上述模块对处理器故障进行预测,以避免出现致命错误的实现机制与上述图1所示实施例的处理器预测故障分析方法的实现机制相同,详细可以参考上述图1所示实施例的记载,在此不再赘述。
图5为本发明的处理器预测故障分析装置的另一种实施例的示意图,本实施例的处理器预测故障分析装置在如图4所示的实施例的基础上,进一步更加详细地介绍本发明的技术方案。
如图5所示,本实施例的处理器预测故障分析装置,进一步可以包括:
所述获取模块,包括:
触发子模块,配置为触发高级配置和电源管理接口事件,以通过高级配置和电源管理接口对象获取所述可修正错误信息对应的逻辑核心编号。
所述装置还包括:
解除绑定模块,配置为将所述逻辑核心编号对应的核心由调度列表中移除之前,解除进程或中断对所述核心的绑定。
所述装置还包括:
处理模块,配置为将所述逻辑核心编号对应的核心由调度列表中移除之前,将所述核心执行的线程调度出去或者新建一个空线程以最高优先级去抢占其他核心;或者,
配置为将所述逻辑核心编号对应的核心由调度列表中移除之前,判断是否需要迁移所述核心执行的线程,若需要则将所述线程迁移到其他核心。
本实施例的处理器预测故障分析装置,通过采用上述模块对处理器故障进行预测,以避免出现致命错误的实现机制与上述图2所示实施例的处理器预测故障分析方法的实现机制相同,详细可以参考上述图2所示实施例的记载,在此不再赘述。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。

Claims (8)

1.一种处理器预测故障分析方法,包括:
接收硬件系统发送的机器错误信息;
若所述机器错误信息为可修正错误信息,则获取所述可修正错误信息对应的逻辑核心编号;
将所述逻辑核心编号对应的核心由调度列表中移除;
将所述核心设置为逻辑空闲状态。
2.根据权利要求1所述的方法,获取所述可修正错误信息对应的逻辑核心编号,包括:
触发高级配置和电源管理接口事件,以通过高级配置和电源管理接口对象获取所述可修正错误信息对应的逻辑核心编号。
3.根据权利要求1所述的方法,将所述逻辑核心编号对应的核心由调度列表中移除之前,所述方法还包括:
解除进程或中断对所述核心的绑定。
4.根据权利要求3所述的方法,将所述逻辑核心编号对应的核心由调度列表中移除之前,所述方法还包括:
将所述核心执行的线程调度出去或者新建一个空线程以最高优先级去抢占其他核心;或者,
判断是否需要迁移所述核心执行的线程,若需要则将所述线程迁移到其他核心。
5.一种处理器预测故障分析装置,包括:
接收模块,配置为接收硬件系统发送的机器错误信息;
获取模块,配置为当所述机器错误信息为可修正错误信息时,、获取所述可修正错误信息对应的逻辑核心编号;
移除模块,配置为将所述逻辑核心编号对应的核心由调度列表中移除;
设置模块,配置为将所述核心设置为逻辑空闲状态。
6.根据权利要求5所述的装置,所述获取模块,包括:
触发子模块,配置为触发高级配置和电源管理接口事件,以通过高级配置和电源管理接口对象获取所述可修正错误信息对应的逻辑核心编号。
7.根据权利要求5所述的装置,所述装置还包括:
解除绑定模块,配置为将所述逻辑核心编号对应的核心由调度列表中移除之前,解除进程或中断对所述核心的绑定。
8.根据权利要求7所述的装置,所述装置还包括:
处理模块,配置为将所述逻辑核心编号对应的核心由调度列表中移除之前,将所述核心执行的线程调度出去或者新建一个空线程以最高优先级去抢占其他核心;或者,
配置为将所述逻辑核心编号对应的核心由调度列表中移除之前,判断是否需要迁移所述核心执行的线程,若需要则将所述线程迁移到其他核心。
CN201710037473.2A 2017-01-18 2017-01-18 处理器预测故障分析方法及装置 Pending CN106844082A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710037473.2A CN106844082A (zh) 2017-01-18 2017-01-18 处理器预测故障分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710037473.2A CN106844082A (zh) 2017-01-18 2017-01-18 处理器预测故障分析方法及装置

Publications (1)

Publication Number Publication Date
CN106844082A true CN106844082A (zh) 2017-06-13

Family

ID=59124472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710037473.2A Pending CN106844082A (zh) 2017-01-18 2017-01-18 处理器预测故障分析方法及装置

Country Status (1)

Country Link
CN (1) CN106844082A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920314A (zh) * 2018-06-26 2018-11-30 郑州云海信息技术有限公司 一种故障硬件定位方法、装置、系统及可读存储介质
CN109582483A (zh) * 2017-09-29 2019-04-05 爱思开海力士有限公司 数据存储装置及其操作方法
CN109960582A (zh) * 2018-06-19 2019-07-02 华为技术有限公司 在tee侧实现多核并行的方法、装置及系统
CN111625387A (zh) * 2020-05-27 2020-09-04 北京金山云网络技术有限公司 内存错误处理方法、装置及服务器
CN111737039A (zh) * 2020-06-19 2020-10-02 广东浪潮大数据研究有限公司 一种错误信息辅助提取方法、装置、设备及可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5537535A (en) * 1993-09-20 1996-07-16 Fujitsu Limited Multi-CPU system having fault monitoring facility
US20080126780A1 (en) * 2006-09-20 2008-05-29 Anurupa Rajkumari Containing machine check events in a virtual partition
CN101236515A (zh) * 2007-01-31 2008-08-06 迈普(四川)通信技术有限公司 多核系统单核异常的恢复方法
CN101322104A (zh) * 2005-12-30 2008-12-10 英特尔公司 多处理器系统中的故障恢复引导
CN102364448A (zh) * 2011-09-19 2012-02-29 浪潮电子信息产业股份有限公司 一种计算机故障管理系统的容错方法
CN102609327A (zh) * 2012-01-17 2012-07-25 华为数字技术有限公司 提高多核处理器的可靠性的方法及装置
CN102981587A (zh) * 2012-12-28 2013-03-20 中国电子科技集团公司第五十四研究所 一种适用于多核处理器的复位方法
CN104199768A (zh) * 2014-08-21 2014-12-10 大唐移动通信设备有限公司 多核处理器置位的方法和装置
CN104823167A (zh) * 2012-12-28 2015-08-05 英特尔公司 现场错误恢复

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5537535A (en) * 1993-09-20 1996-07-16 Fujitsu Limited Multi-CPU system having fault monitoring facility
CN101322104A (zh) * 2005-12-30 2008-12-10 英特尔公司 多处理器系统中的故障恢复引导
US20080126780A1 (en) * 2006-09-20 2008-05-29 Anurupa Rajkumari Containing machine check events in a virtual partition
CN101236515A (zh) * 2007-01-31 2008-08-06 迈普(四川)通信技术有限公司 多核系统单核异常的恢复方法
CN102364448A (zh) * 2011-09-19 2012-02-29 浪潮电子信息产业股份有限公司 一种计算机故障管理系统的容错方法
CN102609327A (zh) * 2012-01-17 2012-07-25 华为数字技术有限公司 提高多核处理器的可靠性的方法及装置
CN102981587A (zh) * 2012-12-28 2013-03-20 中国电子科技集团公司第五十四研究所 一种适用于多核处理器的复位方法
CN104823167A (zh) * 2012-12-28 2015-08-05 英特尔公司 现场错误恢复
CN104199768A (zh) * 2014-08-21 2014-12-10 大唐移动通信设备有限公司 多核处理器置位的方法和装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582483A (zh) * 2017-09-29 2019-04-05 爱思开海力士有限公司 数据存储装置及其操作方法
CN109960582A (zh) * 2018-06-19 2019-07-02 华为技术有限公司 在tee侧实现多核并行的方法、装置及系统
CN109960582B (zh) * 2018-06-19 2020-04-28 华为技术有限公司 在tee侧实现多核并行的方法、装置及系统
US11461146B2 (en) 2018-06-19 2022-10-04 Huawei Technologies Co., Ltd. Scheduling sub-thread on a core running a trusted execution environment
CN108920314A (zh) * 2018-06-26 2018-11-30 郑州云海信息技术有限公司 一种故障硬件定位方法、装置、系统及可读存储介质
CN111625387A (zh) * 2020-05-27 2020-09-04 北京金山云网络技术有限公司 内存错误处理方法、装置及服务器
CN111625387B (zh) * 2020-05-27 2024-03-29 北京金山云网络技术有限公司 内存错误处理方法、装置及服务器
CN111737039A (zh) * 2020-06-19 2020-10-02 广东浪潮大数据研究有限公司 一种错误信息辅助提取方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN106844082A (zh) 处理器预测故障分析方法及装置
US20210182136A1 (en) Fault Processing Method, Related Apparatus, and Computer
TWI229796B (en) Method and system to implement a system event log for system manageability
CN103092746B (zh) 线程异常的定位方法及系统
US10095576B2 (en) Anomaly recovery method for virtual machine in distributed environment
US7979749B2 (en) Method and infrastructure for detecting and/or servicing a failing/failed operating system instance
US9753809B2 (en) Crash management of host computing systems in a cluster
CN102364448B (zh) 一种计算机故障管理系统的容错方法
US20140019814A1 (en) Error framework for a microprocesor and system
US8868968B2 (en) Partial fault processing method in computer system
US20170068607A1 (en) Systems and methods for detecting memory faults in real-time via smi tests
WO2020239060A1 (zh) 错误恢复的方法和装置
US20070256082A1 (en) Monitoring and controlling applications executing in a computing node
CN104427002A (zh) 集群系统及用于在集群系统中提供服务可用性的方法
CN107025224B (zh) 一种监控任务运行的方法和设备
US20150006978A1 (en) Processor system
CN104685474A (zh) 包括不可纠正的错误的地址范围的通知
JPH0950424A (ja) ダンプ採取装置およびダンプ採取方法
JP5495310B2 (ja) 情報処理装置、障害解析方法及び障害解析プログラム
JP2006065440A (ja) プロセス管理システム
CN107122489B (zh) 一种数据对比方法及装置
US9176806B2 (en) Computer and memory inspection method
CN106250432A (zh) 一种基于持久化MQ的hbase容错方法
TW200307200A (en) Multiple fault location in a series of devices
JP2015106226A (ja) 二重化システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170613