CN107357671A - 一种故障处理方法、相关装置及计算机 - Google Patents
一种故障处理方法、相关装置及计算机 Download PDFInfo
- Publication number
- CN107357671A CN107357671A CN201710454179.1A CN201710454179A CN107357671A CN 107357671 A CN107357671 A CN 107357671A CN 201710454179 A CN201710454179 A CN 201710454179A CN 107357671 A CN107357671 A CN 107357671A
- Authority
- CN
- China
- Prior art keywords
- wrong data
- computer
- processor
- management controller
- baseboard management
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000004044 response Effects 0.000 claims abstract description 96
- 238000007726 management method Methods 0.000 claims description 238
- 230000007246 mechanism Effects 0.000 claims description 53
- 238000013024 troubleshooting Methods 0.000 claims description 51
- 238000012545 processing Methods 0.000 claims description 36
- 239000000758 substrate Substances 0.000 claims description 20
- 230000005540 biological transmission Effects 0.000 claims description 10
- 238000007639 printing Methods 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 4
- 238000007405 data analysis Methods 0.000 claims description 2
- 230000005055 memory storage Effects 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 9
- 238000012423 maintenance Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000004888 barrier function Effects 0.000 description 6
- 230000015556 catabolic process Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 108010028984 3-isopropylmalate dehydratase Proteins 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 239000002699 waste material Substances 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 101150039033 Eci2 gene Proteins 0.000 description 1
- 102100021823 Enoyl-CoA delta isomerase 2 Human genes 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
- G06F11/0754—Error or fault detection not based on redundancy by exceeding limits
- G06F11/0757—Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0772—Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0778—Dumping, i.e. gathering error/state information after a fault for later diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0793—Remedial or corrective actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3476—Data logging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Debugging And Monitoring (AREA)
- Stored Programmes (AREA)
- Retry When Errors Occur (AREA)
- Hardware Redundancy (AREA)
Abstract
本发明实施例提供了一种故障处理方法、相关装置及计算机,计算机中的基板管理控制器(12)在确定所述计算机死机时,能够向计算机中的处理器(11)发送读请求消息,所述读请求消息用于请求读取所述处理器(11)记录的第一错误数据,并接收所述处理器(11)返回的读响应消息,根据所述读响应消息,获得所述处理器(11)记录的所述第一错误数据。本发明实施例无需利用操作系统,通过基板管理控制器(12)就实现了计算机死机后计算机中的错误数据的获取,解决了现有技术中计算机出现严重的不可纠正错误导致系统死机后无法获取计算机中的错误数据的问题。
Description
技术领域
本发明实施例涉及计算机技术,特别涉及一种故障处理方法、相关装置及计算机。
背景技术
随着信息化技术的大规模发展,计算机普遍应用于各个领域。计算机的故障通常可包括软件故障、硬件故障、操作(配置)故障和其他故障。由于硬件故障具有复现难、主要靠人工经验进行判断、发生错误时问题定位难、需要多次插拔/更换等特点,因此最难以处理的一般是硬件故障,例如内存、处理器、输入输出(IO)设备等产生的故障。
通常情况下,硬件故障将导致计算机产生不可纠正错误(Uncorrectable error),不可纠正错误不仅可能导致计算机业务的中断,降低计算机可运行时间,甚至可能导致宕机事件。现有技术中,对计算机故障进行处理主要通过以下方法:当系统中出现不可纠正错误时,处理器对错误数据进行记录并通知操作系统(Operating System,OS);OS在收到通知后抓取处理器记录的错误数据并打印出来,以供用户对故障进行分析、定位和恢复。
现有技术中需要基于OS实现错误数据的抓取。然而,一旦计算机中出现严重的不可纠正错误导致计算机死机(在本发明中,计算机死机是指计算机出现黑屏、计算机的鼠标或键盘等输入设备无法输入并且计算机的处理器无法运行计算机指令),OS将不能继续工作,无法抓取计算机中的错误数据,导致难以对故障进行分析、处理和恢复。
发明内容
本发明实施例提出了一种故障处理方法、相关装置及计算机,能够在计算机中出现严重的不可纠正错误导致计算机死机后,获取计算机中的错误数据。
第一方面,本发明实施例提出了一种计算机,包括处理器和基板管理控制器,所述基板管理控制器用于在确定所述计算机死机时,向所述处理器发送读请求消息,所述读请求消息用于请求读取所述处理器记录的第一错误数据;
所述处理器用于接收所述读请求消息,并向所述基板管理控制器发送读响应消息;
所述基板管理控制器用于接收所述处理器返回的所述读响应消息,并根据所述读响应消息,获得所述处理器记录的所述第一错误数据。
结合第一方面,在第一种可能的实现方式中,所述处理器还用于获取所述第一错误数据,并记录所述第一错误数据;
则所述基板管理控制器用于确定所述计算机死机具体为:所述基板管理控制器用于接收所述处理器发送的严重故障事件指示,所述严重故障事件指示是所述处理器在获取到所述第一错误数据并且所述第一错误数据属于严重的不可纠正错误类型时发送的;如果从接收到所述严重故障事件指示开始,在预设等待时间内,未接收到所述处理器发送的至少部分所述第一错误数据,则所述基板管理控制器用于确定所述计算机死机。
结合第一方面或第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述基板管理控制器用于根据所述读响应消息,获得所述处理器记录的所述第一错误数据具体为:当所述读响应消息中携带所述第一错误数据时,所述基板管理器用于从所述读响应消息中获得所述处理器记录的所述第一错误数据。
结合第一方面或第一方面的第一种可能的实现方式,在第三种可能的实现方式中,所述基板管理控制器用于根据所述读响应消息,获得所述处理器记录的所述第一错误数据具体为:当所述读响应消息中携带读失败指示时,所述基板管理控制器用于指示所述计算机的热重启模块或者用户对所述计算机进行热重启;其中,所述读失败指示用于指示从所述处理器中读取所述第一错误数据失败,以使得所述处理器在所述计算机热重启时,执行所述计算机的基本输入输出系统的故障收集指令,根据所述基本输入输出系统的故障收集指令,获取所述第一错误数据,并发送给所述基板管理控制器;所述基板管理控制器用于接收所述处理器发送的所述第一错误数据。
结合第一方面或第一方面的第一至第三任一可能的实现方式,在第四种可能的实现方式中,所述基板管理控制器还用于根据故障解析机制,对所述第一错误数据进行解析,得到所述第一错误数据的故障解析信息。
结合第一方面的第四种可能的实现方式,在第五种可能的实现方式中,所述基板管理控制器还用于根据预设的故障处理机制,对所述第一错误数据的故障解析信息进行分析,得到故障处理建议。
结合第一方面的第五种可能的实现方式,在第六种可能的实现方式中,所述基板管理控制器在确定所述计算机死机之前,还用于接收所述处理器发送的第二错误数据,并根据所述故障解析机制,对所述第二错误数据进行解析,得到所述第二错误数据的故障解析信息,其中,所述第二错误数据为所述计算机产生所述第一错误数据之前预设时间内产生的错误数据;
则,所述基板管理控制器用于根据预设的故障处理机制,对所述第一错误数据的故障解析信息进行分析,得到故障处理建议包括:所述基板管理控制器用于根据所述预设的故障处理机制,对所述第二错误数据的故障解析信息和所述第一错误数据的故障解析信息进行分析,得到所述故障处理建议。
第二方面,本发明实施例提出了一种故障处理方法,用于包括基板管理控制器和处理器的计算机,该方法包括:
所述基板管理控制器在确定所述计算机死机时,向所述处理器发送读请求消息,所述读请求消息用于请求读取所述处理器记录的第一错误数据;
所述基板管理控制器接收所述处理器返回的读响应消息,并根据所述读响应消息,获得所述处理器记录的所述第一错误数据。
结合第二方面,在第一种可能的实现方式中,所述基板管理控制器接收所述处理器发送的严重故障事件指示,所述严重故障事件指示是所述处理器在获取到所述第一错误数据并且所述第一错误数据属于严重的不可纠正错误类型时发送的;如果从接收到所述严重故障事件指示开始,在预设等待时间内,未接收到所述处理器发送的至少部分所述第一错误数据,则确定所述计算机死机。
结合第二方面或第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述基板管理控制器接收所述处理器返回的读响应消息,并根据所述读响应消息,获得所述处理器记录的所述第一错误数据包括:所述基板管理控制器在所述读响应消息中携带所述第一错误数据时,从所述读响应消息中获得所述处理器记录的所述第一错误数据。
结合第二方面或第二方面的第一种可能的实现方式,在第三种可能的实现方式中,所述基板管理控制器接收所述处理器返回的读响应消息,并根据所述读响应消息,获得所述处理器记录的所述第一错误数据包括:所述基板管理控制器在所述读响应消息中携带读失败指示时,指示所述计算机的热重启模块或者用户对所述计算机进行热重启,以使得所述处理器在所述计算机热重启时,执行所述计算机的基本输入输出系统的故障收集指令,根据所述基本输入输出系统的故障收集指令,获取所述第一错误数据,并发送给所述基板管理控制器;其中,所述读失败指示用于指示从所述处理器中读取所述第一错误数据失败;所述基板管理控制器接收所述处理器发送的所述第一错误数据。
结合第二方面或第二方面的第一至第三任一可能的实现方式,在第四种可能的实现方式中,在所述基板管理控制器根据所述读响应消息,获得所述处理器记录的所述第一错误数据之后,所述方法还包括:所述基板管理控制器根据故障解析机制,对所述第一错误数据进行解析,得到所述第一错误数据的故障解析信息。
结合第二方面的第四种可能的实现方式,在第五种可能的实现方式中,所述方法还包括:所述基板管理控制器根据预设的故障处理机制,对所述第一错误数据的故障解析信息进行分析,得到故障处理建议。
结合第二方面的第五种可能的实现方式,在第六种可能的实现方式中,在所述基板管理控制器确定所述计算机死机之前,所述方法还包括:所述基板管理控制器接收所述处理器发送的第二错误数据;其中,所述第二错误数据为所述计算机产生所述第一错误数据之前预设时间内产生的错误数据;
则,所述基板管理控制器根据预设的故障处理机制,对所述第一错误数据的故障解析信息进行分析,得到故障处理建议包括:
所述基板管理控制器根据所述故障解析机制,对所述第二错误数据进行解析,得到所述第二错误数据的故障解析信息,并根据所述预设的故障处理机制,对所述第二错误数据的故障解析信息和所述第一错误数据的故障解析信息进行分析,得到所述故障处理建议。
第三方面,本发明实施例提出了一种基板管理控制器,包括:
发送单元,用于在确定所述计算机死机时,向所述处理器发送读请求消息,所述读请求消息用于请求读取所述处理器记录的第一错误数据;
接收单元,用于接收所述处理器返回的读响应消息,并根据所述读响应消息,获得所述处理器记录的所述第一错误数据。
结合第三方面,在第一种可能的实现方式中,所述基板管理控制器还包括:确定单元,用于接收所述处理器发送的严重故障事件指示,所述严重故障事件指示是所述处理器在获取到所述第一错误数据并且所述第一错误数据属于严重的不可纠正错误类型时发送的;如果从接收到所述严重故障事件指示开始,在预设等待时间内,未接收到所述处理器发送的至少部分所述第一错误数据,则确定所述计算机死机。
结合第三方面或第三方面的第一种可能的实现方式,在第二种可能的实现方式中,所述接收单元接收所述处理器返回的读响应消息,并根据所述读响应消息,获得所述处理器记录的所述第一错误数据包括:所述接收单元在所述读响应消息中携带所述第一错误数据时,从所述读响应消息中获得所述处理器记录的所述第一错误数据。
结合第三方面或第三方面的第一种可能的实现方式,在第三种可能的实现方式中,所述接收单元接收所述处理器返回的读响应消息,并根据所述读响应消息,获得所述处理器记录的所述第一错误数据包括:
所述接收单元在所述读响应消息中携带读失败指示时,指示所述计算机的热重启单元或者用户对所述计算机进行热重启,以使得所述处理器在所述计算机热重启时,执行所述计算机的基本输入输出系统的故障收集指令,根据所述基本输入输出系统的故障收集指令,获取所述第一错误数据,并发送给所述接收单元;其中,所述读失败指示用于指示从所述处理器中读取所述第一错误数据失败;所述接收单元接收所述处理器发送的所述第一错误数据。
结合第三方面或者第三方面的第一至第三任一可能的实现方式,在第四中可能的实现方式中,所述基板管理控制器还包括:故障处理单元,用于根据故障解析机制,对所述第一错误数据进行解析,得到所述第一错误数据的故障解析信息。
结合第三方面的第四种可能的实现方式,在第五种可能的实现方式中,所述故障处理单元还用于根据预设的故障处理机制,对所述第一错误数据的故障解析信息进行分析,得到故障处理建议。
结合第三方面的第五种可能的实现方式,在第六种可能的实现方式中,所述接收单元还用于接收所述处理器发送的第二错误数据;所述故障处理单元还用于根据所述故障解析机制,对所述第二错误数据进行解析,得到所述第二错误数据的故障解析信息;其中,所述第二错误数据为所述计算机产生所述第一错误数据之前预设时间内产生的错误数据;则,所述故障处理单元用于根据预设的故障处理机制,对所述第一错误数据的故障解析信息进行分析,得到故障处理建议包括:所述故障处理单元根据所述预设的故障处理机制,对所述第二错误数据的故障解析信息和所述第一错误数据的故障解析信息进行分析,得到所述故障处理建议。
第四方面,本发明实施例提出了一种基板管理控制器,所述基板管理控制器包括处理器、存储器、总线和通信接口;
所述存储器用于存储计算机执行指令,所述处理器与所述存储器通过所述总线连接,当所述基板管理控制器运行时,所述处理器执行所述存储器存储的所述计算机执行指令,以使所述基板管理控制器执行第二方面所述的故障处理方法,或者第二方面任一可能的实现方式所述的故障处理方法。
第五方面,本发明实施例提出了一种计算机可读介质,包括计算机执行指令,以供计算机的处理器执行所述计算机执行指令时,所述计算机执行第二方面所述的故障处理方法,或者第二方面任一可能的实现方式所述的故障处理方法。
在本发明实施例中,计算机中的基板管理控制器可以在确定所述计算机死机时,向计算机中处理器发送读请求消息,所述读请求消息用于请求读取所述处理器记录的第一错误数据,并接收所述处理器返回的读响应消息,根据所述读响应消息,获得所述处理器记录的所述第一错误数据。上述方式无需利用操作系统,只需通过基板管理控制器就实现了计算机死机后计算机中的错误数据的获取,解决了现有技术中计算机出现严重的不可纠正错误导致系统死机后无法获取计算机中的错误数据的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对现有技术或实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种计算机的示意图;
图2是本发明实施例提供的又一种计算机的示意图;
图3是本发明实施例提供的一种故障处理方法的方法流程图;
图4是本发明实施例提供的又一种故障处理方法的方法流程图;
图5是本发明实施例提供的基板管理控制器的示意图;
图6是本发明实施例提供的又一种基板管理控制器的组成结构示意图;
具体实施方式
本发明实施例提出了一种故障处理方法、相关装置及计算机,能够在计算机中出现严重的不可纠正错误导致计算机死机后,获取计算机中的错误数据。
需要注意的是,本发明的说明书和权利要求书及说明书附图中的术语“第一”和“第二”是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换。本发明的说明书和权利要求书及说明书附图的计算机死机是指计算机出现黑屏、计算机的处理器无法运行计算机指令并且计算机的鼠标或键盘等输入设备无法输入。
实施例一
如图1所示为本发明实施例提供的计算机的示意图,该计算机包括处理器11和基板管理控制器12(Baseboard Management Controller,BMC);
所述基板管理控制器12用于在确定所述计算机死机时,向所述处理器11发送读请求消息,所述读请求消息用于请求读取所述处理器11记录的第一错误数据;其中,所述第一错误数据为所述计算机中产生的错误数据,可以是所述计算机中产生的所有错误数据,还可以是所述计算机中产生的部分错误数据,例如所述第一错误数据可以是所述计算机死机前2秒内产生的错误数据,本发明实施例在此不作限定。
所述处理器11用于接收所述读请求消息,并向所述基板管理控制器12发送读响应消息;此时虽然所述计算机已经死机,所述处理器无法执行任何计算机指令,但是所述处理器可以接收并响应所述读请求消息。
所述基板管理控制器12用于接收所述处理器11返回的所述读响应消息,并根据所述读响应消息,获得所述处理器11记录的所述第一错误数据。
例如,所述处理器11可以将第一错误数据记录在自身的寄存器中,所述基板管理控制器12可以利用所述寄存器的地址,向所述处理器11发送读请求消息,以从所述寄存器中获取所述第一错误数据;虽然所述计算机已经死机,无法运行计算机指令,但是所述处理器11的所述寄存器可以响应所述读请求消息,返回读响应消息,例如返回所述第一错误数据,从而所述基板管理控制器12可以根据所述读响应消息,获得所述第一错误数据。值得注意的是,在本发明实施例中,所述第一错误数据可能包括一个或多个错误数据,本发明实施例在此不作限定。
在本发明实施例中,基板管理控制器12可以在确定所述计算机死机时,向处理器11发送读请求消息,所述读请求消息用于请求读取所述处理器11记录的第一错误数据,并接收所述处理器11返回的读响应消息,根据所述读响应消息,获得所述处理器11记录的所述第一错误数据。本发明实施例无需利用操作系统,只需通过基板管理控制器就实现了计算机死机后计算机中的错误数据的获取,解决了现有技术中计算机出现严重的不可纠正错误导致系统死机后无法获取计算机中的错误数据的问题。
下面对本发明实施例展开进行详细地介绍。
(1)关于如何确定计算机死机
通常情况下,可以将计算机故障引起的不可纠正错误(Uncorrectable error)分为灾难性错误(Catastrophic Error)、致命错误(Fatal Error)和可恢复错误(Recoverable Error)。其中,灾难性错误和致命错误最为严重,可能导致计算机出现蓝屏、紫屏甚至死机(例如黑屏和挂死)。因此,可以对计算机中的灾难性错误或致命错误进行监控,例如对内部错误(Internal Error,IERR;属于灾难性错误)或机械检查错误(MachineCheck Error,MCERR;属于致命错误)进行监控,当计算机中出现灾难性错误或致命错误时,如果计算机无法运行基本输入输出系统(Basic Input Output System,BIOS)的指令,或者操作系统(Operating System,OS)的指令,则可以确定计算机死机。
具体地,所述处理器11还可以用于获取所述第一错误数据,并记录所述第一错误数据,例如所述处理器11可以产生或接收所述第一错误数据,并将所述第一错误数据记录在所述计算机的缓存中或者所述处理器11的寄存器中或者其它具备存储能力的模块中;一方面,在所述处理器11获取到所述第一错误数据之后,如果所述计算机没有死机,所述处理器11可以将所述第一错误数据发送给所述基板管理控制器,例如预先将所述基本输入输出系统的错误收集指令配置在所述计算机中,如果所述计算机没有死机,所述处理器11执行所述基本输入输出系统的错误收集指令,根据所述基本输入输出系统的错误收集指令,将所述第一错误数据发送给所述基板管理控制器12,如果所述计算机死机,所述处理器11无法执行任何计算机指令;另一方面,在所述处理器11获取到所述第一错误数据之后,如果所述第一错误数据属于严重的不可纠正错误类型时,所述处理器11还可以发送严重故障事件指示,以通知所述基板管理控制器12所述计算机产生了灾难性错误或致命错误可能引起死机,其中所述第一错误数据属于严重的不可纠正错误类型是指所述第一错误数据属于灾难性错误或致命错误;则所述基板管理控制器12可以用于接收所述处理器11发送的严重故障事件指示,如果从接收到所述严重故障事件指示开始,在预设等待时间内,未接收到所述处理器11发送的至少部分所述第一错误数据,则所述基板管理控制器12可以确定所述计算机死机。
此外,所述基板管理控制器12还可以根据用户的指示确定所述计算机死机,例如用户可以在发现所述计算机死机时通知所述基板管理控制器12,所述基板管理控制器12可以根据用户的指示确定所述计算机死机,从而启动对所述第一错误数据的获取。
(2)关于所述第一错误数据的获取
所述处理器11在接收到所述读请求消息时,可以根据所述读请求消息,将所述第一错误数据携带在所述读响应消息中,返回给所述基板管理控制器12,此时所述基板管理控制器12读取数据成功,则所述基板管理控制器12可以从所述读响应消息中获得所述处理器11记录的所述第一错误数据。
然而,在某些硬件故障引发不可纠正错误导致计算机死机时,所述基板管理控制器12可能无法成功读取所述第一错误数据,所述读响应消息携带读失败指示,所述读失败指示用于指示从所述处理器11中读取所述第一错误数据失败,则所述基板管理控制器12可以用于指示所述计算机的热重启模块或者用户对所述计算机进行热重启,以使得所述处理器11在所述计算机热重启时,执行所述计算机的基本输入输出系统的故障收集指令,根据所述基本输入输出系统的故障收集指令,获取所述第一错误数据,并发送给所述基板管理控制器12;所述基板管理控制器12可以接收所述处理器11发送的所述第一错误数据,完成所述第一错误数据的获取。
值得注意的是,计算机重启可以分为热重启和冷重启,冷重启会对所述计算机下电,对计算机进行初始化,冷重启后可能造成信息的丢失,例如冷重启后处理器中寄存器保存的信息将会丢失,按重启电源开关属于对计算机进行冷重启;而热重启不同于冷重启,不会对计算机下电,不会对计算机进行初始化,处理器中寄存器保存的信息不会丢失,从开始处点击“重新启动”按正常程序关毕和启动计算机属于热重启;在本发明实施例以及后续的实施例中,对计算机进行热重启均是指上述含义。
此外,所述基板管理控制器12还可以用于在获取到所述第一错误数据之后,向所述处理器11发送清除数据消息,以指示所述处理器11删除自身记录的所述第一错误数据,避免存储资源的浪费。
可选地,所述基板管理控制器12还可以用于在接收所述处理器11发送的严重故障事件指示后,向所述计算机的故障告警模块发送告警消息或进行打印操作,以将所述严重故障告警事件通知用户使得用户及时获知计算机故障。
(3)关于故障的分析、定位和处理
在现有技术中,通常只能够将计算机没有死机情况下的错误数据打印出来,没有完整的故障记录,并且只能依靠人工进行故障的分析、定位和处理。在本发明实施例中,可以通过基板管理控制器12记录完整的故障记录,还可以自动定位故障源并给出故障处理建议,为故障的及时处理和恢复提供了帮助,具体方案如下:
所述处理器11记录的第一错误数据通常情况下为用“0”或“1”表示的信息,因此,所述基板管理控制器12还可以用于根据故障解析机制,对所述第一错误数据进行解析,得到所述第一错误数据的故障解析信息,所述第一错误数据的故障解析信息可以包括所述第一错误数据中每个错误数据的产生时间、谁收集的该错误数据、该错误数据来自哪个处理器、哪个核(Core)、属于什么错误等;例如,如果是X86的计算机,所述基板管理控制器12可以根据Intel的故障代码定义对二进制形式的所述第一错误数据进行解析,得到故障解析信息。所述故障解析信息不仅可以提供给维修人员或用户去了解故障情况,还可以用于后续的故障定位、分析和处理。
所述基板管理控制器12还可以用于根据预设的故障处理机制,对所述第一错误数据的故障解析信息进行分析,得到故障处理建议。所述预设的故障处理机制可以是X86的故障机制或者故障处理经验,得到的所述故障处理建议可以包括故障定位信息和/或处理建议信息,从而用户或者故障维修人员可以根据所述故障处理建议,对所述计算机进行处理,以恢复所述计算机。进一步,由于所述第一错误数据可能只是所述计算机死机之前很短一段时间内产生的错误数据,例如,所述第一错误数据为所述计算机死机之前0.5秒内产生的错误数据,因此,为了提高故障定位和分析的准确度,可以对更多的错误数据的故障解析信息进行分析。具体地,所述基板管理控制器12在确定所述计算机死机之前,还可以接收所述处理器11发送的第二错误数据,所述第二错误数据不同于所述第一错误数据,所述第二错误数据为所述计算机产生所述第一错误数据之前预设时间内产生的错误数据;所述基板管理控制器12可以根据所述故障解析机制,对所述第二错误数据进行解析,得到所述第二错误数据的故障解析信息,并根据预设的故障处理机制,对所述第二错误数据的故障解析信息和所述第一错误数据的故障解析信息进行分析,得到所述故障处理建议。例如所述第一错误数据可以是所述计算机死机前0.5秒内产生的错误数据,当所述预设时间为4.5秒时,所述第二错误数据可以是所述计算机死机前5秒至死机前0.5内产生的错误数据,则所述基板管理控制器12可以根据预设的故障处理机制,对所述计算机死机前5秒内的错误数据的故障解析信息进行分析,得到所述故障处理建议。
进一步,所述基板管理控制器12还可以用于打印所述第一错误数据的故障解析信息或所述第一错误数据的故障解析信息或所述故障处理建议,从而用户或者故障维修人员可以根据打印的信息,处理所述计算机的故障。
进一步,所述基板管理控制器12还可以将所述第一错误数据的故障解析信息、所述第二错误数据的故障解析信息、所述第一错误数据和所述第二错误数据中的至少一种保存到所述计算机的故障信息库,得到所述计算机的故障记录,从而为后续故障的定位和恢复提供帮助,例如,所述基板管理控制器12可以将所述第一错误数据的故障解析信息和所述第二错误数据的故障解析信息保存到所述故障信息库,从而所述故障信息库中保存了完整的错误数据,可以提供完整的故障记录;在本发明实施例中,所述故障信息库可以设置于所述基板管理控制器12中,也可以设置在所述基板管理控制器12外。
需要注意的是,在实际的应用过程中,对计算机的故障进行定位、分析和处理,可以根据不同的应用场景,采用不同的方式。例如对于非单机的应用场景而言,系统中可以包括多个本发明实施例所述的计算机,每个本发明实施例所述的计算机可能都具备故障定位、分析和处理的能力,此时可以让多个所述计算机中的一个计算机(例如主计算机)的基板管理控制器从其它计算机的基板管理控制器收集错误数据,由其对系统中的所有计算机进行统一的故障定位、分析和处理;或者系统中的多个所述计算机的基本管理控制器可以将自身得到的错误数据上报给系统中的管理设备(如管理服务器),由管理设备利用本法实施例所述的方式对系统中的所有计算机进行统一的故障定位、分析和处理。
本发明实施例无需利用操作系统,只需通过基板管理控制器12就实现了计算机死机后计算机中的错误数据的获取,解决了现有技术中计算机出现严重的不可纠正错误导致系统死机后无法获取计算机中的错误数据的问题。此外,所述基板管理控制器12还可以在所述故障记录库中记录完整的故障记录,还可以对所述第一错误数据进行解析,并根据预设的故障处理机制,对所述第一错误数据的故障解析信息进行分析,定位故障源并给出处理建议。
实施例二
为了更好的说明本发明,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本发明同样可以实施。在本发明实施例中,将结合图2对实施例一所述的处理器11和基板管理控制器12的结构组成和功能进行详细地介绍。
如图2所示为本发明实施例提供的计算机的组成结构示意图,该计算机由处理器11和基板管理控制器12组成;所述处理器11可以包括记录模块21、存储模块22和指令执行模块23;所述记录模块21具体可以是负责处理器11各内部功能模块的硬件故障检查架构(Machine Check Architecture,MCA),和/或负责计算机输入输出设备的PCIe规范的故障报告机制(Advanced Error Reporting,AER);相应地,所述存储模块22可以是MCA的寄存器和/或AER的寄存器,所述MCA的寄存器和所述AER的寄存器可以位于所述处理器11内部;所述指令执行模块23可以为所述处理器11的内核,用于执行基本输入输出系统的指令和操作系统的指令;
所述记录模块21可以用于获取所述计算机中的错误数据,例如生成处理器11中各内部功能模块发生故障产生错误数据,又例如接收IO设备发生故障产生错误数据,所述计算机中的错误数据包括但不限于本发明实施例中所述第一错误数据和所述第二错误数据,所述记录模块21可以将所述获取到的所述计算机中的错误数据记录在存储模块22中;具体地,如果所述计算机中的错误数据为MCA获取的,则所述MCA可以将所述计算机中的错误数据记录在所述MCA的寄存器中,如果所述计算机中的错误数据为AER获取的,则所述AER可以将所述计算机的错误数局记录到AER的寄存器中,其中,MCA或AER获取的错误数据的范围可以通过BIOS对相应的寄存器进行配置来实现;可选地,所述MAC或者AER在将所述计算机中的错误数据记录到相应的寄存器之时/后,还可以将记录所述计算机中的错误数据的寄存器的地址保存在第一寄存器中,以便后续所述指令执行模块23可以根据所述基本输入输出系统的错误收集指令,利用所述第一寄存器中记录的地址,获取所述计算机中的错误数据。
所述记录模块21还可以在获取到所述计算机中的错误数据时,触发系统管理中断(System Management Interrupt,SMI);所述系统管理中断用于触发所述指令执行模块23执行所述基本输入输出系统的错误收集指令,如果所述计算机没有死机,则所述指令执行模块23可以根据所述基本输入输出系统的错误收集指令,从所述存储模块22中获取所述计算机中的错误数据,并发送给所述基板管理控制器12,如果所述计算机死机,则所述指令执行模块23无法执行任何计算机指令;其中,所述基本输入输出系统的错误收集指令可以预先配置在存储所述基板输入输出系统的指令的存储器中。
实际上,根据实施例一可知,所述第二错误数据是所述计算机产生所述第一错误数据之前预设时间内产生的错误数据,因此所述记录模块21将会先获取到所述第二错误数据,再获取到所述第一错误数据;则所述记录模块21在获取到所述第二错误数据时,一方面可以将所述第二错误数据记录到所述存储模块22,另一方面可以触发系统管理中断;如果所述计算机没有死机,所述指令执行模块23可以根据所述系统管理中断,执行所述基本输入输出系统的错误收集指令,根据所述基本输入输出系统的错误收集指令,从所述存储模块22中获取所述第二错误数据发送给所述基板管理控制器12;可选地,所述指令执行模块23可以通过智慧平台管理接口(Intelligent Platform Management Interface,IPMI)标准将所述第二错误数据发送给所述基板管理控制器12,所述基板管理控制器12可以通过IPMI标准接收所述指令执行模块23发送的所述第二错误数据;值得注意的是,当所述第二错误数据中包括多个错误数据,所述记录模块21通过多次才能获取到所述第二错误数据时,所述记录模块21可以在每次获取到部分所述第二错误数据时都触发所述系统管理中断,相应地,所述指令执行模块23可以通过多次执行所述基本输入输出系统的错误收集指令,将所述第二错误数据分多次发生给所述基板管理控制器12;可选地,在所述指令执行模块23将所述第二错误数据发送给所述基板管理控制器12之后,可以执行操作系统的删除指令,根据所述操作系统的删除指令,删除所述记录模块21中保存的所述第二错误数据;换而言之,所述指令执行模块23可以将已经发送给所述基板管理控制器12的错误数据从所述存储模块22中删除,避免将错误数据重复发送给所述基板管理控制器12。
当所述记录模块21在获取到所述第二错误数据之后,如果获取到所述第一错误数据,也可以触发所述系统管理中断;进一步,如果所述第一错误数据属于严重的不可纠正错误类型时,即所述第一错误数据为灾难性错误或致命错误时,所述记录模块21还可以触发严重故障事件指示,以通知所述基板管理控制器12所述计算机产生了灾难性错误或致命错误可能引起死机;当所述第一错误数据真的属于严重的不可纠正错误类型,并且所述计算机的死机了,则所述指令执行模块23将无法执行计算机指令,即使所述记录模块21触发了系统管理中断,所述指令执行模块23也无法执行所述基本输入输出系统的错误收集指令,无法从所述存储模块22中获取所述第一错误数据给所述基板管理控制器12;因此所述基板管理控制器12如果从接收到所述严重故障事件指示开始,在预设等待时间内,未接收到所述处理器11发送的至少部分所述第一错误数据,则可以确定所述计算机死机。具体地,所述记录模块21触发严重故障事件指示可以通过改变引脚CATEER_N或ERROR_N的电平实现,则所述基板管理控制器12可以通过接收引脚CATEER_N或ERROR_N的电平信号,来接收所述严重故障事件指示。
所述基板管理控制器12在确定所述计算机死机时,可以向所述记录模块21发送读请求消息,所述读请求消息用于请求读取所述第一错误数据;所述记录模块21在所述计算机死机之后,仍然可以接收所述读请求消息,并向所述基板管理控制器12发送读响应消息;从而所述基板管理控制器12可以接收所述读响应消息,并根据所述读响应消息,获得所述处理器11记录的所述第一错误数据;具体地,所述基板管理控制器12可以通过平台环境式控制接口(Platform Environment Control Interface,PECI)总线遍历所述MAC的寄存器或所述AER的寄存器,以从所述MAC的寄存器或所述AER的寄存器中读取所述第一错误数据;如果所述基板管理控制器12从所述MAC的寄存器或所述AER的寄存器中读取数据成功,则所述MAC的寄存器或所述AER的寄存器返回的读响应消息中携带所述第一错误数据,所述基板管理控制器12可以获取所述第一错误数据;如果所述基板管理控制器12从所述MAC的寄存器或所述AER的寄存器中读取数据失败,则所述MAC的寄存器或所述AER的寄存器返回的读响应消息中携带读失败指示,例如乱码,则所述基板管理控制器12可以指示所述计算机的热重启模块或者用户对所述计算机进行热重启,以使得所述指令执行模块23在所述计算机热重启时,执行所述基本输入输出系统的故障收集指令,根据所述基本输入输出系统的故障收集指令,遍历所述MAC的寄存器或所述AER的寄存器,获取所述第一错误数据,并通过IPMI标准发送给所述基板管理控制器12,所述基板管理控制器12可以接收所述故障收集指令发送的所述第一错误数据。
在本发明实施例中,所述基板管理控制器12通过与所述处理器11配合,实现了计算机死机后计算机中的错误数据的获取,解决了现有技术中计算机出现严重的不可纠正错误导致系统死机后无法获取计算机中的错误数据的问题。
实施例三
本发明实施例提供了一种故障处理方法,用于图1或图2所示的计算机,该计算机包括基板管理控制器和处理器,所述方法包括:
S301:基板管理控制器在确定计算机死机时,向处理器发送读请求消息,所述读请求消息用于请求读取所述处理器记录的第一错误数据。
所述处理器可以获取所述第一错误数据,并记录所述第一错误数据。所述基板管理控制器在确定所述计算机死机时,可以向所述处理器发送读请求消息,以读取所述处理器记录的第一错误数据。此时虽然所述计算机已经死机,所述处理器无法执行任何计算机指令,但是所述处理器可以接收并响应所述读请求消息,从而所述基板管理控制器可以获取所述第一错误数据;例如所述处理器可以将所述第一错误数据记录在自身的寄存器中,则所述基板管理控制器可以将所述读请求消息发送给所述处理器的寄存器,所述处理器的寄存器可以接收所述读请求消息,并返回读响应消息。在本发明实施例中,所述第一错误数据可能包括一个或多个错误数据,本发明实施例在此不作限定。
所述基板管理控制器确定所述计算机死机有多种方式,具体地可以参考实施例一或实施例二,本发明实施例在此不再赘述。
S302:所述基板管理控制器接收所述处理器返回的读响应消息,并根据所述读响应消息,获得所述处理器记录的所述第一错误数据。
如果所述基板管理控制器从所述处理器读取数据成功,则所述读响应消息可能携带所述第一错误数据,则所述基板管理控制器可以从所述读响应消息中获得所述处理器记录的所述第一错误数据;如果所述基板管理控制器从苏搜处理器读取数据失败,则所述读响应消息可能携带读失败指示,则所述基板管理控制器可以通过其它方式获取所述第一错误数据,例如可以预先在所述计算机中配置所述基本输入输出系统的故障收集指令,当所述读响应消息携带读失败指示时,所述基板管理控制器可以指示所述计算机的热重启模块或者用户对所述计算机进行热重启,以使得所述处理器在所述计算机热重启时,执行所述计算机的基本输入输出系统的故障收集指令,根据所述基本输入输出系统的故障收集指令,获取所述第一错误数据,并发送给所述基板管理控制器,则所述基板管理控制器可以通过接收所述处理器发送的所述第一错误数据,完成所述第一错误数据的获取。
在本发明实施例中,计算机的基板管理控制器可以在确定所述计算机死机时,向所述计算机的处理器发送读请求消息,所述读请求消息用于请求读取所述处理器记录的第一错误数据,接收所述处理器返回的读响应消息,根据所述读响应消息,获得所述处理器记录的所述第一错误数据。本发明实施例无需利用操作系统,只需通过基板管理控制器就实现了计算机死机后计算机中的错误数据的获取,解决了现有技术中计算机出现严重的不可纠正错误导致系统死机后无法获取计算机中的错误数据的问题。
实施例四
本发明实施例提供了一种故障处理方法,用于图1或图2所示的计算机,该计算机包括基板管理控制器和处理器,所述方法包括:
S401:基板管理控制器接收处理器发送的严重故障事件指示,所述严重故障事件指示是所述处理器在获取到第一错误数据并且所述第一错误数据属于严重的不可纠正错误类型时发送的。
S402:所述基板管理控制器向所述计算机的故障告警模块发送告警消息或进行打印操作,以将所述严重故障告警事件通知用户。
所述基板管理控制器可以在接收到所述处理器发送的严重故障事件指示后,通过告警消息触发故障告警传感器或者进行打印操作,以通知用户所述计算机产生了严重故障可能导致死机。在本发明实施例中,S402为可选步骤。
S403:如果从接收到所述严重故障事件指示开始,在预设等待时间内,所述基板管理控未接收到所述处理器发送的至少部分所述第一错误数据,确定所述计算机死机,执行步骤S404。
所述处理器在获取到所述第一错误数据之后,如果所述计算机没有死机,则所述处理器可以执行所述基本输入输出系统的错误收集指令,根据所述基本输入输出系统的错误收集指令,将所述第一错误数据发送给所述基板管理控制器;如果所述计算机死机,则所述处理器无法执行任何计算机指令。因此,如果从接收到所述严重故障事件指示开始,在预设等待时间内,所述基板管理控制器未接收到所述处理器发送的至少部分所述第一错误数据,可以确定所述计算机死机。
S404:所述基板管理控制器向所述处理器发送读请求消息,所述读请求消息用于请求读取所述处理器记录的第一错误数据。
在确定所述计算机死机之后,所述基板管理控制器可以向处理器获取所述第一错误数据,以实现所述计算机死机后,对计算机中的错误数据的获取。
S405:所述基板管理控制器接收所述处理器返回的读响应消息,并根据所述读响应消息,获得所述处理器记录的所述第一错误数据。
所述基板管理控制器根据所述读响应消息,获得所述处理器记录的所述第一错误数据,具体可以是S405a所述的方式,也可以是S405a所述的方式。
S405a:如果所述读响应消息中携带所述第一错误数据,则所述基板管理控制器从所述读响应消息中获得所述处理器记录的所述第一错误数据。
如果所述读响应消息中携带所述第一错误数据,表明所述基板管理控制器从所述处理器读取所述第一错误数据成功,所述基板管理控制器可以从所述读响应消息中获得所述处理器记录的所述第一错误数据。
S405b:如果所述读响应消息中携带读失败指示,所述读失败指示用于指示从所述处理器中读取所述第一错误数据失败,则所述基板管理控制器指示所述计算机的热重启模块或者用户对所述计算机进行热重启,以使得所述处理器在所述计算机热重启时,执行所述计算机的基本输入输出系统的故障收集指令,根据所述基本输入输出系统的故障收集指令,获取所述第一错误数据,并发送给所述基板管理控制器;所述基板管理控制器接收所述处理器发送的所述第一错误数据。
可以预先将所述基本输入输出系统的故障收集指令配置在所述计算机中,当所述基板管理控制器从所述处理器中读取所述第一错误数据失败时,所述读响应消息中携带读失败指示,所述基板管理控制器指示所述计算机的热重启模块或者用户对所述计算机进行热重启,以使得所述处理器在所述计算机热重启时,执行所述计算机的基本输入输出系统的故障收集指令,根据所述基本输入输出系统的故障收集指令,获取所述第一错误数据,并发送给所述基板管理控制器。
S406:所述基板管理控制器根据故障解析机制,对所述第一错误数据进行解析,得到所述第一错误数据的故障解析信息。
在所述基板管理控制器获取到所述第一错误数据之后,所述基板管理控制器根据故障解析机制,对所述第一错误数据进行解析,得到所述第一错误数据的故障解析信息,所述第一错误数据的故障解析信息可以包括所述第一错误数据中每个错误数据的产生时间、谁收集的该错误数据、该错误数据来自哪个处理器、哪个核(Core)、属于什么错误等;所述故障解析信息不仅可以提供给维修人员或用户去了解故障情况,还可以用于后续的故障定位、分析和处理。
S407:所述基板管理控制器根据预设的故障处理机制,对所述所述第一错误数据的故障解析信息进行分析,得到所述故障处理建议。
所述预设的故障处理机制可以是X86的故障机制或者故障处理经验,所述基板管理控制器根据预设的故障处理机制,对所述所述第一错误数据的故障解析信息进行分析,得到所述故障处理建议,所述故障处理建议可以为故障定位信息或者处理建议信息,从而用户或者故障维修人员可以根据所述故障处理建议,对所述计算机进行处理,以恢复所述计算机。
S408:所述基板管理控制器打印所述故障处理建议。
所述基板管理控制器在得到所述故障处理建议之后,可以将所述故障处理建议打印出来,或者还可以将所述故障处理建议和所述第一错误数据的故障解析信息一起打印出来,从而用户或者故障维修人员可以根据打印的信息对所述计算机进行处理,以恢复所述计算机。
本发明实施例无需利用操作系统,只需通过基板管理控制器就实现了计算机死机后计算机中的错误数据的获取,解决了现有技术中计算机出现严重的不可纠正错误导致系统死机后无法获取计算机中的错误数据的问题。此外,所述基板管理控制器还可以对所述第一错误数据进行解析,并根据预设的故障处理机制,对所述第一错误数据的故障解析信息进行分析,定位故障源并给出处理建议。
由于步骤S407中,只对所述第一错误数据的故障解析信息进行分析得到故障处理建议,所述第一错误数据可能只是所述计算机死机之前很短一段时间内产生的错误数据,例如,所述第一错误数据为所述计算机死机之前2秒内产生的错误数据,因此,为了提高故障定位和分析的准确度,可以对更多的错误数据的故障解析信息进行分析。
在步骤S403之前,所述基板管理控制器还可以接收所述处理器发送的第二错误数据,所述第二错误数据为所述计算机产生所述第一错误数据之前预设时间内产生的错误数据。
则步骤S407还可以为:所述基板管理控制器根据故障解析机制,对所述第二错误数据进行解析,得到所述第二错误数据的故障解析信息,并对所述第二错误数据的故障解析信息和所述第一错误数据的故障解析信息进行分析,得到所述故障处理建议。
在本发明实施例中,所述基板管理控制器可以对对所述第二错误数据的故障解析信息和所述第一错误数据的故障解析信息进行分析,得到所述故障处理建议,提高故障定位和分析的准确度。
可选地,在步骤S405之后,所述基板管理控制器还可以将所述第一错误数据的故障解析信息、所述第二错误数据的故障解析信息、所述第一错误数据和所述第二错误数据中的至少一种保存到所述计算机的故障信息库。例如将所述第一错误数据的故障解析信息和所述第二错误数据的故障解析信保存到所述故障信息库息,或者将所述第一错误数据和所述第二错误数据保存到所述故障信息库息,从而在所述故障记录库中记录完整的故障记录。
可选地,在步骤S405之后,所述基板管理控制器还可以向所述处理器发送清除数据消息,以指示所述处理器删除自身记录的所述第一错误数据,避免存储资源的浪费。
本发明实施例三或实施例四中的基板管理控制器,具体可以参照本发明实施例一或实施例二所述的基板管理控制器与处理器进行交互和进行故障处理。
实施例五
本发明实施例提供了一种基板管理控制器,用于包括所述基板管理控制器和处理器的计算机,例如用于如图1或2中所述的计算机,如图5所示,所述基板管理控制可以包括发送单元和接收单元;
所述发送单元,用于在确定所述计算机死机时,向所述处理器发送读请求消息,所述读请求消息用于请求读取所述处理器记录的第一错误数据;虽然所述计算机已经死机,所述处理器无法执行任何计算机指令,但是所述处理器可以接收并响应所述读请求消息;
所述接收单元,用于接收所述处理器返回的读响应消息,并根据所述读响应消息,获得所述处理器记录的所述第一错误数据。例如,所述接收单元可以在所述读响应消息中携带所述第一错误数据时,从所述读响应消息中获得所述处理器记录的所述第一错误数据;又例如,所述接收单元可以在所述读响应消息中携带读失败指示时,指示所述计算机的热重启单元或者用户对所述计算机进行热重启,以使得所述处理器在所述计算机热重启时,执行所述计算机的基本输入输出系统的故障收集指令,根据所述基本输入输出系统的故障收集指令,获取所述第一错误数据,并发送给所述接收单元;其中,所述读失败指示用于指示从所述处理器中读取所述第一错误数据失败;所述接收单元接收所述处理器发送的所述第一错误数据。可选地,所述接收单元还可以在获取到所述第一错误数据之后,向所述处理器发送清除数据消息,以指示所述处理器删除自身记录的所述第一错误数据,避免存储资源的浪费。
可选地,所述基板管理控制器还可以包括确定单元,用于接收所述处理器发送的严重故障事件指示,所述严重故障事件指示是所述处理器在获取到所述第一错误数据并且所述第一错误数据属于严重的不可纠正错误类型时发送的;如果从接收到所述严重故障事件指示开始,在预设等待时间内,未接收到所述处理器发送的至少部分所述第一错误数据,则确定所述计算机死机。
可选地,所述基板管理控制器还可以包括故障告警单元,用于在所述确定单元接收所述处理器发送的严重故障事件指示后,向所述计算机的故障告警单元发送告警消息或进行打印操作,以将所述严重故障告警事件通知用户。
可选地,所述基板管理控制器还可以包括故障处理单元,用于根据故障解析机制,对所述第一错误数据进行解析,得到所述第一错误数据的故障解析信息。所述第一错误数据的故障解析信息可以包括所述第一错误数据中每个错误数据的产生时间、谁收集的该错误数据、该错误数据来自哪个处理器、哪个核(Core)、属于什么错误等;所述故障解析信息不仅可以提供给维修人员或用户去了解故障情况,还可以用于后续的故障定位、分析和处理。
此外,所述故障处理单元还可以用于根据预设的故障处理机制,对所述第一错误数据的故障解析信息进行分析,得到故障处理建议。所述预设的故障处理机制可以是X86的故障机制或者故障处理经验,所述故障处理建议可以为故障定位信息或者处理建议信息,从而用户或者故障维修人员可以根据所述故障处理建议,对所述计算机进行处理,以恢复所述计算机。
由于故障处理单元只对所述第一错误数据的故障解析信息进行分析得到故障处理建议,所述第一错误数据可能只是所述计算机死机之前很短一段时间内产生的错误数据,例如所述第一错误数据为所述计算机死机前0.8秒内产生的错误数据,因此为了提高故障定位和分析的准确度,所述故障处理单元可以对更多的错误数据的故障解析信息进行分析。具体地,所述接收单元还用于接收所述处理器发送的第二错误数据;所述第二错误数据为所述计算机产生所述第一错误数据之前预设时间内产生的错误数据;则可以根据所述故障解析机制,对所述第二错误数据进行解析,得到所述第二错误数据的故障解析信息,根据所述预设的故障处理机制,对所述第二错误数据的故障解析信息和所述第一错误数据的故障解析信息进行分析,得到所述故障处理建议。
可选地,所述故障处理单元还用于打印所述第一错误数据的故障解析信息或所述故障处理建议。
可选地,所述故障处理单元还用于将所述第一错误数据的故障解析信息、所述第二错误数据的故障解析信息、所述第一错误数据和所述第二错误数据中的至少一种保存到所述计算机的故障信息库;例如将所述第一错误数据的故障解析信息和所述第二错误数据的故障解析信保存到所述故障信息库息,或者将所述第一错误数据和所述第二错误数据保存到所述故障信息库息,从而在所述故障记录库中记录完整的故障记录。
本发明实施例中的基板管理控制器,具体可以参照本发明实施例一或实施例二所述的基板管理控制器与处理器进行交互和进行故障处理。
在本发明实施例中,所述发送单元可以在确定所述计算机死机时,向所述计算机的处理器发送读请求消息,所述读请求消息用于请求读取所述处理器记录的第一错误数据,所述接收单元可以接收所述处理器返回的读响应消息,根据所述读响应消息,获得所述处理器记录的所述第一错误数据。本发明实施例无需利用操作系统,只需通过基板管理控制器就实现了计算机死机后计算机中的错误数据的获取,解决了现有技术中计算机出现严重的不可纠正错误导致系统死机后无法获取计算机中的错误数据的问题。
本发明实施例提供了一种计算机可读介质,包括计算机执行指令,以供计算机的处理器执行所述计算机执行指令时,所述计算机可以执行实施例三或实施例四所述的故障处理方法。
如图6,为本发明实施例提供的一种基板管理控制器,所述基板管理控制器可以包括:
处理器601、存储器602、系统总线604和通信接口605。处理器601、存储器602和通信接口605之间通过系统总线604连接并完成相互间的通信。
处理器601可能为单核或多核中央处理单元,或者为特定集成电路,或者为被配置成实施本发明实施例的一个或多个集成电路。
存储器602可以为高速RAM存储器,也可以为非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
存储器602用于计算机执行指令603。具体的,计算机执行指令603中可以包括程序代码。
当所述基板管理控制器运行时,处理器601运行计算机执行指令603,可以执行实施例三或实施例四所述的故障处理方法的方法流程。
本领域普通技术人员将会理解,本发明的各个方面、或各个方面的可能实现方式可以被具体实施为系统、方法或者计算机程序产品。因此,本发明的各方面、或各个方面的可能实现方式可以采用完全硬件实施例、完全软件实施例(包括固件、驻留软件等等),或者组合软件和硬件方面的实施例的形式,在这里都统称为“电路”、“模块”或者“系统”。此外,本发明的各方面、或各个方面的可能实现方式可以采用计算机程序产品的形式,计算机程序产品是指存储在计算机可读介质中的计算机可读程序代码。
计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质包含但不限于电子、磁性、光学、电磁、红外或半导体系统、设备或者装置,或者前述的任意适当组合,如随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或者快闪存储器)、光纤、便携式只读存储器(CD-ROM)。
计算机中的处理器读取存储在计算机可读介质中的计算机可读程序代码,使得处理器能够执行在流程图中每个步骤、或各步骤的组合中规定的功能动作;生成实施在框图的每一块、或各块的组合中规定的功能动作的装置。
计算机可读程序代码可以完全在用户的计算机上执行、部分在用户的计算机上执行、作为单独的软件包、部分在用户的计算机上并且部分在远程计算机上,或者完全在远程计算机或者计算机上执行。也应该注意,在某些替代实施方案中,在流程图中各步骤、或框图中各块所注明的功能可能不按图中注明的顺序发生。例如,依赖于所涉及的功能,接连示出的两个步骤、或两个块实际上可能被大致同时执行,或者这些块有时候可能被以相反顺序执行。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (32)
1.一种计算机,包括处理器和基板管理控制器,其特征在于,
所述基板管理控制器用于在确定所述计算机死机时,向所述处理器发送读请求消息,所述读请求消息用于请求读取所述处理器记录的第一错误数据;
所述处理器用于接收所述读请求消息,并向所述基板管理控制器发送读响应消息;
所述基板管理控制器用于接收所述处理器返回的所述读响应消息,并根据所述读响应消息,获得所述处理器记录的所述第一错误数据。
2.根据权利要求1所述的计算机,其特征在于,所述处理器还用于获取所述第一错误数据,并记录所述第一错误数据;
则所述基板管理控制器用于确定所述计算机死机具体为:
所述基板管理控制器用于接收所述处理器发送的严重故障事件指示,所述严重故障事件指示是所述处理器在获取到所述第一错误数据并且所述第一错误数据属于严重的不可纠正错误类型时发送的;
如果从接收到所述严重故障事件指示开始,在预设等待时间内,未接收到所述处理器发送的至少部分所述第一错误数据,则所述基板管理控制器用于确定所述计算机死机。
3.根据权利要求1或2所述的计算机,其特征在于,所述基板管理控制器用于根据所述读响应消息,获得所述处理器记录的所述第一错误数据具体为:当所述读响应消息中携带所述第一错误数据时,所述基板管理器用于从所述读响应消息中获得所述处理器记录的所述第一错误数据。
4.根据权利要求1或2所述的计算机,其特征在于,所述基板管理控制器用于根据所述读响应消息,获得所述处理器记录的所述第一错误数据具体为:
当所述读响应消息中携带读失败指示时,所述基板管理控制器用于指示所述计算机的热重启模块或者用户对所述计算机进行热重启;其中,所述读失败指示用于指示从所述处理器中读取所述第一错误数据失败,以使得所述处理器在所述计算机热重启时,执行所述计算机的基本输入输出系统的故障收集指令,根据所述基本输入输出系统的故障收集指令,获取所述第一错误数据,并发送给所述基板管理控制器;
所述基板管理控制器用于接收所述处理器发送的所述第一错误数据。
5.根据权利要求1-4任一所述的计算机,其特征在于,所述基板管理控制器在根据所述读响应消息,获得所述处理器记录的所述第一错误数据之后,还用于向所述处理器发送清除数据消息,以指示所述处理器删除自身记录的所述第一错误数据。
6.根据权利要求2所述的计算机,其特征在于,所述基板管理控制器还用于在接收所述处理器发送的严重故障事件指示后,向所述计算机的故障告警模块发送告警消息或进行打印操作,以将所述严重故障告警事件通知用户。
7.根据权利要求1-6任一所述的计算机,其特征在于,所述基板管理控制器还用于根据故障解析机制,对所述第一错误数据进行解析,得到所述第一错误数据的故障解析信息。
8.根据权利要求7所述的计算机,其特征在于,所述基板管理控制器还用于根据预设的故障处理机制,对所述第一错误数据的故障解析信息进行分析,得到故障处理建议。
9.根据权利要求8所述的计算机,其特征在于,所述基板管理控制器在确定所述计算机死机之前,还用于接收所述处理器发送的第二错误数据,并根据所述故障解析机制,对所述第二错误数据进行解析,得到所述第二错误数据的故障解析信息,其中,所述第二错误数据为所述计算机产生所述第一错误数据之前预设时间内产生的错误数据;
则,所述基板管理控制器用于根据预设的故障处理机制,对所述第一错误数据的故障解析信息进行分析,得到故障处理建议包括:
所述基板管理控制器用于根据所述预设的故障处理机制,对所述第二错误数据的故障解析信息和所述第一错误数据的故障解析信息进行分析,得到所述故障处理建议。
10.根据权利要求7-9任一项所述的计算机,其特征在于,所述基板管理控制器还用于打印所述第一错误数据的故障解析信息或所述故障处理建议。
11.根据权利要求7-9任一项所述的计算机,其特征在于,所述基板管理控制器还用于将所述第一错误数据的故障解析信息、所述第二错误数据的故障解析信息、所述第一错误数据和所述第二错误数据中的至少一种保存到所述计算机的故障信息库。
12.一种故障处理方法,用于包括基板管理控制器和处理器的计算机,其特征在于,所述方法包括:
所述基板管理控制器在确定所述计算机死机时,向所述处理器发送读请求消息,所述读请求消息用于请求读取所述处理器记录的第一错误数据;
所述基板管理控制器接收所述处理器返回的读响应消息,并根据所述读响应消息,获得所述处理器记录的所述第一错误数据。
13.根据权利要求12所述的方法,其特征在于,所述方法还包括:
所述基板管理控制器接收所述处理器发送的严重故障事件指示,所述严重故障事件指示是所述处理器在获取到所述第一错误数据并且所述第一错误数据属于严重的不可纠正错误类型时发送的;如果从接收到所述严重故障事件指示开始,在预设等待时间内,未接收到所述处理器发送的至少部分所述第一错误数据,则确定所述计算机死机。
14.根据权利要求12或13所述的方法,其特征在于,所述基板管理控制器接收所述处理器返回的读响应消息,并根据所述读响应消息,获得所述处理器记录的所述第一错误数据包括:
所述基板管理控制器在所述读响应消息中携带所述第一错误数据时,从所述读响应消息中获得所述处理器记录的所述第一错误数据。
15.根据权利要求12或13所述的方法,其特征在于,所述基板管理控制器接收所述处理器返回的读响应消息,并根据所述读响应消息,获得所述处理器记录的所述第一错误数据包括:
所述基板管理控制器在所述读响应消息中携带读失败指示时,指示所述计算机的热重启模块或者用户对所述计算机进行热重启,以使得所述处理器在所述计算机热重启时,执行所述计算机的基本输入输出系统的故障收集指令,根据所述基本输入输出系统的故障收集指令,获取所述第一错误数据,并发送给所述基板管理控制器;其中,所述读失败指示用于指示从所述处理器中读取所述第一错误数据失败;
所述基板管理控制器接收所述处理器发送的所述第一错误数据。
16.根据权利要求13所述的方法,其特征在于,在所述基板管理控制器接收所述处理器发送的严重故障事件指示后,所述方法还包括:
所述基板管理控制器向所述计算机的故障告警模块发送告警消息或进行打印操作,以将所述严重故障告警事件通知用户。
17.根据权利要求12-16任一所述的方法,其特征在于,在所述基板管理控制器根据所述读响应消息,获得所述处理器记录的所述第一错误数据之后,所述方法还包括:所述基板管理控制器根据故障解析机制,对所述第一错误数据进行解析,得到所述第一错误数据的故障解析信息。
18.根据权利要求17所述的方法,其特征在于,所述方法还包括:所述基板管理控制器根据预设的故障处理机制,对所述第一错误数据的故障解析信息进行分析,得到故障处理建议。
19.根据权利要求18所述的方法,其特征在于,在所述基板管理控制器确定所述计算机死机之前,所述方法还包括:所述基板管理控制器接收所述处理器发送的第二错误数据;其中,所述第二错误数据为所述计算机产生所述第一错误数据之前预设时间内产生的错误数据;
则,所述基板管理控制器根据预设的故障处理机制,对所述第一错误数据的故障解析信息进行分析,得到故障处理建议包括:
所述基板管理控制器根据所述故障解析机制,对所述第二错误数据进行解析,得到所述第二错误数据的故障解析信息,并根据所述预设的故障处理机制,对所述第二错误数据的故障解析信息和所述第一错误数据的故障解析信息进行分析,得到所述故障处理建议。
20.根据权利要求17-19任一项所述的方法,其特征在于,所述方法还包括:所述基板管理控制器打印所述第一错误数据的故障解析信息或所述故障处理建议。
21.根据权利要求17-19任一项所述的方法,其特征在于,所述方法还包括:所述基板管理控制器将所述第一错误数据的故障解析信息、所述第二错误数据的故障解析信息、所述第一错误数据和所述第二错误数据中的至少一种保存到所述计算机的故障信息库。
22.一种基板管理控制器,其特征在于,包括:
发送单元,用于在确定所述计算机死机时,向所述处理器发送读请求消息,所述读请求消息用于请求读取所述处理器记录的第一错误数据;
接收单元,用于接收所述处理器返回的读响应消息,并根据所述读响应消息,获得所述处理器记录的所述第一错误数据。
23.根据权利要求22所述的基板管理控制器,其特征在于,还包括:
确定单元,用于接收所述处理器发送的严重故障事件指示,所述严重故障事件指示是所述处理器在获取到所述第一错误数据并且所述第一错误数据属于严重的不可纠正错误类型时发送的;如果从接收到所述严重故障事件指示开始,在预设等待时间内,未接收到所述处理器发送的至少部分所述第一错误数据,则确定所述计算机死机。
24.根据权利要求22或23所述的基板管理控制器,其特征在于,所述接收单元接收所述处理器返回的读响应消息,并根据所述读响应消息,获得所述处理器记录的所述第一错误数据包括:所述接收单元在所述读响应消息中携带所述第一错误数据时,从所述读响应消息中获得所述处理器记录的所述第一错误数据。
25.根据权利要求22或23所述的基板管理控制器,其特征在于,所述接收单元接收所述处理器返回的读响应消息,并根据所述读响应消息,获得所述处理器记录的所述第一错误数据包括:
所述接收单元在所述读响应消息中携带读失败指示时,指示所述计算机的热重启单元或者用户对所述计算机进行热重启,以使得所述处理器在所述计算机热重启时,执行所述计算机的基本输入输出系统的故障收集指令,根据所述基本输入输出系统的故障收集指令,获取所述第一错误数据,并发送给所述接收单元;其中,所述读失败指示用于指示从所述处理器中读取所述第一错误数据失败;
所述接收单元接收所述处理器发送的所述第一错误数据。
26.根据权利要求23所述的基板管理控制器,其特征在于,还包括:
故障告警单元,用于在所述确定单元接收所述处理器发送的严重故障事件指示后,向所述计算机的故障告警单元发送告警消息或进行打印操作,以将所述严重故障告警事件通知用户。
27.根据权利要求22-26任一所述的基板管理控制器,其特征在于,还包括:
故障处理单元,用于根据故障解析机制,对所述第一错误数据进行解析,得到所述第一错误数据的故障解析信息。
28.根据权利要求27所述的基板管理控制器,其特征在于,所述故障处理单元还用于根据预设的故障处理机制,对所述第一错误数据的故障解析信息进行分析,得到故障处理建议。
29.根据权利要求28所述的基板管理控制器,其特征在于,所述接收单元还用于接收所述处理器发送的第二错误数据;
所述故障处理单元还用于根据所述故障解析机制,对所述第二错误数据进行解析,得到所述第二错误数据的故障解析信息;其中,所述第二错误数据为所述计算机产生所述第一错误数据之前预设时间内产生的错误数据;
则,所述故障处理单元用于根据预设的故障处理机制,对所述第一错误数据的故障解析信息进行分析,得到故障处理建议包括:
所述故障处理单元根据所述预设的故障处理机制,对所述第二错误数据的故障解析信息和所述第一错误数据的故障解析信息进行分析,得到所述故障处理建议。
30.根据权利要求27-29任一项所述的基板管理控制器,其特征在于,所述故障处理单元还用于将所述第一错误数据的故障解析信息、所述第二错误数据的故障解析信息、所述第一错误数据和所述第二错误数据中的至少一种保存到所述计算机的故障信息库。
31.一种基板管理控制器,其特征在于,所述基板管理控制器包括处理器、存储器、总线和通信接口;
所述存储器用于存储计算机执行指令,所述处理器与所述存储器通过所述总线连接,当所述基板管理控制器运行时,所述处理器执行所述存储器存储的所述计算机执行指令,以使所述基板管理控制器执行如权利要求12-21中任一项所述的故障处理方法。
32.一种计算机可读介质,其特征在于,包括计算机执行指令,以供计算机的处理器执行所述计算机执行指令时,所述计算机执行如权利要求12-21中任一项所述的故障处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710454179.1A CN107357671A (zh) | 2014-06-24 | 2014-06-24 | 一种故障处理方法、相关装置及计算机 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710454179.1A CN107357671A (zh) | 2014-06-24 | 2014-06-24 | 一种故障处理方法、相关装置及计算机 |
PCT/CN2014/080618 WO2015196365A1 (zh) | 2014-06-24 | 2014-06-24 | 一种故障处理方法、相关装置及计算机 |
CN201480056020.9A CN105659215B (zh) | 2014-06-24 | 2014-06-24 | 一种故障处理方法、相关装置及计算机 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480056020.9A Division CN105659215B (zh) | 2014-06-24 | 2014-06-24 | 一种故障处理方法、相关装置及计算机 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107357671A true CN107357671A (zh) | 2017-11-17 |
Family
ID=54936439
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480056020.9A Active CN105659215B (zh) | 2014-06-24 | 2014-06-24 | 一种故障处理方法、相关装置及计算机 |
CN201710454179.1A Pending CN107357671A (zh) | 2014-06-24 | 2014-06-24 | 一种故障处理方法、相关装置及计算机 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480056020.9A Active CN105659215B (zh) | 2014-06-24 | 2014-06-24 | 一种故障处理方法、相关装置及计算机 |
Country Status (14)
Country | Link |
---|---|
US (3) | US10353763B2 (zh) |
EP (2) | EP3121726B1 (zh) |
JP (1) | JP6333410B2 (zh) |
KR (1) | KR101944874B1 (zh) |
CN (2) | CN105659215B (zh) |
AU (1) | AU2014399227B2 (zh) |
BR (1) | BR112016022329B1 (zh) |
CA (1) | CA2942045C (zh) |
DK (1) | DK3121726T3 (zh) |
ES (1) | ES2667322T3 (zh) |
NO (1) | NO3121726T3 (zh) |
SG (1) | SG11201607545PA (zh) |
WO (1) | WO2015196365A1 (zh) |
ZA (1) | ZA201606180B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108958965A (zh) * | 2018-06-28 | 2018-12-07 | 郑州云海信息技术有限公司 | 一种bmc监控可恢复ecc错误的方法、装置及设备 |
CN109240847A (zh) * | 2018-09-27 | 2019-01-18 | 郑州云海信息技术有限公司 | 一种post过程中内存错误上报方法、装置、终端及存储介质 |
CN109947585A (zh) * | 2019-03-13 | 2019-06-28 | 西安易朴通讯技术有限公司 | Pcie设备故障的处理方法及装置 |
CN110532160A (zh) * | 2019-09-03 | 2019-12-03 | 深圳市智微智能科技开发有限公司 | 一种bmc记录服务器系统热重启事件的方法 |
CN112181522A (zh) * | 2020-09-28 | 2021-01-05 | 亚信科技(中国)有限公司 | 数据处理的方法、装置以及电子设备 |
CN112256467A (zh) * | 2020-10-23 | 2021-01-22 | 英业达科技有限公司 | 错误类型判断系统及其方法 |
CN118467221A (zh) * | 2024-05-06 | 2024-08-09 | 北京安讯天维科技有限公司 | 一种服务器故障危险等级识别及故障恢复方法 |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975377B (zh) * | 2016-04-29 | 2018-05-25 | 浪潮电子信息产业股份有限公司 | 一种监控内存的方法及装置 |
CN107077408A (zh) | 2016-12-05 | 2017-08-18 | 华为技术有限公司 | 故障处理的方法、计算机系统、基板管理控制器和系统 |
JP7063445B2 (ja) * | 2017-03-22 | 2022-05-09 | Necプラットフォームズ株式会社 | 障害情報処理プログラム、コンピュータ、障害通知方法、コンピュータシステム |
KR102455880B1 (ko) | 2018-01-12 | 2022-10-19 | 에스케이하이닉스 주식회사 | 메모리 시스템 및 메모리 시스템의 동작 방법 |
US11636014B2 (en) * | 2017-10-31 | 2023-04-25 | SK Hynix Inc. | Memory system and data processing system including the same |
CN108108259A (zh) * | 2018-01-11 | 2018-06-01 | 郑州云海信息技术有限公司 | 一种内核故障定位方法及装置 |
US10846162B2 (en) * | 2018-11-29 | 2020-11-24 | Oracle International Corporation | Secure forking of error telemetry data to independent processing units |
CN109783325B (zh) * | 2018-12-14 | 2023-07-25 | 平安证券股份有限公司 | 业务监控方法、装置、设备及存储介质 |
TWI709082B (zh) * | 2019-07-08 | 2020-11-01 | 神雲科技股份有限公司 | 應用於開機階段及開機後運行階段的除錯訊息紀錄方法 |
CN112346786B (zh) * | 2019-08-08 | 2022-07-12 | 佛山市顺德区顺达电脑厂有限公司 | 应用于开机阶段及开机后运行阶段的除错信息纪录方法 |
TWI715201B (zh) * | 2019-09-18 | 2021-01-01 | 神雲科技股份有限公司 | 開機錯誤資訊記錄方法 |
US11243859B2 (en) * | 2019-10-09 | 2022-02-08 | Microsoft Technology Licensing, Llc | Baseboard management controller that initiates a diagnostic operation to collect host information |
CN111008091A (zh) * | 2019-12-06 | 2020-04-14 | 苏州浪潮智能科技有限公司 | 一种内存ce的故障处理方法、系统及相关装置 |
US11132314B2 (en) * | 2020-02-24 | 2021-09-28 | Dell Products L.P. | System and method to reduce host interrupts for non-critical errors |
CN113535502B (zh) * | 2020-04-17 | 2024-06-25 | 捷普科技(上海)有限公司 | 用于服务器系统的错误日志收集方法 |
US11204821B1 (en) * | 2020-05-07 | 2021-12-21 | Xilinx, Inc. | Error re-logging in electronic systems |
CN111581058B (zh) * | 2020-05-09 | 2024-03-19 | 西安易朴通讯技术有限公司 | 故障管理方法、装置、设备及计算机可读存储介质 |
US11269729B1 (en) * | 2020-12-21 | 2022-03-08 | Microsoft Technology Licensing, Llc | Overloading a boot error signaling mechanism to enable error mitigation actions to be performed |
CN113190396A (zh) * | 2021-03-15 | 2021-07-30 | 山东英信计算机技术有限公司 | 一种收集cpu寄存器数据的方法、系统及介质 |
CN113076210B (zh) * | 2021-03-26 | 2023-01-20 | 山东英信计算机技术有限公司 | 服务器故障诊断结果通知方法、系统、终端及存储介质 |
CN113726555A (zh) * | 2021-08-02 | 2021-11-30 | 华迪计算机集团有限公司 | 一种适用于数据通信网络辅助解析告警的系统及方法 |
CN114201360B (zh) * | 2021-11-26 | 2023-11-17 | 苏州浪潮智能科技有限公司 | 一种aer功能管理方法、装置、服务器和存储介质 |
US11921582B2 (en) * | 2022-04-29 | 2024-03-05 | Microsoft Technology Licensing, Llc | Out of band method to change boot firmware configuration |
TWI800443B (zh) * | 2022-08-15 | 2023-04-21 | 緯穎科技服務股份有限公司 | 快速周邊組件互連裝置的錯誤回報優化方法以及快速周邊組件互連裝置的錯誤回報優化系統 |
CN118132358B (zh) * | 2024-04-29 | 2024-08-30 | 苏州元脑智能科技有限公司 | 注错方法、系统、上位机、控制器、设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1734424A (zh) * | 2004-07-06 | 2006-02-15 | 英特尔公司 | 检测错误和预报潜在故障的系统以及方法 |
US20070234123A1 (en) * | 2006-03-31 | 2007-10-04 | Inventec Corporation | Method for detecting switching failure |
CN101126995A (zh) * | 2006-08-14 | 2008-02-20 | 国际商业机器公司 | 处理严重硬件错误的方法及设备 |
US20130332781A1 (en) * | 2012-06-06 | 2013-12-12 | Sarathy Jayakumar | Recovery after input/ouput error-containment events |
CN103514068A (zh) * | 2012-06-28 | 2014-01-15 | 北京百度网讯科技有限公司 | 内存故障自动定位方法 |
CN103647804A (zh) * | 2013-11-22 | 2014-03-19 | 华为技术有限公司 | 一种存储单元的数据处理方法、设备及系统 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02234241A (ja) * | 1989-03-08 | 1990-09-17 | Hitachi Ltd | リセット・リトライ回路 |
JPH0375844A (ja) * | 1989-08-17 | 1991-03-29 | Nec Corp | 障害自動解析方式 |
JPH05233377A (ja) * | 1992-01-09 | 1993-09-10 | Nec Corp | レジスタ情報収集方式 |
JPH09288602A (ja) * | 1996-04-23 | 1997-11-04 | Fujitsu Ltd | 障害情報記憶装置の書込み保護装置とリセット制御方法 |
JPH09286602A (ja) | 1996-04-24 | 1997-11-04 | Mitsubishi Gas Chem Co Inc | 一酸化炭素及び水素の混合ガスの製造方法 |
US20030070115A1 (en) * | 2001-10-05 | 2003-04-10 | Nguyen Tom L. | Logging and retrieving pre-boot error information |
JP3902564B2 (ja) * | 2003-04-15 | 2007-04-11 | 中部日本電気ソフトウェア株式会社 | 障害通報装置および障害通報方法 |
US7844866B2 (en) * | 2007-10-02 | 2010-11-30 | International Business Machines Corporation | Mechanism to report operating system events on an intelligent platform management interface compliant server |
JP2005251060A (ja) * | 2004-03-08 | 2005-09-15 | Hitachi Ltd | 故障表示装置および故障部位表示方法 |
US7546487B2 (en) * | 2005-09-15 | 2009-06-09 | Intel Corporation | OS and firmware coordinated error handling using transparent firmware intercept and firmware services |
US20070088988A1 (en) | 2005-10-14 | 2007-04-19 | Dell Products L.P. | System and method for logging recoverable errors |
US20080270827A1 (en) * | 2007-04-26 | 2008-10-30 | International Business Machines Corporation | Recovering diagnostic data after out-of-band data capture failure |
US8024609B2 (en) * | 2009-06-03 | 2011-09-20 | International Business Machines Corporation | Failure analysis based on time-varying failure rates |
JP5514643B2 (ja) * | 2010-06-21 | 2014-06-04 | 株式会社日立ソリューションズ | 障害原因判定ルール変化検知装置及びプログラム |
CN102375775B (zh) | 2010-08-11 | 2014-08-20 | 英业达股份有限公司 | 一种具有检测系统不可恢复错误指示信号的计算机系统 |
JP5541519B2 (ja) * | 2010-10-06 | 2014-07-09 | エヌイーシーコンピュータテクノ株式会社 | 情報処理装置、故障部位判別方法および故障部位判別プログラム |
CN102467440A (zh) * | 2010-11-09 | 2012-05-23 | 鸿富锦精密工业(深圳)有限公司 | 内存错误检测系统及方法 |
CN102467417B (zh) | 2010-11-19 | 2014-04-23 | 英业达股份有限公司 | 计算机系统 |
TWI446161B (zh) * | 2010-12-30 | 2014-07-21 | Ibm | 處理一多處理器資訊處理系統之一故障處理器的裝置及方法 |
US8898408B2 (en) * | 2011-12-12 | 2014-11-25 | Dell Products L.P. | Memory controller-independent memory mirroring |
JP6087540B2 (ja) * | 2012-08-30 | 2017-03-01 | Necプラットフォームズ株式会社 | 障害トレース装置、障害トレースシステム、障害トレース方法、及び、障害トレースプログラム |
EP3562184B1 (en) | 2015-04-13 | 2020-08-12 | Samsung Electronics Co., Ltd. | Technique for managing profile in communication system |
-
2014
- 2014-06-24 ES ES14896215.2T patent/ES2667322T3/es active Active
- 2014-06-24 WO PCT/CN2014/080618 patent/WO2015196365A1/zh active Application Filing
- 2014-06-24 AU AU2014399227A patent/AU2014399227B2/en active Active
- 2014-06-24 CA CA2942045A patent/CA2942045C/en active Active
- 2014-06-24 CN CN201480056020.9A patent/CN105659215B/zh active Active
- 2014-06-24 NO NO14896215A patent/NO3121726T3/no unknown
- 2014-06-24 SG SG11201607545PA patent/SG11201607545PA/en unknown
- 2014-06-24 EP EP14896215.2A patent/EP3121726B1/en active Active
- 2014-06-24 BR BR112016022329A patent/BR112016022329B1/pt active IP Right Grant
- 2014-06-24 EP EP17199084.9A patent/EP3355197B1/en active Active
- 2014-06-24 DK DK14896215.2T patent/DK3121726T3/en active
- 2014-06-24 JP JP2016562222A patent/JP6333410B2/ja active Active
- 2014-06-24 CN CN201710454179.1A patent/CN107357671A/zh active Pending
- 2014-06-24 KR KR1020167027222A patent/KR101944874B1/ko active IP Right Grant
-
2016
- 2016-09-06 ZA ZA2016/06180A patent/ZA201606180B/en unknown
- 2016-12-20 US US15/385,701 patent/US10353763B2/en active Active
-
2019
- 2019-07-11 US US16/509,218 patent/US20190332453A1/en not_active Abandoned
-
2021
- 2021-02-26 US US17/187,111 patent/US11360842B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1734424A (zh) * | 2004-07-06 | 2006-02-15 | 英特尔公司 | 检测错误和预报潜在故障的系统以及方法 |
US20070234123A1 (en) * | 2006-03-31 | 2007-10-04 | Inventec Corporation | Method for detecting switching failure |
CN101126995A (zh) * | 2006-08-14 | 2008-02-20 | 国际商业机器公司 | 处理严重硬件错误的方法及设备 |
US20130332781A1 (en) * | 2012-06-06 | 2013-12-12 | Sarathy Jayakumar | Recovery after input/ouput error-containment events |
CN103514068A (zh) * | 2012-06-28 | 2014-01-15 | 北京百度网讯科技有限公司 | 内存故障自动定位方法 |
CN103647804A (zh) * | 2013-11-22 | 2014-03-19 | 华为技术有限公司 | 一种存储单元的数据处理方法、设备及系统 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108958965A (zh) * | 2018-06-28 | 2018-12-07 | 郑州云海信息技术有限公司 | 一种bmc监控可恢复ecc错误的方法、装置及设备 |
CN108958965B (zh) * | 2018-06-28 | 2021-03-02 | 苏州浪潮智能科技有限公司 | 一种bmc监控可恢复ecc错误的方法、装置及设备 |
CN109240847A (zh) * | 2018-09-27 | 2019-01-18 | 郑州云海信息技术有限公司 | 一种post过程中内存错误上报方法、装置、终端及存储介质 |
CN109947585A (zh) * | 2019-03-13 | 2019-06-28 | 西安易朴通讯技术有限公司 | Pcie设备故障的处理方法及装置 |
CN110532160A (zh) * | 2019-09-03 | 2019-12-03 | 深圳市智微智能科技开发有限公司 | 一种bmc记录服务器系统热重启事件的方法 |
CN110532160B (zh) * | 2019-09-03 | 2023-07-25 | 深圳市智微智能科技股份有限公司 | 一种bmc记录服务器系统热重启事件的方法 |
CN112181522A (zh) * | 2020-09-28 | 2021-01-05 | 亚信科技(中国)有限公司 | 数据处理的方法、装置以及电子设备 |
CN112181522B (zh) * | 2020-09-28 | 2024-08-09 | 亚信科技(中国)有限公司 | 数据处理的方法、装置以及电子设备 |
CN112256467A (zh) * | 2020-10-23 | 2021-01-22 | 英业达科技有限公司 | 错误类型判断系统及其方法 |
CN118467221A (zh) * | 2024-05-06 | 2024-08-09 | 北京安讯天维科技有限公司 | 一种服务器故障危险等级识别及故障恢复方法 |
Also Published As
Publication number | Publication date |
---|---|
EP3121726B1 (en) | 2018-01-31 |
US20190332453A1 (en) | 2019-10-31 |
EP3121726A1 (en) | 2017-01-25 |
CA2942045C (en) | 2019-04-16 |
KR20160128404A (ko) | 2016-11-07 |
WO2015196365A1 (zh) | 2015-12-30 |
JP6333410B2 (ja) | 2018-05-30 |
CN105659215A (zh) | 2016-06-08 |
DK3121726T3 (en) | 2018-05-22 |
AU2014399227B2 (en) | 2017-07-27 |
JP2017517060A (ja) | 2017-06-22 |
EP3355197B1 (en) | 2019-10-23 |
BR112016022329B1 (pt) | 2019-01-02 |
ES2667322T3 (es) | 2018-05-10 |
US20210182136A1 (en) | 2021-06-17 |
BR112016022329A2 (pt) | 2017-08-15 |
EP3121726A4 (en) | 2017-05-03 |
CA2942045A1 (en) | 2015-12-30 |
SG11201607545PA (en) | 2016-10-28 |
KR101944874B1 (ko) | 2019-02-01 |
NO3121726T3 (zh) | 2018-06-30 |
US10353763B2 (en) | 2019-07-16 |
US20170102985A1 (en) | 2017-04-13 |
US11360842B2 (en) | 2022-06-14 |
EP3355197A1 (en) | 2018-08-01 |
ZA201606180B (en) | 2019-04-24 |
AU2014399227A1 (en) | 2016-09-22 |
CN105659215B (zh) | 2017-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105659215B (zh) | 一种故障处理方法、相关装置及计算机 | |
Gunawi et al. | Fail-slow at scale: Evidence of hardware performance faults in large production systems | |
US10489232B1 (en) | Data center diagnostic information | |
Do et al. | Limplock: Understanding the impact of limpware on scale-out cloud systems | |
CN106789306B (zh) | 通信设备软件故障检测收集恢复方法和系统 | |
CN114328102B (zh) | 设备状态监控方法、装置、设备及计算机可读存储介质 | |
CN105468484A (zh) | 用于在存储系统中确定故障位置的方法和装置 | |
US9256489B2 (en) | Synchronized debug information generation | |
CN108197008A (zh) | 一种日志收集方法、系统、装置及计算机可读存储介质 | |
CN108628694B (zh) | 一种基于可编程硬件的数据处理方法以及装置 | |
CN107291589A (zh) | 在机器人操作系统中提升系统可靠性的方法 | |
CN112988442B (zh) | 一种服务器运行阶段传送故障信息的方法和设备 | |
CN113407374A (zh) | 故障处理方法、装置、故障处理设备及存储介质 | |
CN117271234A (zh) | 故障诊断方法、装置、存储介质及电子装置 | |
JP2011076344A (ja) | 情報処理装置,情報処理装置の制御方法および制御プログラム | |
JP4495248B2 (ja) | 情報処理装置、障害処理方法 | |
CN118656307B (zh) | 基板管理控制器的故障检测方法、服务器、介质和产品 | |
US20240320012A1 (en) | Method, electronic device, and computer program product for data processing | |
Bare et al. | ASDF: an automated, online framework for diagnosing performance problems | |
CN118113508A (zh) | 网卡故障风险预测方法、装置、设备及介质 | |
CN117931536A (zh) | 故障处理方法、装置、电子设备和介质 | |
CN118550747A (zh) | 一种PCIe致命错误的快速定位方法、系统、电子设备及介质 | |
CN118747165A (zh) | 读取日志数据的方法、装置、计算机设备及存储介质 | |
CN118656307A (zh) | 基板管理控制器的故障检测方法、服务器、介质和产品 | |
CN116489001A (zh) | 交换机故障诊断及恢复方法、装置、交换机及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171117 |