CN105677500A - 一种实时服务器故障诊断的方法 - Google Patents

一种实时服务器故障诊断的方法 Download PDF

Info

Publication number
CN105677500A
CN105677500A CN201610001572.0A CN201610001572A CN105677500A CN 105677500 A CN105677500 A CN 105677500A CN 201610001572 A CN201610001572 A CN 201610001572A CN 105677500 A CN105677500 A CN 105677500A
Authority
CN
China
Prior art keywords
bmc
fault
bus
internal memory
bios
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610001572.0A
Other languages
English (en)
Inventor
刘宝阳
刘冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201610001572.0A priority Critical patent/CN105677500A/zh
Publication of CN105677500A publication Critical patent/CN105677500A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's

Abstract

本发明公开了一种实时服务器故障诊断的方法,所述方法通过BMC和BIOS通过LPC总线互联,BMC和CPU通过PECI总线互联,BIOS和内存、PCIE设备通过SMBus、PCIE总线互联;BMC通过LPC总线实时读取CPU、内存、PCIE设备故障状态;?BMC检测到设备故障时,实时触发中断,中断处理过程通过PECI总线读取CPU的某些特定故障状态寄存器,并记录在BMC存储空间中。本发明实现了故障现场时刻实时诊断服务器故障的目的,提高了故障诊断的命中率,减少了故障定位的时间,有效降低了对客户业务的影响。

Description

一种实时服务器故障诊断的方法
技术领域
本发明涉及服务器故障诊断技术领域,具体涉及一种实时服务器故障诊断的方法。
背景技术
随着计算机技术、大数据等技术的发展,对服务器的稳定性可靠性提出的要求越来越高,服务器设计之初,虽然进行了较多的容错,可靠性设计,但是随着服务器系统的复杂度越来越高,难以避免会出现服务器故障,尤其是CPU,内存,PCIE设备故障,为了最大限度的降低对业务的影响,对维护人员提出了更高的要求,要求维护人员能够快速进行故障诊断,定位故障原因,鉴于故障发生现场一般无法保留,这就造成了维护人员难以快速诊断故障问题,势必造成客户业务的影响变大,如何快速诊断故障,定位问题原因,降低客户业务影响成为急需解决的问题。
发明内容
本发明要解决的技术问题是:为了解决上述问题,本发明提出了一种实时服务器故障诊断方法,通过实时故障状态监控,自动触发中断读取CPU特定故障状态寄存器并保存,达到了故障现场时刻诊断服务器的目的,避免故障现场不存在时无法诊断问题,提升了故障诊断的命中率,降低了维护成本和对客户业务的影响。
本发明所采用的技术方案为:
一种实时服务器故障诊断的方法,所述方法通过BMC(服务器基板管理控制单元)和BIOS通过LPC总线互联,BMC和CPU通过PECI总线互联,BIOS和内存、PCIE设备通过SMBus、PCIE总线互联;所述方法诊断过程如下:
首先,BMC通过LPC总线实时读取CPU、内存、PCIE设备故障状态;
其次,BMC检测到设备故障时,实时触发中断,中断处理过程通过PECI总线读取CPU的某些特定故障状态寄存器,并记录在BMC存储空间中。
所述BMC对外提供标准网络接口提供下载功能。故障发生后现场未保留时,维护人员也可通过网络接口将BMC存储空间中的故障状态时刻CPU状态寄存器下载分析,快速定位故障原因。
所述方法针对内存ECC故障诊断过程如下:
1)将BMC和BIOS通过LPC总线互联,BMC和CPU通过PECI总线互联,BIOS和内存、PCIE设备通过SMBus、PCIE总线互联;
2)BIOS通过SMBus总线检测到某个内存发生了ECC故障,BIOS将内存ECC故障信息通过LPC总线发送给BMC;
3)BMC读取到BIOS发送的内存ECC故障信息后,触发中断处理过程,BMC通过PECI总线读取事先约定好的CPU某些故障状态寄存器,并记录在BMC存储空间中;
4)维护人员通过BMC对外提供的标准网络接口下载存储在BMC中的寄存器状态信息,这些寄存器信息中能够明确指示出哪个位置的内存发生了哪种类型的ECC故障(可纠正ECC或不可纠正ECC),针对故障类型,维护人员对指定位置的内存进行维修或者更换操作,即可保证客户业务系统恢复工作。
本发明的有益效果为:
本发明实现了故障现场时刻实时诊断服务器故障的目的,提高了故障诊断的命中率,减少了故障定位的时间,有效降低了对客户业务的影响。和现有方法相比,能够帮助维护人员快速进行故障诊断,定位故障原因,并且显著提升了故障定位的命中率,从而减少了对客户业务的影响,减少了客户维护的成本,具有广泛的应用空间。
本发明方法能够降低服务器后期维护成本,不增加硬件费用,完全由BMC固件实现,所有X86架构服务器均可实现。
具体实施方式
下面结合具体实施方式对本发明进一步说明:
实施例1:
一种实时服务器故障诊断的方法,所述方法通过BMC(服务器基板管理控制单元)和BIOS通过LPC总线互联,BMC和CPU通过PECI总线互联,BIOS和内存、PCIE设备通过SMBus、PCIE总线互联;所述方法诊断过程如下:
首先,BMC通过LPC总线实时读取CPU、内存、PCIE设备故障状态;
其次,BMC检测到设备故障时,实时触发中断,中断处理过程通过PECI总线读取CPU的某些特定故障状态寄存器,并记录在BMC存储空间中。
实施例2:
在实施例1的基础上,本实施例所述BMC对外提供标准网络接口提供下载功能。故障发生后现场未保留时,维护人员也可通过网络接口将BMC存储空间中的故障状态时刻CPU状态寄存器下载分析,快速定位故障原因。
实施例3:
在实施例2的基础上,本实施例所述方法针对内存ECC故障诊断过程如下:
1)将BMC和BIOS通过LPC总线互联,BMC和CPU通过PECI总线互联,BIOS和内存、PCIE设备通过SMBus、PCIE总线互联;
2)BIOS通过SMBus总线检测到某个内存发生了ECC故障,BIOS将内存ECC故障信息通过LPC总线发送给BMC;
3)BMC读取到BIOS发送的内存ECC故障信息后,触发中断处理过程,BMC通过PECI总线读取事先约定好的CPU某些故障状态寄存器,并记录在BMC存储空间中;
4)维护人员通过BMC对外提供的标准网络接口下载存储在BMC中的寄存器状态信息,这些寄存器信息中能够明确指示出哪个位置的内存发生了哪种类型的ECC故障(可纠正ECC或不可纠正ECC),针对故障类型,维护人员对指定位置的内存进行维修或者更换操作,即可保证客户业务系统恢复工作。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (3)

1.一种实时服务器故障诊断的方法,其特征在于:所述方法通过BMC和BIOS通过LPC总线互联,BMC和CPU通过PECI总线互联,BIOS和内存、PCIE设备通过SMBus、PCIE总线互联;所述方法诊断过程如下:
首先,BMC通过LPC总线实时读取CPU、内存、PCIE设备故障状态;
其次,BMC检测到设备故障时,实时触发中断,中断处理过程通过PECI总线读取CPU的某些特定故障状态寄存器,并记录在BMC存储空间中。
2.根据权利要求1所述的一种实时服务器故障诊断的方法,其特征在于:所述BMC对外提供标准网络接口提供下载功能。
3.根据权利要求2所述的一种实时服务器故障诊断的方法,其特征在于,所述方法针对内存ECC故障诊断过程如下:
1)将BMC和BIOS通过LPC总线互联,BMC和CPU通过PECI总线互联,BIOS和内存、PCIE设备通过SMBus、PCIE总线互联;
2)BIOS通过SMBus总线检测到某个内存发生了ECC故障,BIOS将内存ECC故障信息通过LPC总线发送给BMC;
3)BMC读取到BIOS发送的内存ECC故障信息后,触发中断处理过程,BMC通过PECI总线读取事先约定好的CPU故障状态寄存器,并记录在BMC存储空间中;
4)维护人员通过BMC对外提供的标准网络接口下载存储在BMC中的寄存器状态信息,这些寄存器信息中能够明确指示出哪个位置的内存发生了哪种类型的ECC故障,针对故障类型,维护人员对指定位置的内存进行维修或者更换操作。
CN201610001572.0A 2016-01-05 2016-01-05 一种实时服务器故障诊断的方法 Pending CN105677500A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610001572.0A CN105677500A (zh) 2016-01-05 2016-01-05 一种实时服务器故障诊断的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610001572.0A CN105677500A (zh) 2016-01-05 2016-01-05 一种实时服务器故障诊断的方法

Publications (1)

Publication Number Publication Date
CN105677500A true CN105677500A (zh) 2016-06-15

Family

ID=56193248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610001572.0A Pending CN105677500A (zh) 2016-01-05 2016-01-05 一种实时服务器故障诊断的方法

Country Status (1)

Country Link
CN (1) CN105677500A (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815108A (zh) * 2017-01-19 2017-06-09 郑州云海信息技术有限公司 一种多路服务器故障定位系统
CN106933575A (zh) * 2017-02-27 2017-07-07 郑州云海信息技术有限公司 一种带外识别服务器资产信息的系统及方法
CN107133149A (zh) * 2017-05-12 2017-09-05 郑州云海信息技术有限公司 一种宕机时快速获取相关寄存器数值的方法
CN107632900A (zh) * 2017-09-21 2018-01-26 联想(北京)有限公司 一种bios数据修复方法和整机柜服务器
CN108090000A (zh) * 2018-01-11 2018-05-29 郑州云海信息技术有限公司 一种获取cpu寄存器信息的方法及系统
CN108388489A (zh) * 2018-02-27 2018-08-10 郑州云海信息技术有限公司 一种服务器故障诊断方法、系统、设备及存储介质
CN108491297A (zh) * 2018-03-12 2018-09-04 郑州云海信息技术有限公司 一种服务器监控信息获取方法、装置、设备及存储介质
CN108737139A (zh) * 2017-04-19 2018-11-02 北京京东尚科信息技术有限公司 用于服务器的数据处理方法、装置及服务器bmc系统
CN108763005A (zh) * 2018-05-30 2018-11-06 郑州云海信息技术有限公司 一种内存ecc故障报错方法及系统
CN108880916A (zh) * 2018-08-21 2018-11-23 郑州云海信息技术有限公司 一种基于iic总线的故障定位方法及系统
CN108984332A (zh) * 2018-06-22 2018-12-11 郑州云海信息技术有限公司 一种定位服务器宕机故障的装置及方法
CN109086151A (zh) * 2017-06-13 2018-12-25 中兴通讯股份有限公司 一种服务器上隔离内存故障的方法及装置
CN109144583A (zh) * 2018-07-26 2019-01-04 研祥智能科技股份有限公司 基于国产平台的主板信息获取方法、装置、系统及设备
CN109189602A (zh) * 2018-09-21 2019-01-11 郑州云海信息技术有限公司 一种PCIE Slot故障定位方法、装置以及设备
CN109614259A (zh) * 2018-11-28 2019-04-12 郑州云海信息技术有限公司 一种服务器PCIe设备定位故障原因的系统及方法
CN109783262A (zh) * 2018-12-24 2019-05-21 新华三技术有限公司 故障数据处理方法、装置、服务器及计算机可读存储介质
CN110008071A (zh) * 2019-03-25 2019-07-12 联想(北京)有限公司 一种远程调试装置及方法
CN110362435A (zh) * 2019-06-25 2019-10-22 苏州浪潮智能科技有限公司 Purley平台服务器的PCIE故障定位方法、装置、设备及介质
CN112213980A (zh) * 2020-10-21 2021-01-12 苏州浪潮智能科技有限公司 一种单片机故障诊断板卡及方法
CN112988442A (zh) * 2021-03-05 2021-06-18 山东英信计算机技术有限公司 一种服务器运行阶段传送故障信息的方法和设备
CN113076210A (zh) * 2021-03-26 2021-07-06 山东英信计算机技术有限公司 服务器故障诊断结果通知方法、系统、终端及存储介质
CN113190396A (zh) * 2021-03-15 2021-07-30 山东英信计算机技术有限公司 一种收集cpu寄存器数据的方法、系统及介质
CN114003416A (zh) * 2021-09-23 2022-02-01 苏州浪潮智能科技有限公司 内存错误动态处理方法、系统、终端及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7424419B1 (en) * 2003-05-27 2008-09-09 Qlogic, Corporation Method and system for providing a virtual universal serial port interface and a virtual storage interface
CN102467440A (zh) * 2010-11-09 2012-05-23 鸿富锦精密工业(深圳)有限公司 内存错误检测系统及方法
CN104142723A (zh) * 2014-08-01 2014-11-12 浪潮电子信息产业股份有限公司 一种服务器的智能风扇调速方法
CN104268068A (zh) * 2014-09-24 2015-01-07 浪潮电子信息产业股份有限公司 一种服务器日志信息的获取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7424419B1 (en) * 2003-05-27 2008-09-09 Qlogic, Corporation Method and system for providing a virtual universal serial port interface and a virtual storage interface
CN102467440A (zh) * 2010-11-09 2012-05-23 鸿富锦精密工业(深圳)有限公司 内存错误检测系统及方法
CN104142723A (zh) * 2014-08-01 2014-11-12 浪潮电子信息产业股份有限公司 一种服务器的智能风扇调速方法
CN104268068A (zh) * 2014-09-24 2015-01-07 浪潮电子信息产业股份有限公司 一种服务器日志信息的获取方法

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815108A (zh) * 2017-01-19 2017-06-09 郑州云海信息技术有限公司 一种多路服务器故障定位系统
CN106933575B (zh) * 2017-02-27 2020-08-14 苏州浪潮智能科技有限公司 一种带外识别服务器资产信息的系统及方法
CN106933575A (zh) * 2017-02-27 2017-07-07 郑州云海信息技术有限公司 一种带外识别服务器资产信息的系统及方法
CN108737139A (zh) * 2017-04-19 2018-11-02 北京京东尚科信息技术有限公司 用于服务器的数据处理方法、装置及服务器bmc系统
CN107133149A (zh) * 2017-05-12 2017-09-05 郑州云海信息技术有限公司 一种宕机时快速获取相关寄存器数值的方法
CN109086151A (zh) * 2017-06-13 2018-12-25 中兴通讯股份有限公司 一种服务器上隔离内存故障的方法及装置
CN107632900A (zh) * 2017-09-21 2018-01-26 联想(北京)有限公司 一种bios数据修复方法和整机柜服务器
CN108090000A (zh) * 2018-01-11 2018-05-29 郑州云海信息技术有限公司 一种获取cpu寄存器信息的方法及系统
CN108388489B (zh) * 2018-02-27 2022-02-18 郑州云海信息技术有限公司 一种服务器故障诊断方法、系统、设备及存储介质
CN108388489A (zh) * 2018-02-27 2018-08-10 郑州云海信息技术有限公司 一种服务器故障诊断方法、系统、设备及存储介质
CN108491297A (zh) * 2018-03-12 2018-09-04 郑州云海信息技术有限公司 一种服务器监控信息获取方法、装置、设备及存储介质
CN108763005A (zh) * 2018-05-30 2018-11-06 郑州云海信息技术有限公司 一种内存ecc故障报错方法及系统
CN108763005B (zh) * 2018-05-30 2021-07-27 郑州云海信息技术有限公司 一种内存ecc故障报错方法及系统
CN108984332A (zh) * 2018-06-22 2018-12-11 郑州云海信息技术有限公司 一种定位服务器宕机故障的装置及方法
CN109144583A (zh) * 2018-07-26 2019-01-04 研祥智能科技股份有限公司 基于国产平台的主板信息获取方法、装置、系统及设备
CN108880916B (zh) * 2018-08-21 2021-06-29 郑州云海信息技术有限公司 一种基于iic总线的故障定位方法及系统
CN108880916A (zh) * 2018-08-21 2018-11-23 郑州云海信息技术有限公司 一种基于iic总线的故障定位方法及系统
CN109189602A (zh) * 2018-09-21 2019-01-11 郑州云海信息技术有限公司 一种PCIE Slot故障定位方法、装置以及设备
CN109614259A (zh) * 2018-11-28 2019-04-12 郑州云海信息技术有限公司 一种服务器PCIe设备定位故障原因的系统及方法
CN109783262B (zh) * 2018-12-24 2022-10-11 新华三技术有限公司 故障数据处理方法、装置、服务器及计算机可读存储介质
CN109783262A (zh) * 2018-12-24 2019-05-21 新华三技术有限公司 故障数据处理方法、装置、服务器及计算机可读存储介质
CN110008071A (zh) * 2019-03-25 2019-07-12 联想(北京)有限公司 一种远程调试装置及方法
CN110362435A (zh) * 2019-06-25 2019-10-22 苏州浪潮智能科技有限公司 Purley平台服务器的PCIE故障定位方法、装置、设备及介质
CN110362435B (zh) * 2019-06-25 2022-07-08 苏州浪潮智能科技有限公司 Purley平台服务器的PCIE故障定位方法、装置、设备及介质
CN112213980A (zh) * 2020-10-21 2021-01-12 苏州浪潮智能科技有限公司 一种单片机故障诊断板卡及方法
CN112988442A (zh) * 2021-03-05 2021-06-18 山东英信计算机技术有限公司 一种服务器运行阶段传送故障信息的方法和设备
CN112988442B (zh) * 2021-03-05 2023-03-24 山东英信计算机技术有限公司 一种服务器运行阶段传送故障信息的方法和设备
CN113190396A (zh) * 2021-03-15 2021-07-30 山东英信计算机技术有限公司 一种收集cpu寄存器数据的方法、系统及介质
CN113076210A (zh) * 2021-03-26 2021-07-06 山东英信计算机技术有限公司 服务器故障诊断结果通知方法、系统、终端及存储介质
CN114003416A (zh) * 2021-09-23 2022-02-01 苏州浪潮智能科技有限公司 内存错误动态处理方法、系统、终端及存储介质
CN114003416B (zh) * 2021-09-23 2024-01-12 苏州浪潮智能科技有限公司 内存错误动态处理方法、系统、终端及存储介质

Similar Documents

Publication Publication Date Title
CN105677500A (zh) 一种实时服务器故障诊断的方法
TWI680369B (zh) 用以自動管理發生於資料中心系統的硬體錯誤事件的方法及其系統
US10594589B2 (en) Systems and methods for automated determination of network device transiting data attributes
US9734015B2 (en) Pre-boot self-healing and adaptive fault isolation
TWI229796B (en) Method and system to implement a system event log for system manageability
US20160378603A1 (en) Automated fault recovery
CN104850485A (zh) 一种基于bmc远程诊断服务器开机故障的方法及系统
WO2019006654A1 (zh) 金融自助设备维修派单生成方法、手持终端及电子设备
US8977895B2 (en) Multi-core diagnostics and repair using firmware and spare cores
CN102404141B (zh) 一种告警抑制的方法及装置
US9798625B2 (en) Agentless and/or pre-boot support, and field replaceable unit (FRU) isolation
CN102681909A (zh) 一种基于内存错误的服务器预警方法
CN104320308A (zh) 一种服务器异常检测的方法及装置
CN113162808A (zh) 存储链路故障处理方法及装置、电子设备和存储介质
CN114816022B (zh) 一种服务器电源异常监控方法、系统及存储介质
JP2013130901A (ja) 監視サーバおよびそれを用いたネットワーク機器復旧システム
CN108287774A (zh) 一种服务器的故障诊断方法、装置、设备及存储介质
CN106411643B (zh) Bmc检测方法以及装置
CN113868001B (zh) 一种内存修复结果的检查方法、系统及计算机存储介质
US8230261B2 (en) Field replaceable unit acquittal policy
CN108491297A (zh) 一种服务器监控信息获取方法、装置、设备及存储介质
CN114422395A (zh) 一种链路诊断方法和装置
JP2015106226A (ja) 二重化システム
JP2009087136A (ja) 障害修復システムおよび障害修復方法
JP7436737B1 (ja) マルチベンダーを支援するサーバ管理システム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160615