CN103077103A - 一种服务器故障的离线诊断方法 - Google Patents

一种服务器故障的离线诊断方法 Download PDF

Info

Publication number
CN103077103A
CN103077103A CN2013100188073A CN201310018807A CN103077103A CN 103077103 A CN103077103 A CN 103077103A CN 2013100188073 A CN2013100188073 A CN 2013100188073A CN 201310018807 A CN201310018807 A CN 201310018807A CN 103077103 A CN103077103 A CN 103077103A
Authority
CN
China
Prior art keywords
line
fault
module
detecting
fault diagnosis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013100188073A
Other languages
English (en)
Inventor
薛广营
李博乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN2013100188073A priority Critical patent/CN103077103A/zh
Publication of CN103077103A publication Critical patent/CN103077103A/zh
Pending legal-status Critical Current

Links

Abstract

本发明提供一种服务器故障的离线诊断方法,属于计算机技术,其主要步骤包括①故障定位;②故障信息存储;③故障离线指示;④电源管理方案。该一种服务器故障的离线诊断方法和现有技术相比,在系统离线状态下仍可指示故障点,帮助系统维护人员迅速定位,维护更换备件,从而快速恢复系统正常运作,提高系统维护人员工作效率,大幅缩短系统宕机时间,降低维护成本,提高系统可靠性。

Description

一种服务器故障的离线诊断方法
技术领域
本发明涉及计算机技术领域,具体的说是一种服务器故障的离线诊断方法。
背景技术
随着用户需求的的不断提升和科技进步的不断发展,服务器的性能越来越卓越,同时也使得服务器系统越来越复杂。卓越的性能给用户带来良好体验的同时,也引入了一个棘手的问题—系统维护越来越困难。当系统出现故障时,面对如此庞大的电子系统,数量众多的系统板卡,成千上万的电子元器件,系统维护工程师往往要花费大量的时间才能定位到故障点,很多情况下,还需要借助于实验室分析才能定位,这浪费了大量的时间和人力消耗,同时长时间宕机也给客户带来了很大损失。
芯片厂商和系统设计者都看到了这一问题,他们通过各种方法来提高自诊断能力,减少故障定位时间,提高系统维护效率。一般情况下芯片会根据自身的工作状态输出一些状态指示信号,例如:指示错误的Error信号,指示温度异常的Hot信号,指示电源质量的PWRGOOD等,系统设计者通过一定的手段收集这些状态信号并作出诊断,指示系统故障,给系统维护者提供帮助。
常规的故障诊断方法可称之为在线故障诊断,其一般工作原理是:
1、IC根据自身工作状态驱动工作状态指示信号,通过声光器件(LED、数码管、蜂鸣器等)指示其工作状态(如PWRGOOD、HOT、Error等);
2、系统管理单元(SMC)收集系统工作状态,包括链路状态,系统电源状态,系统温度状态,湿度状态,内存和CPU异常等,通过系统日志或者UI面板指示系统工作状态;
采用这种故障诊断方法,诊断比较全面,实现也比较简单,但是存在一个致命问题:可维护性较差,具体表现在:
1、在线诊断方式,只能在芯片工作时才能指示异常,此时往往需要系统完全开机;然而,系统出了严重故障时可能已经宕机,在未排除系统故障的情况下,尝试对系统再次开机可能对设备造成灾难性损坏;
2、在线诊断和离线维护之间存在矛盾:在对硬件故障维护更换时,系统必须处于关机状态,然后在线诊断时系统又必须处于开机状态,这就要求维护人员必须在开机状态下仔细记录故障现象,然后再关机维护。一方面当系统故障点较多时,记录比较麻烦,容易造成遗漏;另一方面,当板卡需要返厂做专业维修时,故障记录也容易在传递过程中造成遗失或者混乱,
3、系统日志导出往往需要专业工具,另一方面,从庞杂的系统日志里提取所包含的故障信息需要较高的专业知识,这会增加维护人员的工作难度,降低维护效率。
为了解决在线故障诊断所带来的不便,提高维护效率,本发明提出一种全新的故障诊断方式—离线诊断。
发明内容
本发明的技术任务是解决现有技术的不足,提供一种服务器故障的离线诊断方法。
本发明的技术方案是按以下方式实现的,该一种服务器故障的离线诊断方法,其具体实现步骤为:
a、在服务器内设置管理卡和若干诊断板卡,在诊断板卡上设置有顺序连接的电源管理模块、离线指示模块和侦测单元,在管理卡上设置有相互连通的BIOS和故障诊断中心,所述故障诊断中心与上述电源管理模块、离线指示模块和侦测模块均连通;
b、侦测单元侦测各自的状态信息,BIOS侦测系统底层错误信息;
c、故障诊断中心收集上述步骤b中的状态信息和错误信息,并对系统各模块状态做出诊断;
d、故障诊断中心发送故障信息到离线指示模块;
e、离线指示模块存储故障信息,并在用户触发后,指示故障模块;
f、维护人员根据故障指示,完成系统维护更换。
所述步骤a中板卡上的离线指示模块是指低功耗微处理器MCU,侦测单元是指硬件监控芯片或模数转换器ADC;所述管理卡上的故障诊断中心是指服务监控芯片SMC。
所述步骤b中侦测单元侦测的状态信息包括所在板卡的电压侦测、温度侦测、湿度侦测和风扇转速侦测;BIOS收集系统底层的错误信息包括内存错误,CPU故障。
所述故障诊断中心还负责完成电池电量侦测,当电量过低时,会发出指示信号。
所述步骤e的具体步骤为:离线指示模块接收来自故障诊断中心的故障数据,并将其存储在自身Flash或者EEPROM中;在收到离线指示触发信号后,点亮故障模块对应的LED。
所述电源管理模块采用下述两种方法中的一种进行供电:
1)系统在线状态时,采用系统电源给离线指示模块供电,此时MCU处于一直工作状态,以便及时处理来自故障诊断中心的数据,系统离线时,切换到电池供电;
2)当采用电池供电时,MCU进入睡眠状态,只有收到离线指示触发信号才恢复正常工作,读取自身存储的故障信息,同时点亮指示灯,之后立即进入睡眠状态。
本发明与现有技术相比所产生的有益效果是:
本发明的一种服务器故障的离线诊断方法可以全面克服在线诊断方式的弊端,使得维护人员不再受限于系统工作状态,可以随时随地查看故障信息,完成高效维护;由于错误数据存储在EEPROM或者Flash存储器中,除非故障诊断中心去改写这些数据,否则它会永远保留;离线诊断,指示方便直观,便于快速定位,不再依赖于系统电源和系统运行状态,因此维护人员完全可以将板卡拆卸下来再去定位,而且故障直接定位到模块或者器件,维护人员只需按照指示去更换相应的模块即可,高效直观,有效提高产品的市场竞争力
附图说明
附图1是本发明的服务器构架部分结构示意框图。
具体实施方式
下面结合附图对本发明的一种服务器故障的离线诊断方法作以下详细说明。
如附图1所示,现提供一种服务器故障的离线诊断方法,其具体实现步骤为:
a、在服务器内设置管理卡和若干诊断板卡,在诊断板卡上设置有顺序连接的电源管理模块、离线指示模块和侦测单元,在管理卡上设置有相互连通的BIOS和故障诊断中心,所述故障诊断中心与上述电源管理模块、离线指示模块和侦测模块均连通;
下面对上述各个模块作详细简介。
侦测单元:侦测单元用来侦测该模块或者位置的状态,常见的侦测包括电压侦测、温度侦测、湿度侦测、风扇转速侦测;侦测单元在系统中一般有模数转换器ADC或者硬件监控芯片Hardware Monitor完成。
BIOS:BIOS用来收集系统底层的一些错误信息,比如内存错误,CPU故障等。
故障诊断中心:故障诊断中心在系统中一般由服务监控芯片SMC承担;故障诊断中心主要完成四个方面的工作:①收集来自侦测单元的数据;②收集来自BIOS的系统状态信息(比如内存和CPU错误);③根据收集到的信息对各模块状态作出诊断;④发送模块错误信息到离线指示模块;另外故障诊断中心还负责完成电池电量侦测,当电量过低时,会发出指示信号,提醒用户更换电池。
离线指示模块:离线指示模块接收来自故障诊断中心的故障数据,并将其存储在自身Flash或者EEPROM中;在收到离线指示触发信号后,点亮故障模块(如内存、CPU、电源、风扇等)对应的LED,提示维护人员此模块有故障;离线指示模块在系统中通常由低功耗微处理器(MCU)完成,如MSP430系列微处理器,其待机电流非常低,因此可以采用电池供电方案;由于故障数据存储在非易失存储器中,因此即便系统关机,电池耗尽,该故障信息也会被保留下来,维护人员可以随时查看。
电源管理模块:为了节省电池功耗,电源管理模块采用两种策略来延长电池寿命:①离线指示模块电源切换—系统在线状态时,采用系统电源给离线指示模块供电,此时MCU处于一直工作状态,以便及时处理来自故障诊断中心的数据,系统离线时,切换到电池供电;②MCU低功耗切换机制:当采用电池供电时,MCU进入睡眠状态,只有收到离线指示触发信号才恢复正常工作,读取自身存储的故障信息,同时点亮指示LED几秒钟,之后立即进入睡眠状态;通过这两种策略,可以最大程度延迟电池寿命。
b、侦测单元侦测各自的状态信息,BIOS侦测系统底层错误信息。
c、故障诊断中心收集上述步骤b中的状态信息和错误信息,并对系统各模块状态做出诊断。
d、故障诊断中心发送故障信息到离线指示模块。
e、离线指示模块存储故障信息,并在用户触发后,指示故障模块。
f、维护人员根据故障指示,完成系统维护更换。
本发明的一种服务器故障的离线诊断方法,区别于服务器故障在线诊断方法,该诊断方法的最大特点是在系统离线状态下仍可指示故障点,帮助系统维护人员迅速定位,维护更换备件,从而快速恢复系统正常运作。
该服务器故障的离线诊断方法主要包含以下技术点:①故障定位 ②故障信息存储 ③故障离线指示 ④电源管理方案。
本文所阐述的服务器故障离线诊断方法适用于各种形式的服务器系统,包括但不限于刀片服务器、机架服务器、塔式服务器,采用这种故障离线诊断方法可以提高系统维护人员工作效率,大幅缩短系统宕机时间,降低维护成本。

Claims (6)

1.一种服务器故障的离线诊断方法,其特征在于其具体实现步骤为:
a、在服务器内设置管理卡和若干诊断板卡,在诊断板卡上设置有顺序连接的电源管理模块、离线指示模块和侦测单元,在管理卡上设置有相互连通的BIOS和故障诊断中心,所述故障诊断中心与上述电源管理模块、离线指示模块和侦测模块均连通;
b、侦测单元侦测各自的状态信息,BIOS侦测系统底层错误信息;
c、故障诊断中心收集上述步骤b中的状态信息和错误信息,并对系统各模块状态做出诊断;
d、故障诊断中心发送故障信息到离线指示模块;
e、离线指示模块存储故障信息,并在用户触发后,指示故障模块;
f、维护人员根据故障指示,完成系统维护更换。
2.根据权利要求1所述的一种服务器故障的离线诊断方法,其特征在于:所述步骤a中板卡上的离线指示模块是指低功耗微处理器MCU,侦测单元是指硬件监控芯片或模数转换器ADC;所述管理卡上的故障诊断中心是指服务监控芯片SMC。
3.根据权利要求1所述的一种服务器故障的离线诊断方法,其特征在于:所述步骤b中侦测单元侦测的状态信息包括所在板卡的电压侦测、温度侦测、湿度侦测和风扇转速侦测;BIOS收集系统底层的错误信息包括内存错误,CPU故障。
4.根据权利要求1所述的一种服务器故障的离线诊断方法,其特征在于:所述故障诊断中心还负责完成电池电量侦测,当电量过低时,会发出指示信号。
5.根据权利要求1~4中任一所述的一种服务器故障的离线诊断方法,其特征在于:所述步骤e的具体步骤为:离线指示模块接收来自故障诊断中心的故障数据,并将其存储在自身Flash或者EEPROM中;在收到离线指示触发信号后,点亮故障模块对应的LED。
6.根据权利要求5所述的一种服务器故障的离线诊断方法,其特征在于:所述电源管理模块采用下述两种方法中的一种进行供电:
1)系统在线状态时,采用系统电源给离线指示模块供电,此时MCU处于一直工作状态,以便及时处理来自故障诊断中心的数据,系统离线时,切换到电池供电;
2)当采用电池供电时,MCU进入睡眠状态,只有收到离线指示触发信号才恢复正常工作,读取自身存储的故障信息,同时点亮指示灯,之后立即进入睡眠状态。
CN2013100188073A 2013-01-18 2013-01-18 一种服务器故障的离线诊断方法 Pending CN103077103A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013100188073A CN103077103A (zh) 2013-01-18 2013-01-18 一种服务器故障的离线诊断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013100188073A CN103077103A (zh) 2013-01-18 2013-01-18 一种服务器故障的离线诊断方法

Publications (1)

Publication Number Publication Date
CN103077103A true CN103077103A (zh) 2013-05-01

Family

ID=48153636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013100188073A Pending CN103077103A (zh) 2013-01-18 2013-01-18 一种服务器故障的离线诊断方法

Country Status (1)

Country Link
CN (1) CN103077103A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279406A (zh) * 2013-05-31 2013-09-04 华为技术有限公司 一种内存的隔离方法和装置
CN103593276A (zh) * 2013-11-19 2014-02-19 浪潮电子信息产业股份有限公司 一种掉电状态服务器故障诊断的方法
CN103744774A (zh) * 2014-01-23 2014-04-23 浪潮电子信息产业股份有限公司 一种服务器故障可视化快速诊断的方法
CN103970635A (zh) * 2014-04-28 2014-08-06 浪潮电子信息产业股份有限公司 一种服务器硬件故障的自诊断方法
CN103995758A (zh) * 2014-05-21 2014-08-20 浪潮电子信息产业股份有限公司 一种主板故障信息的延时显示方法
CN104199757A (zh) * 2014-09-05 2014-12-10 浪潮电子信息产业股份有限公司 一种服务器系统故障信息离线告警的方法
CN104320308A (zh) * 2014-11-12 2015-01-28 浪潮(北京)电子信息产业有限公司 一种服务器异常检测的方法及装置
CN104461809A (zh) * 2014-11-13 2015-03-25 浪潮(北京)电子信息产业有限公司 一种故障信息管理方法及系统
CN104965137A (zh) * 2015-06-19 2015-10-07 上海斐讯数据通信技术有限公司 一种故障定位方法及系统、电子设备
CN106291314A (zh) * 2016-07-22 2017-01-04 浪潮电子信息产业股份有限公司 基于Linux的双模互联双板功能测试方法
CN106843418A (zh) * 2017-03-15 2017-06-13 郑州云海信息技术有限公司 一种服务器smc扣卡
CN107621988A (zh) * 2017-09-06 2018-01-23 郑州云海信息技术有限公司 一种dc测试中宕机故障定位方法及系统
CN107870846A (zh) * 2016-09-23 2018-04-03 伊姆西Ip控股有限责任公司 故障元件指示方法、设备和系统
CN108199922A (zh) * 2018-01-11 2018-06-22 承德石油高等专科学校 一种用于网络设备及服务器故障诊断和修复的系统和方法
CN109491848A (zh) * 2018-11-13 2019-03-19 郑州云海信息技术有限公司 一种主板的离线诊断方法、装置、介质及设备
CN111487950A (zh) * 2020-04-24 2020-08-04 西安交通大学 在线预警和离线诊断的“预测-验证-反馈-优化”闭环系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004220460A (ja) * 2003-01-17 2004-08-05 Hitachi Ltd コンピュータシステムの保守システムおよび保守方法
US20110154097A1 (en) * 2009-12-17 2011-06-23 Barlow Jeffrey A Field replaceable unit failure determination
CN102411532A (zh) * 2011-12-31 2012-04-11 曙光信息产业股份有限公司 计算机故障提示方法和装置、以及计算机
CN102609350A (zh) * 2012-02-15 2012-07-25 浪潮电子信息产业股份有限公司 一种服务器内存故障报警方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004220460A (ja) * 2003-01-17 2004-08-05 Hitachi Ltd コンピュータシステムの保守システムおよび保守方法
US20110154097A1 (en) * 2009-12-17 2011-06-23 Barlow Jeffrey A Field replaceable unit failure determination
CN102411532A (zh) * 2011-12-31 2012-04-11 曙光信息产业股份有限公司 计算机故障提示方法和装置、以及计算机
CN102609350A (zh) * 2012-02-15 2012-07-25 浪潮电子信息产业股份有限公司 一种服务器内存故障报警方法

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279406B (zh) * 2013-05-31 2015-12-23 华为技术有限公司 一种内存的隔离方法和装置
CN103279406A (zh) * 2013-05-31 2013-09-04 华为技术有限公司 一种内存的隔离方法和装置
CN103593276A (zh) * 2013-11-19 2014-02-19 浪潮电子信息产业股份有限公司 一种掉电状态服务器故障诊断的方法
CN103744774A (zh) * 2014-01-23 2014-04-23 浪潮电子信息产业股份有限公司 一种服务器故障可视化快速诊断的方法
CN103970635A (zh) * 2014-04-28 2014-08-06 浪潮电子信息产业股份有限公司 一种服务器硬件故障的自诊断方法
CN103995758A (zh) * 2014-05-21 2014-08-20 浪潮电子信息产业股份有限公司 一种主板故障信息的延时显示方法
CN104199757A (zh) * 2014-09-05 2014-12-10 浪潮电子信息产业股份有限公司 一种服务器系统故障信息离线告警的方法
CN104320308B (zh) * 2014-11-12 2018-02-02 浪潮(北京)电子信息产业有限公司 一种服务器异常检测的方法及装置
CN104320308A (zh) * 2014-11-12 2015-01-28 浪潮(北京)电子信息产业有限公司 一种服务器异常检测的方法及装置
CN104461809A (zh) * 2014-11-13 2015-03-25 浪潮(北京)电子信息产业有限公司 一种故障信息管理方法及系统
CN104965137A (zh) * 2015-06-19 2015-10-07 上海斐讯数据通信技术有限公司 一种故障定位方法及系统、电子设备
CN104965137B (zh) * 2015-06-19 2018-02-06 上海斐讯数据通信技术有限公司 一种故障定位方法及系统、电子设备
CN106291314A (zh) * 2016-07-22 2017-01-04 浪潮电子信息产业股份有限公司 基于Linux的双模互联双板功能测试方法
CN106291314B (zh) * 2016-07-22 2018-10-02 浪潮电子信息产业股份有限公司 基于Linux的双模互联双板功能测试方法
CN107870846A (zh) * 2016-09-23 2018-04-03 伊姆西Ip控股有限责任公司 故障元件指示方法、设备和系统
CN106843418A (zh) * 2017-03-15 2017-06-13 郑州云海信息技术有限公司 一种服务器smc扣卡
CN107621988A (zh) * 2017-09-06 2018-01-23 郑州云海信息技术有限公司 一种dc测试中宕机故障定位方法及系统
CN108199922A (zh) * 2018-01-11 2018-06-22 承德石油高等专科学校 一种用于网络设备及服务器故障诊断和修复的系统和方法
CN109491848A (zh) * 2018-11-13 2019-03-19 郑州云海信息技术有限公司 一种主板的离线诊断方法、装置、介质及设备
CN111487950A (zh) * 2020-04-24 2020-08-04 西安交通大学 在线预警和离线诊断的“预测-验证-反馈-优化”闭环系统
CN111487950B (zh) * 2020-04-24 2021-11-16 西安交通大学 在线预警和离线诊断的“预测-验证-反馈-优化”闭环系统

Similar Documents

Publication Publication Date Title
CN103077103A (zh) 一种服务器故障的离线诊断方法
CN107633670B (zh) 一种采用采集运维知识库的采集异常诊断方法
CN104635718A (zh) 一种机器人故障修复系统及方法
CN105183600A (zh) 一种远程定位硬盘故障的装置和方法
CN105151179A (zh) 电动车用故障诊断修复系统
TWI394962B (zh) 電力故障監控裝置
CN110837062A (zh) 一种断电断网故障检测上报系统
CN105119746A (zh) 一种基于rmc管理的smartrack整机柜服务器配置智能监控的方法
CN107943654A (zh) 一种快速判定服务器环境温度监控异常原因的方法
CN202421448U (zh) 核电站继电器检测装置
CN104598283A (zh) 一种单架构多结构bmc固件程序的实现方法
CN108107346B (zh) Stp车载主机板卡检测仪及主机板卡检测方法
CN203365649U (zh) 一种带故障诊断仪的锂电池监控系统
CN102508065A (zh) 电气故障诊断方法、系统及工程机械
CN104484753A (zh) 一种服务器资产信息追溯方法
CN211782126U (zh) 热泵电路板故障自诊断系统
CN107643494A (zh) 一种存储器供电网络备电电池检测装置及方法
CN114013240A (zh) 电动车辆空调故障检测方法、装置、存储介质及控制器
JPH03103044A (ja) 二重化電源のダイオード故障検出方式
CN206725730U (zh) 一种agv供电在线监测系统
CN110726926A (zh) 一种智能门锁主板pcba老化测试方法
CN106970607B (zh) 一种变流器控制系统的测试方法及系统
CN108388488A (zh) 一种智能平台管理系统及故障处理方法
CN204334861U (zh) 信息系统设备状态检修装置
CN220518217U (zh) 基于ipmi技术的箱体管理装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130501

WD01 Invention patent application deemed withdrawn after publication