CN103970635A - 一种服务器硬件故障的自诊断方法 - Google Patents

一种服务器硬件故障的自诊断方法 Download PDF

Info

Publication number
CN103970635A
CN103970635A CN201410173467.6A CN201410173467A CN103970635A CN 103970635 A CN103970635 A CN 103970635A CN 201410173467 A CN201410173467 A CN 201410173467A CN 103970635 A CN103970635 A CN 103970635A
Authority
CN
China
Prior art keywords
fault
detecting
information
diagnosis center
fault diagnosis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410173467.6A
Other languages
English (en)
Inventor
薛广营
李博乐
陈彦灵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201410173467.6A priority Critical patent/CN103970635A/zh
Publication of CN103970635A publication Critical patent/CN103970635A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本发明提供一种服务器硬件故障的自诊断方法,该方法利用服务器系统内的时序控制模块,信号采集模块和系统管理模块,对系统的硬件故障进行自诊断,并通过系统管理接口输出硬件故障信息,方便工程师快速定位。相对于传统的通过示波器和万用表等测量仪器进行定位,可以大大减少工作量,提升工作效率。

Description

一种服务器硬件故障的自诊断方法
技术领域
本发明涉及硬件诊断领域,具体地说是一种服务器硬件故障的自诊断方法。
背景技术
服务器系统的设计越来越复杂,一块服务器主板上元器件往往有数千之多,当主板出现硬件故障时,工程师往往需要大量的数据测量并进行详细的分析才能定位到故障位置,这将是一个非常复杂的工作。
对于服务器系统而言,板级硬件故障最常见的问题是时序异常,电压异常,芯片散热异常,芯片工作状态异常。因此,常规的故障排查方法为用示波器逐级测量上电时序,万用表逐点测量电平准位,借助热测量设备评估关键芯片的散热状况,并对关键芯片的工作状态进行测量分析,然后综合分析得出结论。服务器系统主板上电时序复杂,电平类型众多,元器件数量庞杂,工程师往往需要花费大量的时间进行信号量测才能定位到故障。
服务器系统对可靠性要求极高,一般而言,服务器设计通常采用CPLD/FPGA控制时序,对各电平值和温度信息也都有侦测,为便于处理故障,关键芯片的工作状态也都有监控,因此合理利用这些侦测信息,可以大幅提升故障定位效率,减少工程师工作量。
发明内容
本发明提出一种服务器硬件故障的自诊断方法,改进了传统的仪器测量,人工分析定位故障方式,提升工作效率。
本发明提供的服务器硬件故障诊断方法主要包括以下技术点:① 电参数侦测 ② 故障分析 ③ 故障输出。利用服务器系统内的时序控制模块,信号采集模块和系统管理模块,对系统的硬件故障进行自诊断,并通过系统管理接口输出硬件故障信息,方便工程师快速定位。
包括电压温度侦测模块、时序控制模块、信号采集模块、IC工作状态侦测、故障诊断中心和故障输出单元,
① 电压温度侦测模块:侦测主板各电平准位以及热敏点的温度情况;
② 时序控制模块:为控制系统上电时序;
③ IC工作状态侦测:IC工作状态侦测通常侦测IC的Error或者Alert#,Alarm#等异常输出信号,一般情况下由BMC或者SMC完成;
④ 故障诊断中心:故障诊断中心负责收集电压温度信息,IC工作状态信息,同时根据时序控制信号情况对各IC工作状态作出综合诊断,并依据预先存储的数据库信息给出故障类型,故障点位置,故障排查优先级。
⑤ 故障输出单元:故障输出单元是服务器硬件故障自诊断的人机交互接口,其形式可以是串口终端或者web界面,取决于故障诊断中心的接口形式;
实施步骤如下:
①故障诊断中心获取系统侦测点温度电压信息;
②故障诊断中心获取系统时序控制模块输入输出信息;
③故障诊断中心获取IC工作状态信息;
④故障诊断中心根据收集的信息和故障数据库信息作出故障自诊断;
⑤用户通过故障输出接口索取系统硬件故障诊断信息,完成故障定位和故障维修。
本发明的有益效果是:
改进了传统的仪器测量,人工分析定位故障方式,可对系统的硬件故障进行自诊断,并通过系统管理接口输出硬件故障信息,方便工程师快速定位。相对于传统的通过示波器和万用表等测量仪器进行定位,可以大大减少工作量,提升工作效率。
附图说明
附图1是本发明的系统架构图。
具体实施方式
参照具体实施例对本发明作以下详细地说明。
图中各模块的主要功能及实现方式如下:
① 电压温度侦测模块:电压温度侦测模块一般由Hardware Monitor芯片(比如W83795)或者AD转换芯片完成,其主要功能是侦测主板各电平准位以及热敏点的温度情况;
②时序控制模块:时序控制模块一般由CPLD或者FPGA完成,其主要功能为控制系统上电时序;
③IC工作状态侦测:IC工作状态侦测通常侦测IC的Error或者Alert#,Alarm#等异常输出信号,一般情况下由BMC或者SMC完成;
④故障诊断中心:故障诊断中心负责收集电压温度信息,IC工作状态信息,同时根据时序控制信号情况对各IC工作状态作出综合诊断,并依据预先存储的数据库信息给出故障类型,故障点位置,故障排查优先级。故障诊断中心一般由BMC或者SMC承担。
⑤故障输出单元:故障输出单元是服务器硬件故障自诊断的人机交互接口,其形式可以是串口终端或者web界面,取决于故障诊断中心的接口形式。
该设计的具体实施步骤如下:
①故障诊断中心获取系统侦测点温度电压信息;
②故障诊断中心获取系统时序控制模块输入输出信息;
③故障诊断中心获取IC工作状态信息;
④故障诊断中心根据收集的信息和故障数据库信息作出故障自诊断;
⑤用户通过故障输出接口索取系统硬件故障诊断信息,完成故障定位和故障维修。

Claims (5)

1.一种服务器硬件故障的自诊断方法,其特征在于包括电压温度侦测模块、时序控制模块、信号采集模块、IC工作状态侦测、故障诊断中心和故障输出单元,
① 电压温度侦测模块:侦测主板各电平准位以及热敏点的温度情况;
时序控制模块:为控制系统上电时序;
IC工作状态侦测:IC工作状态侦测通常侦测IC的Error或者Alert#,Alarm#等异常输出信号;
故障诊断中心:故障诊断中心负责收集电压温度信息、IC工作状态信息,同时根据时序控制信号情况对各IC工作状态作出综合诊断,并依据预先存储的数据库信息给出故障类型,故障点位置,故障排查优先级;
故障输出单元:故障输出单元是服务器硬件故障自诊断的人机交互接口,其形式可以是串口终端或者web界面,取决于故障诊断中心的接口形式;
实施步骤如下:
①故障诊断中心获取系统侦测点温度电压信息;
②故障诊断中心获取系统时序控制模块输入输出信息;
③故障诊断中心获取IC工作状态信息;
④故障诊断中心根据收集的信息和故障数据库信息作出故障自诊断;
⑤用户通过故障输出接口索取系统硬件故障诊断信息,完成故障定位和故障维修。
2.根据权利要求1所述的方法,其特征在于电压温度侦测模块一般由Hardware Monitor芯片(比如W83795)或者AD转换芯片完成。
3.根据权利要求1所述的方法,其特征在于时序控制模块一般由CPLD或者FPGA完成。
4.根据权利要求1所述的方法,其特征在于IC工作状态侦测一般情况下由BMC或者SMC完成。
5.根据权利要求1所述的方法,其特征在于故障诊断中心一般由BMC或者SMC承担。
CN201410173467.6A 2014-04-28 2014-04-28 一种服务器硬件故障的自诊断方法 Pending CN103970635A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410173467.6A CN103970635A (zh) 2014-04-28 2014-04-28 一种服务器硬件故障的自诊断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410173467.6A CN103970635A (zh) 2014-04-28 2014-04-28 一种服务器硬件故障的自诊断方法

Publications (1)

Publication Number Publication Date
CN103970635A true CN103970635A (zh) 2014-08-06

Family

ID=51240166

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410173467.6A Pending CN103970635A (zh) 2014-04-28 2014-04-28 一种服务器硬件故障的自诊断方法

Country Status (1)

Country Link
CN (1) CN103970635A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104375915A (zh) * 2014-12-16 2015-02-25 浪潮电子信息产业股份有限公司 一种利用服务器主板bmc和cpld交互快速诊断主板时序的方法
CN104484248A (zh) * 2014-11-28 2015-04-01 英业达科技有限公司 计算机主板上电故障的诊断方法及装置
CN105490260A (zh) * 2015-12-31 2016-04-13 山东海量信息技术研究院 一种基于power平台ovp保护线路
CN105631577A (zh) * 2014-11-26 2016-06-01 发纳科美国公司 机器人的数据传输方法、分析和预测报告方法以及系统
CN105824388A (zh) * 2016-04-05 2016-08-03 浪潮电子信息产业股份有限公司 一种上电/掉电的检测方法、装置和系统
CN107462793A (zh) * 2017-08-18 2017-12-12 郑州云海信息技术有限公司 一种服务器电压相关信号监测装置及监测方法
CN107656856A (zh) * 2017-09-25 2018-02-02 郑州云海信息技术有限公司 一种基于cpld的系统状态显示方法及装置
CN107766165A (zh) * 2016-08-23 2018-03-06 佛山市顺德区顺达电脑厂有限公司 电子装置的自动修复系统及方法
CN107809349A (zh) * 2017-09-29 2018-03-16 郑州云海信息技术有限公司 一种监测服务器信号波形的装置及方法
CN108910642A (zh) * 2018-07-24 2018-11-30 日立楼宇技术(广州)有限公司 电梯调试信息处理方法、系统、可读存储介质和调试设备
CN113590429A (zh) * 2021-08-18 2021-11-02 北京爱奇艺科技有限公司 一种服务器故障诊断方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040246675A1 (en) * 2003-06-05 2004-12-09 Jen-Cheng Lin Instrumentation console for personal computers
CN1752942A (zh) * 2004-09-23 2006-03-29 联想(北京)有限公司 一种电脑主板故障的监测诊断装置
CN102402473A (zh) * 2011-10-28 2012-04-04 武汉供电公司变电检修中心 计算机硬件及软件故障诊断修复系统
CN103077103A (zh) * 2013-01-18 2013-05-01 浪潮电子信息产业股份有限公司 一种服务器故障的离线诊断方法
CN103713981A (zh) * 2013-12-31 2014-04-09 国网山东省电力公司 一种数据库服务器性能检测和预警方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040246675A1 (en) * 2003-06-05 2004-12-09 Jen-Cheng Lin Instrumentation console for personal computers
CN1752942A (zh) * 2004-09-23 2006-03-29 联想(北京)有限公司 一种电脑主板故障的监测诊断装置
CN102402473A (zh) * 2011-10-28 2012-04-04 武汉供电公司变电检修中心 计算机硬件及软件故障诊断修复系统
CN103077103A (zh) * 2013-01-18 2013-05-01 浪潮电子信息产业股份有限公司 一种服务器故障的离线诊断方法
CN103713981A (zh) * 2013-12-31 2014-04-09 国网山东省电力公司 一种数据库服务器性能检测和预警方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631577A (zh) * 2014-11-26 2016-06-01 发纳科美国公司 机器人的数据传输方法、分析和预测报告方法以及系统
CN104484248A (zh) * 2014-11-28 2015-04-01 英业达科技有限公司 计算机主板上电故障的诊断方法及装置
CN104375915A (zh) * 2014-12-16 2015-02-25 浪潮电子信息产业股份有限公司 一种利用服务器主板bmc和cpld交互快速诊断主板时序的方法
CN105490260A (zh) * 2015-12-31 2016-04-13 山东海量信息技术研究院 一种基于power平台ovp保护线路
CN105824388A (zh) * 2016-04-05 2016-08-03 浪潮电子信息产业股份有限公司 一种上电/掉电的检测方法、装置和系统
CN107766165A (zh) * 2016-08-23 2018-03-06 佛山市顺德区顺达电脑厂有限公司 电子装置的自动修复系统及方法
CN107462793A (zh) * 2017-08-18 2017-12-12 郑州云海信息技术有限公司 一种服务器电压相关信号监测装置及监测方法
CN107656856A (zh) * 2017-09-25 2018-02-02 郑州云海信息技术有限公司 一种基于cpld的系统状态显示方法及装置
CN107809349A (zh) * 2017-09-29 2018-03-16 郑州云海信息技术有限公司 一种监测服务器信号波形的装置及方法
CN107809349B (zh) * 2017-09-29 2021-06-29 郑州云海信息技术有限公司 一种监测服务器信号波形的装置及方法
CN108910642A (zh) * 2018-07-24 2018-11-30 日立楼宇技术(广州)有限公司 电梯调试信息处理方法、系统、可读存储介质和调试设备
CN113590429A (zh) * 2021-08-18 2021-11-02 北京爱奇艺科技有限公司 一种服务器故障诊断方法、装置及电子设备
CN113590429B (zh) * 2021-08-18 2024-07-19 北京爱奇艺科技有限公司 一种服务器故障诊断方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN103970635A (zh) 一种服务器硬件故障的自诊断方法
CN104375915A (zh) 一种利用服务器主板bmc和cpld交互快速诊断主板时序的方法
CN108255649B (zh) 一种基于建模仿真协同分析的诊断策略设计方法
CN104579816B (zh) 诊断车辆网络的方法和系统
CN102997838B (zh) 一种基于扫频短路特征的变压器绕组变形故障诊断方法
CN103019940B (zh) 一种电能表嵌入式软件半仿真测试装置
CN104237977A (zh) 一种自动气象站故障处理系统
US20160335391A1 (en) Method and system for interacting rail transit vehicle commissioning task information
CN101533052B (zh) Pwm风扇电气性能测试系统及方法
CN110191017B (zh) 一种用于监测路由设备异常的监控系统及方法
CN112034412A (zh) 一种基于智能隔离开关的智能电能表失准分析方法及系统
CN202614273U (zh) 一种火电厂传感器故障诊断装置
CN103336198B (zh) 一种电气系统故障诊断装置
CN108319516B (zh) 一种测试系统及测试方法
RU2363975C2 (ru) Переносной программно-диагностический комплекс
CN104765024A (zh) 一种机载雷达干扰自动检测系统
CN107543574B (zh) 机载传感器高温老炼试验自动检测仪及操作方法
JP2014085888A (ja) ループ試験装置及びその方法
CN109592525A (zh) 电梯变频器故障诊断系统及方法
CN113739926B (zh) 列车电器柜温升故障的检测方法、装置及终端设备
Sharma et al. Evaluation of arduino based das for condition monitoring of induction motor
CN109472171A (zh) 一种基于人机界面与电流监测的fpga硬件木马检测系统
CN102590762A (zh) 基于信息熵原理的开关电源故障诊断方法
CN109885437A (zh) 基板管理控制器bmc、终端及上电状态诊断组件、方法
CN113608065B (zh) 一种多直流系统环网故障监测装置及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140806