CN104461809A - 一种故障信息管理方法及系统 - Google Patents

一种故障信息管理方法及系统 Download PDF

Info

Publication number
CN104461809A
CN104461809A CN201410641066.9A CN201410641066A CN104461809A CN 104461809 A CN104461809 A CN 104461809A CN 201410641066 A CN201410641066 A CN 201410641066A CN 104461809 A CN104461809 A CN 104461809A
Authority
CN
China
Prior art keywords
signal
abnormal signal
opertaing device
safe digital
display device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410641066.9A
Other languages
English (en)
Other versions
CN104461809B (zh
Inventor
王永欢
薛广营
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201410641066.9A priority Critical patent/CN104461809B/zh
Publication of CN104461809A publication Critical patent/CN104461809A/zh
Application granted granted Critical
Publication of CN104461809B publication Critical patent/CN104461809B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Alarm Systems (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Programmable Controllers (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种故障信息管理方法及系统,上述方法包括以下步骤:可编程设备获取各种类型工作信号并将分析出的异常信号发送至控制设备;所述控制设备通过显示设备将所述异常信号进行显示并将所述异常信号存储至安全数码设备;本发明实现了故障信息的有效管理,对于后续快速定位硬件故障问题尤其是时序问题和电源问题,创造了有利条件。

Description

一种故障信息管理方法及系统
技术领域
本发明属于故障定位领域,尤其涉及一种故障信息管理方法及系统。
背景技术
飞速发展的业务需求带动了服务器行业巨大的技术变革,当服务器出现故障不能正常运行时,快速定位问题是快速解决问题的基本条件。
传统的问题定位方法主要是通过光路诊断、系统日志等方法来定位故障产生的原因,但是传统方法都有些弊端:例如,光路诊断在断电后会丢失故障信息,而系统日志更多是定位软件故障,对于硬件问题定位尤其是时序问题和电源问题没有一种有效的故障信息管理方法,这对于后续的故障准确定位造成了一定的困难。
发明内容
本发明提供一种故障信息管理方法及系统,以解决上述问题。
本发明提供一种故障信息管理方法,上述方法包括以下步骤:
可编程设备获取各种类型工作信号并将分析出的异常信号发送至控制设备;
所述控制设备通过显示设备将所述异常信号进行显示并将所述异常信号存储至安全数码设备。
本发明还提供了一种故障信息管理系统,包括可编程设备、控制设备、显示设备、安全数码设备;其中,所述可编程设备通过所述控制设备分别与所述显示设备、所述安全数码设备相连;
所述可编程设备,用于获取各种类型工作信号并将分析出的异常信号发送至所述控制设备;
所述控制设备,用于通过所述显示设备将所述异常信号进行显示并将所述异常信号存储至所述安全数码设备;
所述显示设备,用于显示所述控制设备发送的所述异常信号;
所述安全数码设备,用于存储所述控制设备发送的所述异常信号。
相较于先前技术,根据本发明提供的一种故障信息管理方法及系统,实现了故障信息的有效管理,对于后续快速定位硬件故障问题尤其是时序问题和电源问题,创造了有利条件。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1所示为本发明实施例1的故障信息管理方法流程图;
图2所示为本发明实施例2的故障信息管理系统结构图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图1所示为本发明实施例1的故障信息管理方法流程图,包括以下步骤:
步骤101:可编程设备获取各种类型工作信号并将分析出的异常信号发送至控制设备;
所述可编程设备是指现场可编程门阵列设备FPGA(Field-ProgrammableGate Array);所述控制设备是指主板管理控制器BMC(Baseboard ManagementController)。
工作信号类型包括:直流电信号、时序信号、电源信号即power good信号、复位信号即reset信号、极限温度信号即thermal trip信号。
可编程设备获取各种类型工作信号后,实时监控获取的所述各种类型工作信号是否处于正常工作状态,并对分析出的异常信号进行记录;
所述可编程设备将记录的异常信号发送至控制设备。
例如:当电源接通之后.如果输入交流电压在额定工作范围之内.且各路直流输出电压也已达到它们的最低检测电平(+5V输出为4.75V以上).那么经过100ms~500m的延时.Power Good电路发出“电源正常”的信号(PowerGood为高电平);当电源输入交流电压降至安全工作范围以下或+5电压低于4.75V时.电源送出“电源故障信号”(Power Fall,低电平)。
步骤102:所述控制设备通过显示设备将所述异常信号进行显示并将所述异常信号存储至安全数码设备。
所述显示设备是指液晶显示器LCD(Liquid Crystal Display);所述安全数码设备是指安全数码卡SD CARD(Secure Digital Memory Card)。
例如:主板管理控制器通过显示设备将所述异常信号进行显示并将所述异常信号存储至安全数码卡SD CARD。
下面进行具体说明:
1.系统开机时,直流电信号、时序信号、电源信号即power good信号、复位信号即reset信号、极限温度信号即thermal trip信号是按照时序逻辑的,当FPGA设备发现某个信号处于正常工作状态,然后对应的下一个信号却始终不能处于正常工作状态,那么FPGA设备会将不能处于正常工作状态的信号记录下来作为异常信号,发送给主板管理控制器BMC并将该异常信号存储到SD卡中,同时也会在LCD显示屏上显示,从而通知用户或者研发人员问题产生的信号。
2.系统处于正常工作状态时突然重启或者关机时,FPGA设备可以发现某个信号最先处于不正常的工作状态并作为异常信号,发送给主板管理控制器BMC并将该异常信号存储到SD卡中,同时也会在LCD显示屏上显示,从而让用户和研发人员知道产生问题的信号。
所述控制设备定时统计预设时段内同一类型异常信号发生次数,根据异常信号发生次数范围与报警信息对照表,发送对应的报警信息至终端。
其中,所述控制设备预先存储异常信号发生次数范围与报警信息对照表或者从第三方实体中获取异常信号发生次数范围与报警信息对照表。
其中,所述终端是指管理员终端。
定时时间、预设时段可以根据实际情况进行灵活设置,在此不限定本发明的保护范围。
异常信号发生次数与报警信息对照表
表1
如表1所示,异常电源信号发生次数在1≤X<3范围内,则向终端发出“电源修复报警”;异常电源信号发生次数大于或等于3,则向终端发出“电源更换报警”。
异常极限温度信号发生次数在1≤X<3范围内,则向终端发出“关机报警”;异常极限温度信号发生次数大于或等于3,则向终端发出“更换CPU报警”。
图2所示为本发明实施例2的故障信息管理系统结构图,包括可编程设备、控制设备、显示设备、安全数码设备;其中,所述可编程设备通过所述控制设备分别与所述显示设备、所述安全数码设备相连;
所述可编程设备,用于获取各种类型工作信号并将分析出的异常信号发送至所述控制设备;
所述控制设备,用于通过所述显示设备将所述异常信号进行显示并将所述异常信号存储至所述安全数码设备;
所述显示设备,用于显示所述控制设备发送的所述异常信号;
所述安全数码设备,用于存储所述控制设备发送的所述异常信号。
相较于先前技术,根据本发明提供的一种故障信息管理方法及系统,实现了故障信息的有效管理,对于后续快速定位硬件故障问题尤其是时序问题和电源问题,创造了有利条件。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种故障信息管理方法,其特征在于,包括以下步骤:
可编程设备获取各种类型工作信号并将分析出的异常信号发送至控制设备;
所述控制设备通过显示设备将所述异常信号进行显示并将所述异常信号存储至安全数码设备。
2.根据权利要求1所述的方法,其特征在于:所述可编程设备是指现场可编程门阵列设备FPGA;所述控制设备是指主板管理控制器BMC;所述显示设备是指液晶显示器LCD;所述安全数码设备是指安全数码卡SD CARD。
3.根据权利要求1所述的方法,其特征在于,工作信号类型包括:直流电信号、时序信号、电源信号、复位信号、极限温度信号。
4.根据权利要求1所述的方法,其特征在于:
可编程设备获取各种类型工作信号后,实时监控获取的所述各种类型工作信号是否处于正常工作状态,并对分析出的异常信号进行记录;
所述可编程设备将记录的异常信号发送至控制设备。
5.根据权利要求1所述的方法,其特征在于:所述控制设备定时统计预设时段内同一类型异常信号发生次数,根据异常信号发生次数范围与报警信息对照表,发送对应的报警信息至终端。
6.根据权利要求5所述的方法,其特征在于:所述控制设备预先存储异常信号发生次数范围与报警信息对照表或者从第三方实体中获取异常信号发生次数范围与报警信息对照表。
7.根据权利要求6所述的方法,其特征在于,所述终端是指管理员终端。
8.一种故障信息管理系统,其特征在于,包括可编程设备、控制设备、显示设备、安全数码设备;其中,所述可编程设备通过所述控制设备分别与所述显示设备、所述安全数码设备相连;
所述可编程设备,用于获取各种类型工作信号并将分析出的异常信号发送至所述控制设备;
所述控制设备,用于通过所述显示设备将所述异常信号进行显示并将所述异常信号存储至所述安全数码设备;
所述显示设备,用于显示所述控制设备发送的所述异常信号;
所述安全数码设备,用于存储所述控制设备发送的所述异常信号。
CN201410641066.9A 2014-11-13 2014-11-13 一种故障信息管理方法及系统 Active CN104461809B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410641066.9A CN104461809B (zh) 2014-11-13 2014-11-13 一种故障信息管理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410641066.9A CN104461809B (zh) 2014-11-13 2014-11-13 一种故障信息管理方法及系统

Publications (2)

Publication Number Publication Date
CN104461809A true CN104461809A (zh) 2015-03-25
CN104461809B CN104461809B (zh) 2017-05-31

Family

ID=52907904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410641066.9A Active CN104461809B (zh) 2014-11-13 2014-11-13 一种故障信息管理方法及系统

Country Status (1)

Country Link
CN (1) CN104461809B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794033A (zh) * 2015-04-29 2015-07-22 浪潮电子信息产业股份有限公司 一种基于bmc的cpu低频故障的定位方法及装置
CN104965137A (zh) * 2015-06-19 2015-10-07 上海斐讯数据通信技术有限公司 一种故障定位方法及系统、电子设备
CN105303050A (zh) * 2015-11-10 2016-02-03 中国人民解放军第三军医大学第三附属医院 一种医疗设备的故障信息存储方法及系统
CN105808398A (zh) * 2016-03-08 2016-07-27 浪潮电子信息产业股份有限公司 一种快速分析定位硬件异常的方法
CN105893196A (zh) * 2016-04-05 2016-08-24 浪潮电子信息产业股份有限公司 一种服务器调试辅助工具及系统
CN106021064A (zh) * 2016-05-16 2016-10-12 浪潮电子信息产业股份有限公司 一种收集监控信息的方法、基板管理控制器和系统
CN106411579A (zh) * 2016-09-13 2017-02-15 深圳市金立通信设备有限公司 一种运行错误信息的处理方法及终端和系统
CN106610885A (zh) * 2015-10-21 2017-05-03 鸿富锦精密电子(天津)有限公司 服务器故障检测系统及方法
CN106708707A (zh) * 2016-12-23 2017-05-24 郑州云海信息技术有限公司 一种基于服务器架构的服务器监控系统
CN107193713A (zh) * 2017-06-08 2017-09-22 山东超越数控电子有限公司 一种实现主板管理控制的fpga及方法
CN107621988A (zh) * 2017-09-06 2018-01-23 郑州云海信息技术有限公司 一种dc测试中宕机故障定位方法及系统
CN108153644A (zh) * 2017-12-22 2018-06-12 联想(北京)有限公司 一种数据处理方法及电子设备
CN109284218A (zh) * 2018-09-28 2019-01-29 郑州云海信息技术有限公司 一种检测服务器运行故障的方法及其装置
CN113960983A (zh) * 2021-10-26 2022-01-21 上海新纪元机器人有限公司 一种伺服驱动装置数据存储方法、系统和伺服驱动装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7089451B2 (en) * 1995-05-31 2006-08-08 Hitachi, Ltd. Computer management system
CN101833497A (zh) * 2010-03-30 2010-09-15 山东高效能服务器和存储研究院 一种基于专家系统方法的计算机故障管理系统
CN102768633A (zh) * 2012-06-29 2012-11-07 浪潮电子信息产业股份有限公司 一种基于时序监测的服务器主板开关机测试方法
CN103077103A (zh) * 2013-01-18 2013-05-01 浪潮电子信息产业股份有限公司 一种服务器故障的离线诊断方法
CN103870379A (zh) * 2012-12-18 2014-06-18 鸿富锦精密工业(深圳)有限公司 风扇异常警示系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7089451B2 (en) * 1995-05-31 2006-08-08 Hitachi, Ltd. Computer management system
CN101833497A (zh) * 2010-03-30 2010-09-15 山东高效能服务器和存储研究院 一种基于专家系统方法的计算机故障管理系统
CN102768633A (zh) * 2012-06-29 2012-11-07 浪潮电子信息产业股份有限公司 一种基于时序监测的服务器主板开关机测试方法
CN103870379A (zh) * 2012-12-18 2014-06-18 鸿富锦精密工业(深圳)有限公司 风扇异常警示系统及方法
CN103077103A (zh) * 2013-01-18 2013-05-01 浪潮电子信息产业股份有限公司 一种服务器故障的离线诊断方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794033A (zh) * 2015-04-29 2015-07-22 浪潮电子信息产业股份有限公司 一种基于bmc的cpu低频故障的定位方法及装置
CN104965137A (zh) * 2015-06-19 2015-10-07 上海斐讯数据通信技术有限公司 一种故障定位方法及系统、电子设备
CN104965137B (zh) * 2015-06-19 2018-02-06 上海斐讯数据通信技术有限公司 一种故障定位方法及系统、电子设备
CN106610885A (zh) * 2015-10-21 2017-05-03 鸿富锦精密电子(天津)有限公司 服务器故障检测系统及方法
CN105303050A (zh) * 2015-11-10 2016-02-03 中国人民解放军第三军医大学第三附属医院 一种医疗设备的故障信息存储方法及系统
CN105303050B (zh) * 2015-11-10 2018-03-30 中国人民解放军第三军医大学第三附属医院 一种医疗设备的故障信息存储方法及系统
CN105808398A (zh) * 2016-03-08 2016-07-27 浪潮电子信息产业股份有限公司 一种快速分析定位硬件异常的方法
CN105893196A (zh) * 2016-04-05 2016-08-24 浪潮电子信息产业股份有限公司 一种服务器调试辅助工具及系统
CN106021064A (zh) * 2016-05-16 2016-10-12 浪潮电子信息产业股份有限公司 一种收集监控信息的方法、基板管理控制器和系统
CN106411579A (zh) * 2016-09-13 2017-02-15 深圳市金立通信设备有限公司 一种运行错误信息的处理方法及终端和系统
CN106708707A (zh) * 2016-12-23 2017-05-24 郑州云海信息技术有限公司 一种基于服务器架构的服务器监控系统
CN107193713A (zh) * 2017-06-08 2017-09-22 山东超越数控电子有限公司 一种实现主板管理控制的fpga及方法
CN107193713B (zh) * 2017-06-08 2020-05-26 山东超越数控电子股份有限公司 一种实现主板管理控制的fpga及方法
CN107621988A (zh) * 2017-09-06 2018-01-23 郑州云海信息技术有限公司 一种dc测试中宕机故障定位方法及系统
CN108153644A (zh) * 2017-12-22 2018-06-12 联想(北京)有限公司 一种数据处理方法及电子设备
CN109284218A (zh) * 2018-09-28 2019-01-29 郑州云海信息技术有限公司 一种检测服务器运行故障的方法及其装置
CN113960983A (zh) * 2021-10-26 2022-01-21 上海新纪元机器人有限公司 一种伺服驱动装置数据存储方法、系统和伺服驱动装置

Also Published As

Publication number Publication date
CN104461809B (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
CN104461809A (zh) 一种故障信息管理方法及系统
CN105808394B (zh) 一种服务器自愈的方法和装置
US9934119B2 (en) Rogue hardware detection through power monitoring
CN103500133A (zh) 故障定位方法及装置
US8549277B2 (en) Server system including diplexer
US10157115B2 (en) Detection system and method for baseboard management controller
CN205354006U (zh) 一种自检计算机系统
WO2016202103A1 (zh) 一种光端口状态判断方法及装置、光通信系统
CN103580941B (zh) 网络看门狗及其实现方法
CN104092929A (zh) 视频保障系统
CN104317682A (zh) 一种实现风扇停转的异常状态快速区分识别的设计方法
CN106339297A (zh) 一种存储系统故障实时告警的方法及系统
CN105300447A (zh) 一种用于监控设备运行状态的系统及方法
CN104502883A (zh) 计量芯片的异常检测及解决方法
CN104699215A (zh) 电源保护系统及方法
CN102567182A (zh) 远程主机的监控方法
CN104780062A (zh) 一种快速获取bmc管理网口ip地址的方法
CN104485991A (zh) 一种光模块故障自动报警方法及系统
CN104317692A (zh) 一种me fw在线更新稳定性的自动测试方法
CN204557999U (zh) 一种支持离线显示的液晶屏控制电路
CN104461841A (zh) 一种工作状态的监控方法及监控设备
CN104345850B (zh) 智能型自动开机装置
CN104484753A (zh) 一种服务器资产信息追溯方法
CN102662820A (zh) 数据保护方法和装置
CN102545330B (zh) 一种供电电路、工程机械及其供电系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant