CN104461809B - 一种故障信息管理方法及系统 - Google Patents

一种故障信息管理方法及系统 Download PDF

Info

Publication number
CN104461809B
CN104461809B CN201410641066.9A CN201410641066A CN104461809B CN 104461809 B CN104461809 B CN 104461809B CN 201410641066 A CN201410641066 A CN 201410641066A CN 104461809 B CN104461809 B CN 104461809B
Authority
CN
China
Prior art keywords
signal
abnormal
control device
terminal
abnormal signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410641066.9A
Other languages
English (en)
Other versions
CN104461809A (zh
Inventor
王永欢
薛广营
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201410641066.9A priority Critical patent/CN104461809B/zh
Publication of CN104461809A publication Critical patent/CN104461809A/zh
Application granted granted Critical
Publication of CN104461809B publication Critical patent/CN104461809B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供一种故障信息管理方法及系统,上述方法包括以下步骤:可编程设备获取各种类型工作信号并将分析出的异常信号发送至控制设备;所述控制设备通过显示设备将所述异常信号进行显示并将所述异常信号存储至安全数码设备;本发明实现了故障信息的有效管理,对于后续快速定位硬件故障问题尤其是时序问题和电源问题,创造了有利条件。

Description

一种故障信息管理方法及系统
技术领域
本发明属于故障定位领域,尤其涉及一种故障信息管理方法及系统。
背景技术
飞速发展的业务需求带动了服务器行业巨大的技术变革,当服务器出现故障不能正常运行时,快速定位问题是快速解决问题的基本条件。
传统的问题定位方法主要是通过光路诊断、系统日志等方法来定位故障产生的原因,但是传统方法都有些弊端:例如,光路诊断在断电后会丢失故障信息,而系统日志更多是定位软件故障,对于硬件问题定位尤其是时序问题和电源问题没有一种有效的故障信息管理方法,这对于后续的故障准确定位造成了一定的困难。
发明内容
本发明提供一种故障信息管理方法及系统,以解决上述问题。
本发明提供一种故障信息管理方法,上述方法包括以下步骤:
可编程设备获取各种类型工作信号并将分析出的异常信号发送至控制设备;
所述控制设备通过显示设备将所述异常信号进行显示并将所述异常信号存储至安全数码设备。
本发明还提供了一种故障信息管理系统,包括可编程设备、控制设备、显示设备、安全数码设备;其中,所述可编程设备通过所述控制设备分别与所述显示设备、所述安全数码设备相连;
所述可编程设备,用于获取各种类型工作信号并将分析出的异常信号发送至所述控制设备;
所述控制设备,用于通过所述显示设备将所述异常信号进行显示并将所述异常信号存储至所述安全数码设备;
所述显示设备,用于显示所述控制设备发送的所述异常信号;
所述安全数码设备,用于存储所述控制设备发送的所述异常信号。
相较于先前技术,根据本发明提供的一种故障信息管理方法及系统,实现了故障信息的有效管理,对于后续快速定位硬件故障问题尤其是时序问题和电源问题,创造了有利条件。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1所示为本发明实施例1的故障信息管理方法流程图;
图2所示为本发明实施例2的故障信息管理系统结构图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图1所示为本发明实施例1的故障信息管理方法流程图,包括以下步骤:
步骤101:可编程设备获取各种类型工作信号并将分析出的异常信号发送至控制设备;
所述可编程设备是指现场可编程门阵列设备FPGA(Field-Programmable GateArray);所述控制设备是指主板管理控制器BMC(Baseboard Management Controller)。
工作信号类型包括:直流电信号、时序信号、电源信号即power good信号、复位信号即reset信号、极限温度信号即thermal trip信号。
可编程设备获取各种类型工作信号后,实时监控获取的所述各种类型工作信号是否处于正常工作状态,并对分析出的异常信号进行记录;
所述可编程设备将记录的异常信号发送至控制设备。
例如:当电源接通之后.如果输入交流电压在额定工作范围之内.且各路直流输出电压也已达到它们的最低检测电平(+5V输出为4.75V以上).那么经过100ms~500m的延时.Power Good电路发出“电源正常”的信号(Power Good为高电平);当电源输入交流电压降至安全工作范围以下或+5电压低于4.75V时.电源送出“电源故障信号”(Power Fall,低电平)。
步骤102:所述控制设备通过显示设备将所述异常信号进行显示并将所述异常信号存储至安全数码设备。
所述显示设备是指液晶显示器LCD(Liquid Crystal Display);所述安全数码设备是指安全数码卡SD CARD(Secure Digital Memory Card)。
例如:主板管理控制器通过显示设备将所述异常信号进行显示并将所述异常信号存储至安全数码卡SD CARD。
下面进行具体说明:
1.系统开机时,直流电信号、时序信号、电源信号即power good信号、复位信号即reset信号、极限温度信号即thermal trip信号是按照时序逻辑的,当FPGA设备发现某个信号处于正常工作状态,然后对应的下一个信号却始终不能处于正常工作状态,那么FPGA设备会将不能处于正常工作状态的信号记录下来作为异常信号,发送给主板管理控制器BMC并将该异常信号存储到SD卡中,同时也会在LCD显示屏上显示,从而通知用户或者研发人员问题产生的信号。
2.系统处于正常工作状态时突然重启或者关机时,FPGA设备可以发现某个信号最先处于不正常的工作状态并作为异常信号,发送给主板管理控制器BMC并将该异常信号存储到SD卡中,同时也会在LCD显示屏上显示,从而让用户和研发人员知道产生问题的信号。
所述控制设备定时统计预设时段内同一类型异常信号发生次数,根据异常信号发生次数范围与报警信息对照表,发送对应的报警信息至终端。
其中,所述控制设备预先存储异常信号发生次数范围与报警信息对照表或者从第三方实体中获取异常信号发生次数范围与报警信息对照表。
其中,所述终端是指管理员终端。
定时时间、预设时段可以根据实际情况进行灵活设置,在此不限定本发明的保护范围。
异常信号发生次数与报警信息对照表
表1
如表1所示,异常电源信号发生次数在1≤X<3范围内,则向终端发出“电源修复报警”;异常电源信号发生次数大于或等于3,则向终端发出“电源更换报警”。
异常极限温度信号发生次数在1≤X<3范围内,则向终端发出“关机报警”;异常极限温度信号发生次数大于或等于3,则向终端发出“更换CPU报警”。
图2所示为本发明实施例2的故障信息管理系统结构图,包括可编程设备、控制设备、显示设备、安全数码设备;其中,所述可编程设备通过所述控制设备分别与所述显示设备、所述安全数码设备相连;
所述可编程设备,用于获取各种类型工作信号并将分析出的异常信号发送至所述控制设备;
所述控制设备,用于通过所述显示设备将所述异常信号进行显示并将所述异常信号存储至所述安全数码设备;
所述显示设备,用于显示所述控制设备发送的所述异常信号;
所述安全数码设备,用于存储所述控制设备发送的所述异常信号。
相较于先前技术,根据本发明提供的一种故障信息管理方法及系统,实现了故障信息的有效管理,对于后续快速定位硬件故障问题尤其是时序问题和电源问题,创造了有利条件。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种故障信息管理方法,其特征在于,用于后续快速定位硬件故障问题,所述硬件故障问题包括时序问题和电源问题,包括以下步骤:
可编程设备获取系统开机时按照时序逻辑的各种类型工作信号后,实时监控获取的所述各种类型工作信号是否处于正常工作状态,当发现某个信号处于正常工作状态,然后对应的下一个信号却始终不能处于正常工作状态时,将不能处于正常工作状态的信号作为异常信号,并对分析出的异常信号进行记录;
所述各种类型工作信号包括:直流电信号、时序信号、电源信号、复位信号和极限温度信号;
所述可编程设备将记录的异常信号发送至控制设备;
所述控制设备通过显示设备将所述异常信号进行显示并将所述异常信号存储至安全数码设备;
所述控制设备定时统计预设时段内同一类型异常信号发生次数,根据异常信号发生次数范围与报警信息对照表,发送对应的报警信息至终端;其中,异常电源信号发生次数在1≤X<3范围内,则向终端发出电源修复报警;异常电源信号发生次数大于或等于3,则向终端发出电源更换报警;异常极限温度信号发生次数在1≤X<3范围内,则向终端发出关机报警;异常极限温度信号发生次数大于或等于3,则向终端发出更换CPU报警。
2.根据权利要求1所述的方法,其特征在于:所述可编程设备是指现场可编程门阵列设备FPGA;所述控制设备是指主板管理控制器BMC;所述显示设备是指液晶显示器LCD;所述安全数码设备是指安全数码卡SDCARD。
3.根据权利要求1所述的方法,其特征在于:所述控制设备预先存储异常信号发生次数范围与报警信息对照表或者从第三方实体中获取异常信号发生次数范围与报警信息对照表。
4.根据权利要求3所述的方法,其特征在于,所述终端是指管理员终端。
5.一种采用如权利要求1所述故障信息管理方法的故障信息管理系统,其特征在于,用于后续快速定位硬件故障问题,所述硬件故障问题包括时序问题和电源问题,包括可编程设备、控制设备、显示设备、安全数码设备;其中,所述可编程设备通过所述控制设备分别与所述显示设备、所述安全数码设备相连;
所述可编程设备,用于获取系统开机时按照时序逻辑的各种类型工作信号,实时监控获取的所述各种类型工作信号是否处于正常工作状态,当发现某个信号处于正常工作状态,然后对应的下一个信号却始终不能处于正常工作状态时,将不能处于正常工作状态的信号作为异常信号,并将分析出的异常信号发送至所述控制设备;所述各种类型工作信号包括:直流电信号、时序信号、电源信号、复位信号和极限温度信号;
所述控制设备,用于通过所述显示设备将所述异常信号进行显示并将所述异常信号存储至所述安全数码设备;所述控制设备定时统计预设时段内同一类型异常信号发生次数,根据异常信号发生次数范围与报警信息对照表,发送对应的报警信息至终端;其中,异常电源信号发生次数在1≤X<3范围内,则向终端发出电源修复报警;异常电源信号发生次数大于或等于3,则向终端发出电源更换报警;异常极限温度信号发生次数在1≤X<3范围内,则向终端发出关机报警;异常极限温度信号发生次数大于或等于3,则向终端发出更换CPU报警;
所述显示设备,用于显示所述控制设备发送的所述异常信号;
所述安全数码设备,用于存储所述控制设备发送的所述异常信号。
CN201410641066.9A 2014-11-13 2014-11-13 一种故障信息管理方法及系统 Active CN104461809B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410641066.9A CN104461809B (zh) 2014-11-13 2014-11-13 一种故障信息管理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410641066.9A CN104461809B (zh) 2014-11-13 2014-11-13 一种故障信息管理方法及系统

Publications (2)

Publication Number Publication Date
CN104461809A CN104461809A (zh) 2015-03-25
CN104461809B true CN104461809B (zh) 2017-05-31

Family

ID=52907904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410641066.9A Active CN104461809B (zh) 2014-11-13 2014-11-13 一种故障信息管理方法及系统

Country Status (1)

Country Link
CN (1) CN104461809B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794033A (zh) * 2015-04-29 2015-07-22 浪潮电子信息产业股份有限公司 一种基于bmc的cpu低频故障的定位方法及装置
CN104965137B (zh) * 2015-06-19 2018-02-06 上海斐讯数据通信技术有限公司 一种故障定位方法及系统、电子设备
CN106610885A (zh) * 2015-10-21 2017-05-03 鸿富锦精密电子(天津)有限公司 服务器故障检测系统及方法
CN105303050B (zh) * 2015-11-10 2018-03-30 中国人民解放军第三军医大学第三附属医院 一种医疗设备的故障信息存储方法及系统
CN105808398A (zh) * 2016-03-08 2016-07-27 浪潮电子信息产业股份有限公司 一种快速分析定位硬件异常的方法
CN105893196A (zh) * 2016-04-05 2016-08-24 浪潮电子信息产业股份有限公司 一种服务器调试辅助工具及系统
CN106021064A (zh) * 2016-05-16 2016-10-12 浪潮电子信息产业股份有限公司 一种收集监控信息的方法、基板管理控制器和系统
CN106411579A (zh) * 2016-09-13 2017-02-15 深圳市金立通信设备有限公司 一种运行错误信息的处理方法及终端和系统
CN106708707A (zh) * 2016-12-23 2017-05-24 郑州云海信息技术有限公司 一种基于服务器架构的服务器监控系统
CN107193713B (zh) * 2017-06-08 2020-05-26 山东超越数控电子股份有限公司 一种实现主板管理控制的fpga及方法
CN107621988A (zh) * 2017-09-06 2018-01-23 郑州云海信息技术有限公司 一种dc测试中宕机故障定位方法及系统
CN108153644A (zh) * 2017-12-22 2018-06-12 联想(北京)有限公司 一种数据处理方法及电子设备
CN109284218A (zh) * 2018-09-28 2019-01-29 郑州云海信息技术有限公司 一种检测服务器运行故障的方法及其装置
CN113960983A (zh) * 2021-10-26 2022-01-21 上海新纪元机器人有限公司 一种伺服驱动装置数据存储方法、系统和伺服驱动装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102768633A (zh) * 2012-06-29 2012-11-07 浪潮电子信息产业股份有限公司 一种基于时序监测的服务器主板开关机测试方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW292365B (en) * 1995-05-31 1996-12-01 Hitachi Ltd Computer management system
CN101833497B (zh) * 2010-03-30 2015-01-21 浪潮电子信息产业股份有限公司 一种基于专家系统方法的计算机故障管理系统
CN103870379A (zh) * 2012-12-18 2014-06-18 鸿富锦精密工业(深圳)有限公司 风扇异常警示系统及方法
CN103077103A (zh) * 2013-01-18 2013-05-01 浪潮电子信息产业股份有限公司 一种服务器故障的离线诊断方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102768633A (zh) * 2012-06-29 2012-11-07 浪潮电子信息产业股份有限公司 一种基于时序监测的服务器主板开关机测试方法

Also Published As

Publication number Publication date
CN104461809A (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
CN104461809B (zh) 一种故障信息管理方法及系统
CN106411659A (zh) 一种业务数据监测方法及装置
CN109752047A (zh) 基于温湿度的机房告警方法、装置及存储介质
CN107947998B (zh) 一种基于应用系统的实时监测系统
CN102937930A (zh) 应用程序监控系统及方法
CN110750413B (zh) 多机房温度报警方法、装置及存储介质
CN103905255A (zh) 服务器内部硬件运行故障远程自动告警系统及方法
CN108170801A (zh) 一种太阳能电池生产设备管理系统及其实现方法
KR20200081164A (ko) 구동부의 건전성 지수 검출방법
CN112114989B (zh) 一种服务器系统故障诊断设计方法
CN114024834A (zh) 故障定位方法、装置、电子设备及可读存储介质
CN106294795A (zh) 一种数据库切换方法及系统
CN105354102B (zh) 一种文件系统维护和修复的方法和装置
CN110287347A (zh) 采用大数据检测电力机房故障的方法
US9405657B2 (en) Application architecture assessment system
CN102567182A (zh) 远程主机的监控方法
CN112737124B (zh) 一种电力设备监测终端构建方法和装置
CN104579737A (zh) 一种分布式web系统的运行维护的方法及系统
CN111082998A (zh) 一种运维监控校园汇聚层的架构系统
TWI644228B (zh) 伺服器及其監控方法
CN110567515A (zh) 一种故障预警方法、装置及智能楼宇控制系统
CN105955864A (zh) 电源故障处理方法、电源模块、监控管理模块及服务器
CN108764715A (zh) 设备操作技能评估系统及方法
CN108712283A (zh) 信息系统中基于资源关联关系的故障预警方法和装置
WO2016078224A1 (zh) 一种信息处理方法、装置及计算机存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant