CN106919493A - 一种服务器上电故障监控系统及方法 - Google Patents

一种服务器上电故障监控系统及方法 Download PDF

Info

Publication number
CN106919493A
CN106919493A CN201710141783.9A CN201710141783A CN106919493A CN 106919493 A CN106919493 A CN 106919493A CN 201710141783 A CN201710141783 A CN 201710141783A CN 106919493 A CN106919493 A CN 106919493A
Authority
CN
China
Prior art keywords
controlled terminal
detection unit
electric fault
management controller
monitoring system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710141783.9A
Other languages
English (en)
Inventor
程万前
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710141783.9A priority Critical patent/CN106919493A/zh
Publication of CN106919493A publication Critical patent/CN106919493A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种服务器上电故障监控系统及方法,其特征在于,包括管理控制器、检测单元和受控终端;管理控制器经检测单元与受控终端连接;检测单元为受控终端分配序号,检测受控终端的上电故障;并向管理控制器发送错误信息;管理控制器设有调试串口;该监控系统还包括上位机,管理控制器将接收到的错误信息通过调试串口发送到上位机,调试人员可以查看串口发送的消息,从而快速定位故障所在。

Description

一种服务器上电故障监控系统及方法
技术领域
本发明属于服务器设计技术领域,具体涉及一种服务器上电故障监控系统及方法。
背景技术
在服务器设计中多使用复杂可编程逻辑器件CPLD连接各个电源的使能管脚EN和POWER GOOD管脚,使能管脚EN发出使能信号令芯片上电,当上电完成后POWER GOOD管脚发出信号指示,当CPLD检测到电源A的POWER GOOD信号后,按照预设时间进行延时,延时时间到达后向电源B发送EN信号。
一般情况下,电源模块在收到EN信号后会在一定时间内完成上电并发出POWERGOOD信号,若电源模块出现故障无法上电,会导致POWER GOOD信号不能发出,后续上电过程不能完成,当服务器出现此类故障时,工程师一般需要测量各个电源信号,确定是哪个电源模块出现故障,这种方式有操作复杂、效率低等缺点。此为现有技术的不足之处。
发明内容
本发明的目的在于,针对上述现有技术存在的缺陷,提供设计一种服务器上电故障监控系统及方法,以解决上述技术问题。
为了达到上述目的,本发明的技术方案是:
一种服务器上电故障监控系统,其特征在于,包括管理控制器、检测单元和受控终端;
管理控制器经检测单元与受控终端连接;
检测单元为受控终端分配序号,检测受控终端的上电故障;
管理控制器设有调试串口;
该监控系统还包括上位机,管理控制器通过调试串口与上位机连接。
受控终端数量为若干个,每个受控终端均连接到检测单元。
检测单元分别连接各受控终端的使能管脚EN和POWER GOOD管脚。
受控终端为电源模块。
检测单元包括可编程逻辑器件CPLD,所述CPLD内设置计数器。一种服务器上电故障监控方法,其特征在于,包括以下步骤:
步骤1:初始化检测单元,为每个受控终端分配序号,设置计数时间阈值;
步骤2:检测单元发出上电使能信号,同时计数器开始计时;
步骤3:若计时时间到达设定阈值之前,检测单元收到了受控终端的反馈信号,则计数器清零并停止计时,表示该受控终端能正常;若计时时间到达设定阈值,检测单元未收到受控终端发送的反馈信号,则判断该受控终端出现故障,并向管理控制器发送错误信息;
步骤4:管理控制器将接收到的错误信息发送到上位机,查看串口发送的消息,从而快速定位故障所在。
受控终端的反馈信号为上电完成后POWER GOOD 管脚发出的信号指示。
错误信息内容包括故障受控终端的序号。
本发明的有益效果在于,当服务器电源出现故障时,能够快速定位故障电源并通过串口通知调试人员,避免的复杂的人工测试过程。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著地进步,其实施的有益效果也是显而易见的。
附图说明
图1为一种服务器上电故障监控系统的系统框图。
图2为一种服务器上电故障监控方法的流程图。
其中,1-管理控制器,2-检测单元,3-受控终端,4-上位机。
具体实施方式
下面结合附图并通过具体实施例对本发明进行详细阐述,以下实施例是对本发明的解释,而本发明并不局限于以下实施方式。
如图1所示,本实施例提供的一种服务器上电故障监控系统,包括管理控制器1、检测单元2和受控终端3;管理控制器1经检测单元2与受控终端3连接;检测单元2为受控终端3分配序号,检测受控终端3的上电故障;管理控制器1设有调试串口;该监控系统还包括上位机4,管理控制器1通过调试串口与上位机4连接。
受控终端3数量为若干个,每个受控终端均连接到检测单元。
检测单元2分别连接各受控终端3的使能管脚EN和POWER GOOD管脚。
受控终端为电源模块。
检测单元2包括可编程逻辑器件CPLD,所述CPLD内设置计数器。如图2所示,本实施例提供的一种服务器上电故障监控方法,包括
以下步骤:
步骤1:初始化检测单元,为每个受控终端分配序号,设置计数时间阈值;
步骤2:检测单元发出上电使能信号,同时计数器开始计时;
步骤3:若计时时间到达设定阈值之前,检测单元收到了受控终端的反馈信号,则计数器清零并停止计时,表示该受控终端能正常;若计时时间到达设定阈值,检测单元未收到受控终端发送的反馈信号,则判断该受控终端出现故障,并向管理控制器发送错误信息;
步骤4:管理控制器将接收到的错误信息发送到上位机,查看串口发送的消息,快速定位故障所在。
步骤3中所述的受控终端的反馈信号为上电完成后POWER GOOD 管脚发出的信号指示。
错误信息内容包括故障受控终端的序号。
受控终端一般指服务器上的各个电源模块, CPLD提前为各个受控终端分配序号,以便于调试人员识别。
CPLD内设置计数器,当CPLD发出控制信号时,计数器开始计时;若计时时间到达设定阈值之前,CPLD收到了受控终端的反馈信号(一般指示上电完成),则计数器清零并停止计时,表示该受控终端能正常;若计时时间到达设定阈值,受控终端依然未向CPLD发送反馈信号,则判断该受控终端出现故障,CPLD向管理控制器发送该受控终端的序号。
管理控制器设有调试串口,并通过调试串口发送故障受控终端的序号。调试人员可以通过上位机连接该串口,查看串口发送的消息,从而快速定位故障所在。
以上公开的仅为本发明的优选实施方式,但本发明并非局限于此,任何本领域的技术人员能思之的没有创造性的变化,以及在不脱离本发明原理前提下所作的若干改进和润饰,都应落在本发明的保护范围内。

Claims (8)

1.一种服务器上电故障监控系统,其特征在于,包括管理控制器、检测单元和受控终端;
管理控制器经检测单元与受控终端连接;
检测单元为受控终端分配序号,检测受控终端的上电故障;
管理控制器设有调试串口;
该监控系统还包括上位机,管理控制器通过调试串口与上位机连接。
2.根据权利要求1所述的一种服务器上电故障监控系统,其特征在于,受控终端数量为若干个,每个受控终端均连接到检测单元。
3.根据权利要求2所述的一种服务器上电故障监控系统,其特征在于, 检测单元分别连接各受控终端的使能管脚EN和POWER GOOD管脚。
4.根据权利要求2所述的一种服务器上电故障监控系统,其特征在于,受控终端为电源模块。
5.根据权利要求1所述的一种服务器上电故障监控系统,其特征在于,检测单元包括可编程逻辑器件CPLD,所述CPLD内设置计数器。
6.一种服务器上电故障监控方法,其特征在于,包括以下步骤:
步骤1:初始化检测单元,为每个受控终端分配序号,设置计数时间阈值;
步骤2:检测单元发出上电使能信号,同时计数器开始计时;
步骤3:若计时时间到达设定阈值之前,检测单元收到了受控终端的反馈信号,则计数器清零并停止计时,表示该受控终端能正常;若计时时间到达设定阈值,检测单元未收到受控终端发送的反馈信号,则判断该受控终端出现故障,并向管理控制器发送错误信息;
步骤4:管理控制器将接收到的错误信息发送到上位机,查看串口发送的消息,从而快速定位故障所在。
7.根据权利要求6所述的一种服务器上电故障监控方法,其特征在于,受控终端的反馈信号为上电完成后POWER GOOD 管脚发出的信号指示。
8.根据权利要求6所述的一种服务器上电故障监控方法,其特征在于,错误信息内容包括故障受控终端的序号。
CN201710141783.9A 2017-03-10 2017-03-10 一种服务器上电故障监控系统及方法 Pending CN106919493A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710141783.9A CN106919493A (zh) 2017-03-10 2017-03-10 一种服务器上电故障监控系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710141783.9A CN106919493A (zh) 2017-03-10 2017-03-10 一种服务器上电故障监控系统及方法

Publications (1)

Publication Number Publication Date
CN106919493A true CN106919493A (zh) 2017-07-04

Family

ID=59461937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710141783.9A Pending CN106919493A (zh) 2017-03-10 2017-03-10 一种服务器上电故障监控系统及方法

Country Status (1)

Country Link
CN (1) CN106919493A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107462793A (zh) * 2017-08-18 2017-12-12 郑州云海信息技术有限公司 一种服务器电压相关信号监测装置及监测方法
CN112911733A (zh) * 2021-03-14 2021-06-04 昆山兴威联电气有限公司 一种单网络端口多连接点的自组网通信系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744769A (zh) * 2014-01-18 2014-04-23 浪潮电子信息产业股份有限公司 一种基于逻辑芯片cpld的快速定位服务器电源故障的方法
CN105824388A (zh) * 2016-04-05 2016-08-03 浪潮电子信息产业股份有限公司 一种上电/掉电的检测方法、装置和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744769A (zh) * 2014-01-18 2014-04-23 浪潮电子信息产业股份有限公司 一种基于逻辑芯片cpld的快速定位服务器电源故障的方法
CN105824388A (zh) * 2016-04-05 2016-08-03 浪潮电子信息产业股份有限公司 一种上电/掉电的检测方法、装置和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107462793A (zh) * 2017-08-18 2017-12-12 郑州云海信息技术有限公司 一种服务器电压相关信号监测装置及监测方法
CN112911733A (zh) * 2021-03-14 2021-06-04 昆山兴威联电气有限公司 一种单网络端口多连接点的自组网通信系统及方法

Similar Documents

Publication Publication Date Title
CN104951421B (zh) 一种串行总线通信设备的自动编号与类型识别方法及装置
CN110794805B (zh) 一种机器人安全电路及其控制方法
CN104808572A (zh) 基于功能安全的高完整性plc控制器
CN105573239A (zh) 一种高速背板总线通讯控制装置及方法
CN103929424B (zh) 软硬件结合的三取二安全数据处理与仲裁方法及其装置
CN107356883B (zh) 一种基于电流有效值的信号灯故障检测装置及方法
WO2022142528A1 (zh) 一种功能安全的开关量输出模块和诊断处理方法
CN106444723A (zh) 电子制动控制单元的测试系统及其测试方法
CN104407279A (zh) 一种用于自动测试芯片mdio总线协议的码型数据、装置及测试方法
CN106776244A (zh) 一种服务器时钟故障自动检测修复系统及方法
CN106919493A (zh) 一种服务器上电故障监控系统及方法
CN103645730A (zh) 一种带有自检功能的运动控制卡及检测方法
CN105426171A (zh) 多个二取二系统的同步和切换方法、系统
CN105099506A (zh) 一种电能表rs485通信故障检测自愈的装置及方法
CN104898547B (zh) 一种风电变桨plc检测方法及检测装置
CN102420462B (zh) 一种智能变电站过程层智能终端设备
CN105306352A (zh) 一种工业现场总线协议网关装置
CN103577284B (zh) 非透明桥芯片的异常检测与恢复方法
CN106610885A (zh) 服务器故障检测系统及方法
CN212825427U (zh) 一种应用于机器人控制系统的安全控制硬件平台
CN102664755A (zh) 控制通道故障确定方法及其装置
CN113665631A (zh) 一种联锁主机设备远程重启方法及装置
CN105182966A (zh) 一种plc及io扩展模块检测方法
CN110247809B (zh) 双环网控制系统的通信控制方法
CN106154071A (zh) 一种检测智能电能表rs485总线故障的装置及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170704

RJ01 Rejection of invention patent application after publication