CN106959917A - 一种服务器故障监控的方法 - Google Patents
一种服务器故障监控的方法 Download PDFInfo
- Publication number
- CN106959917A CN106959917A CN201710245081.5A CN201710245081A CN106959917A CN 106959917 A CN106959917 A CN 106959917A CN 201710245081 A CN201710245081 A CN 201710245081A CN 106959917 A CN106959917 A CN 106959917A
- Authority
- CN
- China
- Prior art keywords
- gpio
- management module
- cpu
- server
- pins
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000012544 monitoring process Methods 0.000 title claims abstract description 13
- 230000008859 change Effects 0.000 claims abstract description 17
- 230000002159 abnormal effect Effects 0.000 claims abstract description 11
- 230000009466 transformation Effects 0.000 claims description 2
- 230000007257 malfunction Effects 0.000 abstract description 6
- 230000005540 biological transmission Effects 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 239000004606 Fillers/Extenders Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3452—Performance evaluation by statistical analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3024—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Hardware Design (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开一种服务器故障监控的方法,涉及服务器管理领域;将系统元器件的特定管脚连接到系统管理模块的GPIO上,当系统元器件的特定管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志;使用本发明方法,只对系统做很少改变,却使系统的管理模块能在系统发生故障的瞬间感知故障,并实时收集故障状态,同时还可以记录下错误发送的顺序,对故障定位提供有效的帮助,提高服务器的可靠性。
Description
技术领域
本发明公开一种服务器故障监控的方法,涉及服务器管理领域。
背景技术
服务器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。服务器的构成包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。而今在竞争日益激烈的服务器市场中,服务器的可靠性成为越来越重要的指标。服务器出现故障后的停机时间是服务器可靠性的重要组成部分,一般服务器出现故障宕机后,往往需要客服人员手动触发各模块故障状态收集,但常常由于多种因素,导致错误并发造成服务器故障状态被破坏,无法获取有效信息。
为了解决上述问题,本发明提供一种服务器故障监控的方法,使系统的管理模块能在系统发生故障的瞬间感知故障,并实时收集故障状态,同时也可以记录下错误发送的顺序,对故障定位提供有效的帮助,提高服务器的可靠性。
PCH,Platform Controller Hub是intel公司的集成南桥。
GPIO General Purpose I/O通用输入/输出,或总线扩展器,利用工业标准I2C、SMBus或SPI接口简化了I/O口的扩展。当微控制器或芯片组没有足够的I/O端口,或当系统需要采用远端串行通信或控制时,GPIO产品能够提供额外的控制和监视功能。
发明内容
本发明针对目前服务器出现故障宕机后,往往需要客服人员手动触发各模块故障状态收集,但常常由于多种因素,导致错误并发造成服务器故障状态被破坏,无法获取有效信息的问题,提供一种服务器故障监控的方法,对故障定位提供有效的帮助,提高服务器的可靠性。
一种服务器故障监控的方法,将系统元器件的特定管脚连接到系统管理模块的GPIO上,当系统元器件的特定管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志。
所述系统元器件为CPU,将CPU的特定管脚连接到系统管理模块的GPIO上,当系统CPU的特定管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志。
将CPU的caterr管脚连接到管理模块的GPIO上,当系统CPU的caterr管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否发生致命性错误,若为系统发生致命性错误,则收集系统故障状态数据,并记录日志。
还将CPU的ERR管脚连接到管理模块的GPIO上,当系统CPU的ERR管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否发生PCIE错误,若为系统发生PCIE错误,则收集系统故障状态数据,并记录日志。
所述系统元器件还包括PCH,并将PCH的warm reset管脚连接到管理模块的GPIO上,当PCH的warm reset管脚状态发生变化时,管理模块通过与warm reset 管脚相连的GPIO获取系统发生重启信息,判断系统是否为异常重启,若是,则收集系统故障状态数据,并记录日志。
一种服务器故障监控系统,利用所述的方法对服务器系统进行改造而成,将服务器系统元器件的特定管脚连接到系统管理模块的GPIO上;当系统元器件的特定管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志。
所述的元器件为CPU,将CPU的特定管脚连接到系统管理模块的GPIO上。
将系统CPU的caterr管脚和/或ERR管脚连接到管理模块的GPIO上。
所述的元器件还包括PCH,将PCH的warm reset管脚连接到管理模块的GPIO上。
本发明与现有技术相比具有的有益效果是:
本发明提供一种服务器故障监控的方法,将系统元器件的特定管脚连接到系统管理模块的GPIO上,当系统元器件的特定管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志;使用本发明方法,只对系统做很少改变,却使系统的管理模块能在系统发生故障的瞬间感知故障,并实时收集故障状态,同时还可以记录下错误发送的顺序,对故障定位提供有效的帮助,提高服务器的可靠性。
附图说明
图1本发明系统管脚连接示意图;
图2本发明方法流程示意图。
图1中W表示warm reset 管脚,E表示ERR管脚,C表示caterr管脚。
具体实施方式
本发明提供一种服务器故障监控的方法,将系统元器件的特定管脚连接到系统管理模块的GPIO上,当系统元器件的特定管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志。
同时提供一种服务器故障监控的系统,利用上述的方法对服务器系统进行改造而成。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,对本发明进一步详细说明。
利用本发明方法,对服务器系统进行改造,将系统元器件的特定管脚连接到系统管理模块的GPIO上,当系统元器件的特定管脚状态发生变化时,管理模块通过GPIO可以获取系统相应的变化信息,然后判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志;
其中参考图1,将各个CPU的caterr管脚连接到管理模块的GPIO上,当系统caterr管脚状态发生变化时,即系统发生致命性错误时,管理模块通过GPIO感知,则收集CPU等模块故障状态,记录致命错误日志;
同时可将各个CPU的ERR管脚连接到管理模块的GPIO上,当系统ERR管脚状态发生变化时,即系统发生PCIE错误时,管理模块通过GPIO感知,收集CPU等模块故障状态并记录PCIE错误日志;
除将CPU的特定管脚连接到管理模块的GPIO上外,还可将PCH的warm reset管脚连接到管理模块的GPIO上,当系统发生重启时,管理模块通过与warm reset 管脚相连的GPIO感知,并判断是否为异常重启,若是,则收集系统CPU等模块故障状态并记录异常重启日志。
在上述实施例中,在主流错误场景下,即系统异常重启,发生致命错误,发生PCIE错误场景下,系统管理模块可瞬间感知,自动记录故障并收集故障状态,能有效的提高故障定位效率。
除此之外,可根据实际情况选择元器件的特定管脚连接到管理模块的GPIO上,对系统异常情况进行监控,使系统管理模块可瞬间感知,自动记录故障并收集故障状态,能有效的提高故障定位效率。
Claims (9)
1.一种服务器故障监控的方法,其特征在于将系统元器件的特定管脚连接到系统管理模块的GPIO上,当系统元器件的特定管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志。
2.根据权利要求1所述的方法,其特征在于所述系统元器件为CPU,将CPU的特定管脚连接到系统管理模块的GPIO上,当系统CPU的特定管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志。
3.根据权利要求2所述的方法,其特征在于将CPU的caterr管脚连接到管理模块的GPIO上,当系统CPU的caterr管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否发生致命性错误,若为系统发生致命性错误,则收集系统故障状态数据,并记录日志。
4.根据权利要求2或3所述的方法,其特征在于还将CPU的ERR管脚连接到管理模块的GPIO上,当系统CPU的ERR管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否发生PCIE错误,若为系统发生PCIE错误,则收集系统故障状态数据,并记录日志。
5.根据权利要求4所述的方法,其特征在于所述系统元器件还包括PCH,并将PCH的warmreset管脚连接到管理模块的GPIO上,当PCH的warm reset管脚状态发生变化时,管理模块通过与warm reset 管脚相连的GPIO获取系统发生重启信息,判断系统是否为异常重启,若是,则收集系统故障状态数据,并记录日志。
6.一种服务器故障监控系统,其特征在于利用权利要求1至5任一所述的方法对服务器系统进行改造而成,将服务器系统元器件的特定管脚连接到系统管理模块的GPIO上;当系统元器件的特定管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志。
7.根据权利要求6所述的系统,其特征在于所述的元器件为CPU,将CPU的特定管脚连接到系统管理模块的GPIO上。
8.根据权利要求7所述的系统,其特征在于将系统CPU的caterr管脚和/或ERR管脚连接到管理模块的GPIO上。
9.根据权利要求6-8所述的系统,其特征在于所述的元器件还包括PCH,将PCH的warmreset管脚连接到管理模块的GPIO上。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710245081.5A CN106959917A (zh) | 2017-04-14 | 2017-04-14 | 一种服务器故障监控的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710245081.5A CN106959917A (zh) | 2017-04-14 | 2017-04-14 | 一种服务器故障监控的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106959917A true CN106959917A (zh) | 2017-07-18 |
Family
ID=59484241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710245081.5A Pending CN106959917A (zh) | 2017-04-14 | 2017-04-14 | 一种服务器故障监控的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106959917A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112333758A (zh) * | 2020-10-21 | 2021-02-05 | 南京创维信息技术研究院有限公司 | 电视网关系统的稳定性监测管理方法、系统及应用 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102467440A (zh) * | 2010-11-09 | 2012-05-23 | 鸿富锦精密工业(深圳)有限公司 | 内存错误检测系统及方法 |
CN105589776A (zh) * | 2015-12-23 | 2016-05-18 | 华为技术有限公司 | 一种故障定位方法及服务器 |
-
2017
- 2017-04-14 CN CN201710245081.5A patent/CN106959917A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102467440A (zh) * | 2010-11-09 | 2012-05-23 | 鸿富锦精密工业(深圳)有限公司 | 内存错误检测系统及方法 |
CN105589776A (zh) * | 2015-12-23 | 2016-05-18 | 华为技术有限公司 | 一种故障定位方法及服务器 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112333758A (zh) * | 2020-10-21 | 2021-02-05 | 南京创维信息技术研究院有限公司 | 电视网关系统的稳定性监测管理方法、系统及应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI229796B (en) | Method and system to implement a system event log for system manageability | |
US7062676B2 (en) | Method and system for installing program in multiple system | |
CN101567130B (zh) | 一种交通信号控制器的远程故障检测方法及系统 | |
CN102761439B (zh) | Pon接入系统中基于看门狗的异常检测记录装置及方法 | |
TWI529624B (zh) | Method and system of fault tolerance for multiple servers | |
CN112286709B (zh) | 一种服务器硬件故障的诊断方法、诊断装置及诊断设备 | |
CN106598790A (zh) | 一种服务器硬件故障检测方法及其装置和服务器 | |
CN100394394C (zh) | 容错双工计算机系统及其控制方法 | |
JP2017507432A (ja) | 複数のセンサを有する測定システム | |
CN101556679A (zh) | 一种综合前端系统故障处理方法及计算机设备 | |
CN102622279A (zh) | 冗余控制系统、方法及管理控制器 | |
CN112882901B (zh) | 一种分布式处理系统健康状态智能监控器 | |
CN104734904B (zh) | 旁路设备的自动测试方法及系统 | |
US20140059390A1 (en) | Use of service processor to retrieve hardware information | |
CN111831488A (zh) | 具有安全等级设计的tcms-mpu控制单元 | |
CN111488050B (zh) | 一种电源监控方法、系统及服务器 | |
US20060209680A1 (en) | Network link backup system | |
CN113360347A (zh) | 一种服务器及其控制方法 | |
CN116126772A (zh) | 一种应用于arm服务器的uart串口管理系统及方法 | |
CN115878356A (zh) | 磁盘故障预测方法及装置 | |
US20070294600A1 (en) | Method of detecting heartbeats and device thereof | |
CN103178977A (zh) | 计算机系统及计算机系统的开机管理方法 | |
CN106959917A (zh) | 一种服务器故障监控的方法 | |
CN106919490A (zh) | 服务器故障检测方法及装置 | |
US9003068B2 (en) | Service channel for connecting a host computer to peripheral devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170718 |