CN106959917A - 一种服务器故障监控的方法 - Google Patents

一种服务器故障监控的方法 Download PDF

Info

Publication number
CN106959917A
CN106959917A CN201710245081.5A CN201710245081A CN106959917A CN 106959917 A CN106959917 A CN 106959917A CN 201710245081 A CN201710245081 A CN 201710245081A CN 106959917 A CN106959917 A CN 106959917A
Authority
CN
China
Prior art keywords
gpio
management module
cpu
server
pins
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710245081.5A
Other languages
English (en)
Inventor
王建红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Inspur Smart Computing Technology Co Ltd
Original Assignee
Guangdong Inspur Big Data Research Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Inspur Big Data Research Co Ltd filed Critical Guangdong Inspur Big Data Research Co Ltd
Priority to CN201710245081.5A priority Critical patent/CN106959917A/zh
Publication of CN106959917A publication Critical patent/CN106959917A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Hardware Design (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开一种服务器故障监控的方法,涉及服务器管理领域;将系统元器件的特定管脚连接到系统管理模块的GPIO上,当系统元器件的特定管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志;使用本发明方法,只对系统做很少改变,却使系统的管理模块能在系统发生故障的瞬间感知故障,并实时收集故障状态,同时还可以记录下错误发送的顺序,对故障定位提供有效的帮助,提高服务器的可靠性。

Description

一种服务器故障监控的方法
技术领域
本发明公开一种服务器故障监控的方法,涉及服务器管理领域。
背景技术
服务器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。服务器的构成包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。而今在竞争日益激烈的服务器市场中,服务器的可靠性成为越来越重要的指标。服务器出现故障后的停机时间是服务器可靠性的重要组成部分,一般服务器出现故障宕机后,往往需要客服人员手动触发各模块故障状态收集,但常常由于多种因素,导致错误并发造成服务器故障状态被破坏,无法获取有效信息。
为了解决上述问题,本发明提供一种服务器故障监控的方法,使系统的管理模块能在系统发生故障的瞬间感知故障,并实时收集故障状态,同时也可以记录下错误发送的顺序,对故障定位提供有效的帮助,提高服务器的可靠性。
PCH,Platform Controller Hub是intel公司的集成南桥。
GPIO General Purpose I/O通用输入/输出,或总线扩展器,利用工业标准I2C、SMBus或SPI接口简化了I/O口的扩展。当微控制器或芯片组没有足够的I/O端口,或当系统需要采用远端串行通信或控制时,GPIO产品能够提供额外的控制和监视功能。
发明内容
本发明针对目前服务器出现故障宕机后,往往需要客服人员手动触发各模块故障状态收集,但常常由于多种因素,导致错误并发造成服务器故障状态被破坏,无法获取有效信息的问题,提供一种服务器故障监控的方法,对故障定位提供有效的帮助,提高服务器的可靠性。
一种服务器故障监控的方法,将系统元器件的特定管脚连接到系统管理模块的GPIO上,当系统元器件的特定管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志。
所述系统元器件为CPU,将CPU的特定管脚连接到系统管理模块的GPIO上,当系统CPU的特定管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志。
将CPU的caterr管脚连接到管理模块的GPIO上,当系统CPU的caterr管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否发生致命性错误,若为系统发生致命性错误,则收集系统故障状态数据,并记录日志。
还将CPU的ERR管脚连接到管理模块的GPIO上,当系统CPU的ERR管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否发生PCIE错误,若为系统发生PCIE错误,则收集系统故障状态数据,并记录日志。
所述系统元器件还包括PCH,并将PCH的warm reset管脚连接到管理模块的GPIO上,当PCH的warm reset管脚状态发生变化时,管理模块通过与warm reset 管脚相连的GPIO获取系统发生重启信息,判断系统是否为异常重启,若是,则收集系统故障状态数据,并记录日志。
一种服务器故障监控系统,利用所述的方法对服务器系统进行改造而成,将服务器系统元器件的特定管脚连接到系统管理模块的GPIO上;当系统元器件的特定管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志。
所述的元器件为CPU,将CPU的特定管脚连接到系统管理模块的GPIO上。
将系统CPU的caterr管脚和/或ERR管脚连接到管理模块的GPIO上。
所述的元器件还包括PCH,将PCH的warm reset管脚连接到管理模块的GPIO上。
本发明与现有技术相比具有的有益效果是:
本发明提供一种服务器故障监控的方法,将系统元器件的特定管脚连接到系统管理模块的GPIO上,当系统元器件的特定管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志;使用本发明方法,只对系统做很少改变,却使系统的管理模块能在系统发生故障的瞬间感知故障,并实时收集故障状态,同时还可以记录下错误发送的顺序,对故障定位提供有效的帮助,提高服务器的可靠性。
附图说明
图1本发明系统管脚连接示意图;
图2本发明方法流程示意图。
图1中W表示warm reset 管脚,E表示ERR管脚,C表示caterr管脚。
具体实施方式
本发明提供一种服务器故障监控的方法,将系统元器件的特定管脚连接到系统管理模块的GPIO上,当系统元器件的特定管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志。
同时提供一种服务器故障监控的系统,利用上述的方法对服务器系统进行改造而成。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,对本发明进一步详细说明。
利用本发明方法,对服务器系统进行改造,将系统元器件的特定管脚连接到系统管理模块的GPIO上,当系统元器件的特定管脚状态发生变化时,管理模块通过GPIO可以获取系统相应的变化信息,然后判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志;
其中参考图1,将各个CPU的caterr管脚连接到管理模块的GPIO上,当系统caterr管脚状态发生变化时,即系统发生致命性错误时,管理模块通过GPIO感知,则收集CPU等模块故障状态,记录致命错误日志;
同时可将各个CPU的ERR管脚连接到管理模块的GPIO上,当系统ERR管脚状态发生变化时,即系统发生PCIE错误时,管理模块通过GPIO感知,收集CPU等模块故障状态并记录PCIE错误日志;
除将CPU的特定管脚连接到管理模块的GPIO上外,还可将PCH的warm reset管脚连接到管理模块的GPIO上,当系统发生重启时,管理模块通过与warm reset 管脚相连的GPIO感知,并判断是否为异常重启,若是,则收集系统CPU等模块故障状态并记录异常重启日志。
在上述实施例中,在主流错误场景下,即系统异常重启,发生致命错误,发生PCIE错误场景下,系统管理模块可瞬间感知,自动记录故障并收集故障状态,能有效的提高故障定位效率。
除此之外,可根据实际情况选择元器件的特定管脚连接到管理模块的GPIO上,对系统异常情况进行监控,使系统管理模块可瞬间感知,自动记录故障并收集故障状态,能有效的提高故障定位效率。

Claims (9)

1.一种服务器故障监控的方法,其特征在于将系统元器件的特定管脚连接到系统管理模块的GPIO上,当系统元器件的特定管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志。
2.根据权利要求1所述的方法,其特征在于所述系统元器件为CPU,将CPU的特定管脚连接到系统管理模块的GPIO上,当系统CPU的特定管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志。
3.根据权利要求2所述的方法,其特征在于将CPU的caterr管脚连接到管理模块的GPIO上,当系统CPU的caterr管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否发生致命性错误,若为系统发生致命性错误,则收集系统故障状态数据,并记录日志。
4.根据权利要求2或3所述的方法,其特征在于还将CPU的ERR管脚连接到管理模块的GPIO上,当系统CPU的ERR管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否发生PCIE错误,若为系统发生PCIE错误,则收集系统故障状态数据,并记录日志。
5.根据权利要求4所述的方法,其特征在于所述系统元器件还包括PCH,并将PCH的warmreset管脚连接到管理模块的GPIO上,当PCH的warm reset管脚状态发生变化时,管理模块通过与warm reset 管脚相连的GPIO获取系统发生重启信息,判断系统是否为异常重启,若是,则收集系统故障状态数据,并记录日志。
6.一种服务器故障监控系统,其特征在于利用权利要求1至5任一所述的方法对服务器系统进行改造而成,将服务器系统元器件的特定管脚连接到系统管理模块的GPIO上;当系统元器件的特定管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志。
7.根据权利要求6所述的系统,其特征在于所述的元器件为CPU,将CPU的特定管脚连接到系统管理模块的GPIO上。
8.根据权利要求7所述的系统,其特征在于将系统CPU的caterr管脚和/或ERR管脚连接到管理模块的GPIO上。
9.根据权利要求6-8所述的系统,其特征在于所述的元器件还包括PCH,将PCH的warmreset管脚连接到管理模块的GPIO上。
CN201710245081.5A 2017-04-14 2017-04-14 一种服务器故障监控的方法 Pending CN106959917A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710245081.5A CN106959917A (zh) 2017-04-14 2017-04-14 一种服务器故障监控的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710245081.5A CN106959917A (zh) 2017-04-14 2017-04-14 一种服务器故障监控的方法

Publications (1)

Publication Number Publication Date
CN106959917A true CN106959917A (zh) 2017-07-18

Family

ID=59484241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710245081.5A Pending CN106959917A (zh) 2017-04-14 2017-04-14 一种服务器故障监控的方法

Country Status (1)

Country Link
CN (1) CN106959917A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112333758A (zh) * 2020-10-21 2021-02-05 南京创维信息技术研究院有限公司 电视网关系统的稳定性监测管理方法、系统及应用

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102467440A (zh) * 2010-11-09 2012-05-23 鸿富锦精密工业(深圳)有限公司 内存错误检测系统及方法
CN105589776A (zh) * 2015-12-23 2016-05-18 华为技术有限公司 一种故障定位方法及服务器

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102467440A (zh) * 2010-11-09 2012-05-23 鸿富锦精密工业(深圳)有限公司 内存错误检测系统及方法
CN105589776A (zh) * 2015-12-23 2016-05-18 华为技术有限公司 一种故障定位方法及服务器

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112333758A (zh) * 2020-10-21 2021-02-05 南京创维信息技术研究院有限公司 电视网关系统的稳定性监测管理方法、系统及应用

Similar Documents

Publication Publication Date Title
TWI229796B (en) Method and system to implement a system event log for system manageability
US7062676B2 (en) Method and system for installing program in multiple system
CN101567130B (zh) 一种交通信号控制器的远程故障检测方法及系统
CN102761439B (zh) Pon接入系统中基于看门狗的异常检测记录装置及方法
TWI529624B (zh) Method and system of fault tolerance for multiple servers
CN112286709B (zh) 一种服务器硬件故障的诊断方法、诊断装置及诊断设备
CN106598790A (zh) 一种服务器硬件故障检测方法及其装置和服务器
CN100394394C (zh) 容错双工计算机系统及其控制方法
JP2017507432A (ja) 複数のセンサを有する測定システム
CN101556679A (zh) 一种综合前端系统故障处理方法及计算机设备
CN102622279A (zh) 冗余控制系统、方法及管理控制器
CN112882901B (zh) 一种分布式处理系统健康状态智能监控器
CN104734904B (zh) 旁路设备的自动测试方法及系统
US20140059390A1 (en) Use of service processor to retrieve hardware information
CN111831488A (zh) 具有安全等级设计的tcms-mpu控制单元
CN111488050B (zh) 一种电源监控方法、系统及服务器
US20060209680A1 (en) Network link backup system
CN113360347A (zh) 一种服务器及其控制方法
CN116126772A (zh) 一种应用于arm服务器的uart串口管理系统及方法
CN115878356A (zh) 磁盘故障预测方法及装置
US20070294600A1 (en) Method of detecting heartbeats and device thereof
CN103178977A (zh) 计算机系统及计算机系统的开机管理方法
CN106959917A (zh) 一种服务器故障监控的方法
CN106919490A (zh) 服务器故障检测方法及装置
US9003068B2 (en) Service channel for connecting a host computer to peripheral devices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170718