CN106815119A - 服务器的硬件监控装置 - Google Patents

服务器的硬件监控装置 Download PDF

Info

Publication number
CN106815119A
CN106815119A CN201611184837.1A CN201611184837A CN106815119A CN 106815119 A CN106815119 A CN 106815119A CN 201611184837 A CN201611184837 A CN 201611184837A CN 106815119 A CN106815119 A CN 106815119A
Authority
CN
China
Prior art keywords
status data
data
server
monitoring device
status
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611184837.1A
Other languages
English (en)
Inventor
曹瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Beijing Co Ltd
Original Assignee
Dawning Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN201611184837.1A priority Critical patent/CN106815119A/zh
Publication of CN106815119A publication Critical patent/CN106815119A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种服务器的硬件监控装置,该服务器的硬件监控装置包括:通过服务器的操作系统获取CPU的状态数据、内存的状态数据、硬盘的状态数据的第一获取模块;通过BMC获取主板状态数据、风扇状态数据、电源状态数据、和温度状态数据的第二获取模块;以及处理及报警模块,用于根据需要对CPU的状态数据、内存的状态数据、硬盘的状态数据、主板状态数据、风扇状态数据、电源状态数据、和温度状态数据进行监控,并当其中的任意一种出现故障时进行报警。能够实现远程获取服务器的硬件状态,从而有效降低人工巡检强度;同时能够更为即时地发现服务器故障,并可以准确的对故障硬件进行定位,进而提高了维修效率。

Description

服务器的硬件监控装置
技术领域
本发明涉及服务器技术领域,具体来说,涉及一种服务器的硬件监控装置。
背景技术
在现代数据中心(Internet DataCenter,IDC)中,服务器节点的数量越来越多,相应的运维工作负担也越来越重,如何能够更早更准确的发现服务器存在的硬件问题,成为了保证数据中心业务正常运转的首要问题。
现有的对服务器进行监控的方法是,IDC的运维人员需要每隔一段时间到机房去巡检一次,以便于及时的发现问题,但是,机房巡检也只能通过服务器的指示灯去观察硬件的状态,一些隐藏的问题(例如,内存可修正错误导致CPU性能下降)是无法发现的。
现有技术中的另外一种对服务器进行监控的方法是,为服务器统一提供一种BMC(Baseboard Management Controller,基板管理控制器)机制去获取硬件健康状态,但是BMC无法获取服务器所有硬件的状态。
针对相关技术中的上述问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的上述问题,本发明提出一种服务器的硬件监控装置,能够远程对服务器的硬件状态进行监控,从而有效降低人工巡检强度。
本发明的技术方案是这样实现的:
根据本发明的一个方面,提供了一种服务器的硬件监控装置,包括:第一获取模块,用于通过服务器的操作系统获取CPU的状态数据、内存的状态数据、硬盘的状态数据;第二获取模块,用于通过BMC获取主板状态数据、风扇状态数据、电源状态数据、和温度状态数据;以及处理及报警模块,连接于第一获取模块和第二获取模块,用于根据需要对CPU的状态数据、内存的状态数据、硬盘的状态数据、主板状态数据、风扇状态数据、电源状态数据、和温度状态数据进行监控,还用于当其中的任意一种超出相应的设定阈值时判断对应的硬件出现故障并进行报警。
根据本发明的一个实施例,第一获取模块包括:CPU及内存数据获取单元,用于通过MCE机制获取CPU的状态数据和内存的状态数据。
根据本发明的一个实施例,CPU的状态数据包括TLB状态数据、Cache状态数据、和总线状态数据;当TLB状态数据、Cache状态数据、和总线状态数据之中的任意一种发生故障时,处理及报警模块进行报警。
根据本发明的一个实施例,第一获取模块包括硬盘数据获取单元;其中,硬盘的状态数据包括SMART信息。
根据本发明的一个实施例,硬盘包括RAID卡;以及硬盘的状态数据包括RAID卡的芯片状态数据、RAID卡的缓存状态数据、RAID卡的温度状态数据、和RAID卡的链路状态数据;其中,硬盘数据获取单元通过RAID卡工具获取RAID卡的芯片状态数据、RAID卡的缓存状态数据、RAID卡的温度状态数据、和RAID卡的链路状态数据。
根据本发明的一个实施例,RAID卡的链路状态数据包括Invalid DWORD count指标,当Invalid DWORD count指标在运行期间出现上涨时,处理及报警模块进行报警。
根据本发明的一个实施例,温度状态数据包括:CPU温度数据、内存温度数据、服务器环境温度数据、服务器出风口温度数据、和BMC温度数据。
根据本发明的一个实施例,内存的状态数据包括内存可修正错误发生的次数和内存不可修正错误发生的次数;当内存不可修正错误发生的次数在1次以上时,处理及报警模块进行报警;当24小时内内存可修正错误发生的次数在1次以上时,处理及报警模块进行报警。
根据本发明的一个实施例,RAID卡的缓存状态数据包括缓存可修正错误发生的次数和缓存不可修正错误发生的次数;当缓存不可修正错误发生的次数在1次以上时,处理及报警模块进行报警;当24小时内缓存可修正错误发生的次数在1次以上时,处理及报警模块进行报警。
根据本发明的一个实施例,服务器的操作系统为Linux操作系统。
本发明能够实现通过计算机远程获取服务器的硬件状态,从而有效降低人工巡检强度;同时能够更为即时地发现服务器故障,并可以准确的对故障硬件进行定位,进而提高了维修效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的服务器的硬件监控装置的框图;
图2是根据本发明实施例的服务器的硬件监控装置对CPU和内存进行监控的流程图;
图3是根据本发明实施例的服务器的硬件监控装置对硬盘进行监控的流程图;
图4是根据本发明实施例的服务器的硬件监控装置的RAID卡工具获取RAID卡数据的示意图;
图5是根据本发明实施例的服务器的硬件监控装置的通过BMC进行监控的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的实施例,提供了一种服务器的硬件监控装置。
如图1所示,根据本发明实施例的服务器的硬件监控装置包括:第一获取模块10、第二获取模块20、和连接于所述第一获取模块10和所述第二获取模块20的处理及报警模块30;其中,第一获取模块10用于通过服务器的操作系统获取CPU的状态数据、内存的状态数据、硬盘的状态数据;第二获取模块20用于通过BMC(Baseboard Management Controller,基板管理控制器)获取主板状态数据、风扇状态数据、电源状态数据、和温度状态数据;处理及报警模块30用于根据需要对CPU的状态数据、内存的状态数据、硬盘的状态数据、主板状态数据、风扇状态数据、电源状态数据、和温度状态数据进行监控,当其中的任意一种超出相应的设定阈值时,则处理及报警模块30判断对应的硬件出现故障并进行报警。
通过本发明的上述技术方案,使得运维人员能够实现通过计算机远程获取服务器的硬件状态,从而有效降低人工巡检强度;同时能够更为即时地发现服务器故障,并可以准确的对故障硬件进行定位,进而提高了维修效率。
在一个实施例中,服务器的操作系统为Linux操作系统。
在一个实施例中,第一获取模块10可以包括CPU及内存数据获取单元11,用于通过MCE(Machine Check Exception)机制获取CPU的状态数据和内存的状态数据,MCE机制是英特尔CPU中用于获取CPU和内存健康状态的一种机制。具体地,结合图2所示,CPU及内存数据获取单元11可利用英特尔CPU提供的MCE机制,通过读取CPU中的一组寄存器的数值并对这些数值进行翻译,从而获得CPU和内存控制器的健康状态。
其中,CPU的状态数据包括TLB(Translation Lookaside Buffer,翻译后备缓冲器)状态数据、Cache(高速缓冲存储器)状态数据、和总线(BUS)状态数据;当TLB状态数据、Cache状态数据、和总线状态数据之中的任意一种发生故障时,处理及报警模块30进行报警。即本发明的服务器的硬件监控装置可以监控TLB、Cache、总线三类硬件故障,三类硬件故障报警的规则为只要发生一次,则立刻触发报警。
进一步地,内存的状态数据包括内存可修正错误发生的次数和内存不可修正错误发生的次数;当内存不可修正错误发生的次数在1次以上时,处理及报警模块30进行报警;当24小时内内存可修正错误发生的次数在1次以上时,处理及报警模块30进行报警。即本发明针对内存,主要监控内存可修正错误发生的次数和内存不可修正错误发生的次数。处理及报警模块30针对内存的故障报警规则为:内存可修正错误在24小时内如果发生的次数超过1次则触发报警,内存不可修正错误只要发生1次就触发报警。
在一个实施例中,第一获取模块10包括硬盘数据获取单元12;其中硬盘的状态数据包括SMART信息。结合图3所示,硬盘的健康状态获取主要来源于硬盘内部的SMART信息。SMART信息能够提供一组数据来表明硬盘的当前状态。本发明通过解析SMART信息来确定硬盘是否存在故障。
在一个实施例中,硬盘包括RAID(Redundant Arrays of Independent Disks,磁盘阵列)卡;以及硬盘的状态数据包括RAID卡的芯片状态数据、RAID卡的缓存状态数据、RAID卡的温度状态数据、和RAID卡的链路状态数据;其中,硬盘数据获取单元12通过RAID卡工具获取RAID卡的芯片状态数据、RAID卡的缓存状态数据、RAID卡的温度状态数据、和RAID卡的链路状态数据。
进一步地,RAID卡的链路状态数据包括Invalid DWORD count指标,当InvalidDWORD count指标在运行期间出现上涨时,处理及报警模块30进行报警。如图4所示,对于RAID卡,可以使用RAID卡厂商提供的RAID卡监控工具(例如storcli工具)来获取RAID卡的状态数据。使用本发明可以监控RAID卡的芯片状态、缓存状态、温度状态以及链路状态。其中,RAID卡的链路状态数据包括SMART信息中用于监控链路状态的4个指标:Invalid DWORDcount,Running disparity error count,Loss of DWORD synchronization,Phy resetproblem,该4个指标若出现上涨则存在链路故障的风险。其中Invalid DWORD count为最重要指标,在本发明中其阈值为:从监控运行开始到当前时间该指标不能出现上涨。
在一个实施例中,RAID卡的缓存状态数据包括缓存可修正错误发生的次数和缓存不可修正错误发生的次数;当缓存不可修正错误发生的次数在1次以上时,处理及报警模块30进行报警;当24小时缓存可修正错误发生的次数在1次以上时,处理及报警模块30进行报警。具体地,可通过RAID卡厂商提供的RAID卡监控工具获取到RAID卡的缓存状态数据出错类型和相应的次数。出错类型分为可修正错误和不可修正错误。可以通过设定阈值的方式来出发故障报警。对于可修正错误,阈值为每24小时超过1次报警。对于不可修正错误,阈值为只要发生就立刻报警。
另外,还可以通过RAID卡监控工具获取RAID卡的温度状态数据,进而通过将RAID卡的温度状态数据与其对应的阈值进行比较,并在超出其对应的阈值时进行报警。在本实施例中,RAID卡的温度状态数据对应的阈值设定为100℃。
如图1和图5所示,可以通过BMC获取主板状态数据、风扇状态数据、电源状态数据、和温度状态数据。可以使用BMC监控工具,例如ipmitool工具(一种可用在Linux系统下的管理工具),来获取BMC各个传感器的数值。通过对这些传感器数值进行分析,从而确定主板、风扇、电源等硬件是否正常工作。其中,第二获取模块20可以包括用于获取主板状态数据的主板数据获取单元21、用于获取风扇状态数据的风扇数据获取单元22、用于获取温度状态数据的温度数据获取单元23、和用于获取电源状态数据的电源数据获取单元24。
具体地,温度状态数据可以包括:CPU温度数据、内存温度数据、服务器环境温度数据、服务器出风口温度数据、和BMC温度数据。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种服务器的硬件监控装置,其特征在于,包括:
第一获取模块,用于通过服务器的操作系统获取CPU的状态数据、内存的状态数据、硬盘的状态数据;
第二获取模块,用于通过BMC获取主板状态数据、风扇状态数据、电源状态数据、和温度状态数据;以及
处理及报警模块,连接于所述第一获取模块和所述第二获取模块,用于根据需要对所述CPU的状态数据、内存的状态数据、硬盘的状态数据、主板状态数据、风扇状态数据、电源状态数据、和温度状态数据进行监控,还用于当其中的任意一种超出相应的设定阈值时判断对应的硬件出现故障并进行报警。
2.根据权利要求1所述的服务器的硬件监控装置,其特征在于,所述第一获取模块包括:
CPU及内存数据获取单元,用于通过MCE机制获取CPU的状态数据和内存的状态数据。
3.根据权利要求2所述的服务器的硬件监控装置,其特征在于,所述CPU的状态数据包括TLB状态数据、Cache状态数据、和总线状态数据;
当所述TLB状态数据、所述Cache状态数据、和所述总线状态数据之中的任意一种发生故障时,所述处理及报警模块进行报警。
4.根据权利要求1所述的服务器的硬件监控装置,其特征在于,
所述第一获取模块包括硬盘数据获取单元;
其中,所述硬盘的状态数据包括SMART信息。
5.根据权利要求4所述的服务器的硬件监控装置,其特征在于,
所述硬盘包括RAID卡;以及
所述硬盘的状态数据包括RAID卡的芯片状态数据、RAID卡的缓存状态数据、RAID卡的温度状态数据、和RAID卡的链路状态数据;
其中,硬盘数据获取单元通过RAID卡工具获取所述RAID卡的芯片状态数据、所述RAID卡的缓存状态数据、所述RAID卡的温度状态数据、和所述RAID卡的链路状态数据。
6.根据权利要求5所述的服务器的硬件监控装置,其特征在于,所述RAID卡的链路状态数据包括Invalid DWORD count指标,当所述Invalid DWORD count指标在运行期间出现上涨时,所述处理及报警模块进行报警。
7.根据权利要求1所述的服务器的硬件监控装置,其特征在于,
所述温度状态数据包括:CPU温度数据、内存温度数据、服务器环境温度数据、服务器出风口温度数据、和BMC温度数据。
8.根据权利要求2所述的服务器的硬件监控装置,其特征在于,
所述内存的状态数据包括内存可修正错误发生的次数和内存不可修正错误发生的次数;
当所述内存不可修正错误发生的次数在1次以上时,所述处理及报警模块进行报警;
当24小时内所述内存可修正错误发生的次数在1次以上时,所述处理及报警模块进行报警。
9.根据权利要求5所述的服务器的硬件监控装置,其特征在于,
RAID卡的缓存状态数据包括缓存可修正错误发生的次数和缓存不可修正错误发生的次数;
当所述缓存不可修正错误发生的次数在1次以上时,所述处理及报警模块进行报警;
当24小时内所述所述缓存可修正错误发生的次数在1次以上时,所述处理及报警模块进行报警。
10.根据权利要求1-9任一项所述的服务器的硬件监控装置,其特征在于,所述服务器的操作系统为Linux操作系统。
CN201611184837.1A 2016-12-20 2016-12-20 服务器的硬件监控装置 Pending CN106815119A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611184837.1A CN106815119A (zh) 2016-12-20 2016-12-20 服务器的硬件监控装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611184837.1A CN106815119A (zh) 2016-12-20 2016-12-20 服务器的硬件监控装置

Publications (1)

Publication Number Publication Date
CN106815119A true CN106815119A (zh) 2017-06-09

Family

ID=59109790

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611184837.1A Pending CN106815119A (zh) 2016-12-20 2016-12-20 服务器的硬件监控装置

Country Status (1)

Country Link
CN (1) CN106815119A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832194A (zh) * 2017-11-16 2018-03-23 郑州云海信息技术有限公司 一种基于板载bmc的服务器故障检测系统和方法
CN107943654A (zh) * 2017-11-24 2018-04-20 郑州云海信息技术有限公司 一种快速判定服务器环境温度监控异常原因的方法
CN108228422A (zh) * 2017-12-29 2018-06-29 佛山市幻云科技有限公司 存储型服务器管理系统与方法
CN108880916A (zh) * 2018-08-21 2018-11-23 郑州云海信息技术有限公司 一种基于iic总线的故障定位方法及系统
CN108897667A (zh) * 2018-07-25 2018-11-27 郑州云海信息技术有限公司 一种内存过热报警方法、装置及设备
CN108959033A (zh) * 2018-07-05 2018-12-07 郑州云海信息技术有限公司 一种cpu监控预警管理系统及方法
CN109165174A (zh) * 2018-08-16 2019-01-08 郑州云海信息技术有限公司 一种硬件信息采集方法、系统及电子设备和存储介质
CN109324945A (zh) * 2018-09-07 2019-02-12 郑州云海信息技术有限公司 一种bmc读取raid卡温度时间自动获取方法及系统
CN109460340A (zh) * 2018-10-22 2019-03-12 重庆电子工程职业学院 计算机硬件监控方法及装置
CN109933489A (zh) * 2019-03-08 2019-06-25 国网福建省电力有限公司 应用于类unix系统的硬件监控体系
WO2019128673A1 (zh) * 2017-12-29 2019-07-04 华为技术有限公司 硬盘闪断的处理方法、装置、设备和存储介质
CN111274098A (zh) * 2018-12-05 2020-06-12 杭州海康威视数字技术股份有限公司 一种基于IoT的存储设备报警方法及装置
CN111694705A (zh) * 2019-03-15 2020-09-22 北京沃东天骏信息技术有限公司 监控方法、装置、设备及计算机可读存储介质
CN112286766A (zh) * 2020-11-02 2021-01-29 深圳市巨文科技有限公司 一种硬件故障报警系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887386A (zh) * 2010-06-02 2010-11-17 深圳市迪菲特科技股份有限公司 一种磁盘阵列控制器故障处理方法及系统
CN103198000A (zh) * 2013-04-02 2013-07-10 浪潮电子信息产业股份有限公司 一种linux系统下的故障内存位置定位方法
CN104639380A (zh) * 2013-11-07 2015-05-20 英业达科技有限公司 服务器监控方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887386A (zh) * 2010-06-02 2010-11-17 深圳市迪菲特科技股份有限公司 一种磁盘阵列控制器故障处理方法及系统
CN103198000A (zh) * 2013-04-02 2013-07-10 浪潮电子信息产业股份有限公司 一种linux系统下的故障内存位置定位方法
CN104639380A (zh) * 2013-11-07 2015-05-20 英业达科技有限公司 服务器监控方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832194A (zh) * 2017-11-16 2018-03-23 郑州云海信息技术有限公司 一种基于板载bmc的服务器故障检测系统和方法
CN107943654A (zh) * 2017-11-24 2018-04-20 郑州云海信息技术有限公司 一种快速判定服务器环境温度监控异常原因的方法
WO2019128673A1 (zh) * 2017-12-29 2019-07-04 华为技术有限公司 硬盘闪断的处理方法、装置、设备和存储介质
CN108228422A (zh) * 2017-12-29 2018-06-29 佛山市幻云科技有限公司 存储型服务器管理系统与方法
CN108959033A (zh) * 2018-07-05 2018-12-07 郑州云海信息技术有限公司 一种cpu监控预警管理系统及方法
CN108897667A (zh) * 2018-07-25 2018-11-27 郑州云海信息技术有限公司 一种内存过热报警方法、装置及设备
CN109165174A (zh) * 2018-08-16 2019-01-08 郑州云海信息技术有限公司 一种硬件信息采集方法、系统及电子设备和存储介质
CN108880916A (zh) * 2018-08-21 2018-11-23 郑州云海信息技术有限公司 一种基于iic总线的故障定位方法及系统
CN108880916B (zh) * 2018-08-21 2021-06-29 郑州云海信息技术有限公司 一种基于iic总线的故障定位方法及系统
CN109324945A (zh) * 2018-09-07 2019-02-12 郑州云海信息技术有限公司 一种bmc读取raid卡温度时间自动获取方法及系统
CN109460340A (zh) * 2018-10-22 2019-03-12 重庆电子工程职业学院 计算机硬件监控方法及装置
CN111274098A (zh) * 2018-12-05 2020-06-12 杭州海康威视数字技术股份有限公司 一种基于IoT的存储设备报警方法及装置
CN111274098B (zh) * 2018-12-05 2023-10-10 杭州海康威视数字技术股份有限公司 一种基于IoT的存储设备报警方法及装置
CN109933489A (zh) * 2019-03-08 2019-06-25 国网福建省电力有限公司 应用于类unix系统的硬件监控体系
CN111694705A (zh) * 2019-03-15 2020-09-22 北京沃东天骏信息技术有限公司 监控方法、装置、设备及计算机可读存储介质
CN112286766A (zh) * 2020-11-02 2021-01-29 深圳市巨文科技有限公司 一种硬件故障报警系统

Similar Documents

Publication Publication Date Title
CN106815119A (zh) 服务器的硬件监控装置
CN101833497B (zh) 一种基于专家系统方法的计算机故障管理系统
CN105589776B (zh) 一种故障定位方法及服务器
US9298651B2 (en) Continuous in-memory accumulation of hardware performance counter data
US6012148A (en) Programmable error detect/mask utilizing bus history stack
CN103198000A (zh) 一种linux系统下的故障内存位置定位方法
CN103500133A (zh) 故障定位方法及装置
CN106936616A (zh) 备份通信方法和装置
CN103809147A (zh) 一种交流电表故障自诊断方法
CN106708707A (zh) 一种基于服务器架构的服务器监控系统
CN106126368A (zh) 一种linux下内存故障地址解析的方法
JP2010205194A (ja) 制御回路、情報処理装置及び情報処理装置の制御方法
CN105183593A (zh) 一种基于国产计算机自检测的系统及方法
CN107943654A (zh) 一种快速判定服务器环境温度监控异常原因的方法
JP2008176477A (ja) 計算機システム
Chatzidimitriou et al. Healthlog monitor: A flexible system-monitoring linux service
CN116185917A (zh) 一种分布式系统智能处理及接口控制单元架构
EP3121728B1 (en) System and method for remotely debugging a device
Narayanan et al. Towards' integrated'monitoring and management of DataCenters using complex event processing techniques
US10846162B2 (en) Secure forking of error telemetry data to independent processing units
JP2005135063A (ja) 情報処理装置及び情報処理装置の時計異常検出プログラム
CN107451028A (zh) 错误状态储存方法及服务器
CN117687859B (zh) PCIe设备的异常检测设备、系统、服务器、方法
CN201966918U (zh) 一种用于光纤通道链路状态的统计电路
CN101866312A (zh) 基于动态i/o值不变式的硬件故障检测系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170609