CN105389244A - 一种服务器监控方法及装置 - Google Patents

一种服务器监控方法及装置 Download PDF

Info

Publication number
CN105389244A
CN105389244A CN201510746566.3A CN201510746566A CN105389244A CN 105389244 A CN105389244 A CN 105389244A CN 201510746566 A CN201510746566 A CN 201510746566A CN 105389244 A CN105389244 A CN 105389244A
Authority
CN
China
Prior art keywords
monitoring
server
status information
data processing
processing module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510746566.3A
Other languages
English (en)
Other versions
CN105389244B (zh
Inventor
王恩东
胡雷钧
黄家明
乔英良
李冠广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201510746566.3A priority Critical patent/CN105389244B/zh
Publication of CN105389244A publication Critical patent/CN105389244A/zh
Application granted granted Critical
Publication of CN105389244B publication Critical patent/CN105389244B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Abstract

本发明公开了一种服务器监控方法及装置,该方法包括:实时监控服务器中每个机箱中各子设备的状态信息,作为数据信息;数据处理模块分别获取对应每个机箱中的所述数据信息,并将所述数据信息统一保存在内部缓存中,对控制中心提供信息访问接口;所述控制中心获取各所述数据处理模块保存的所述数据信息,对所述服务器进行实时监控以及故障监测。本发明所提供的服务器监控方法及装置,提高了服务器对内部计算节点、存储节点、交换机模块、风扇等各子设备的监控的实时性,能够及时有效地处理检测设备故障,提高了服务器的可用性和可靠性。

Description

一种服务器监控方法及装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种服务器监控方法及装置。
背景技术
随着用户对计算需求的提高,用户对单台计算机的计算性能要求也随之越来越高。64路服务器在计算性能和可靠性上,与传统服务器相比具有很大的优势,并在对实时性、可靠性和可用性要求苛刻的领域中应用越来越广泛。64路服务器在机柜内部集成计算节点、存储节点、交换机模块、信息采集器模块、CC模块、PCIE设备、风扇和电源等设备。计算节点、存储节点、交换机模块、信息采集器模块、CC模块、PCIE设备、风扇和电源等设备都有自身的FW,可以进行自身设备的监控。
由于64路服务器内部设备繁多,设备的接口和通信协议各不相同,采用传统服务器的一级监控架构,由BMC监控管理64路服务器内部所有设备的信息,无论从时间上还是管理的复杂度上都不能不能满足机柜服务器的监控的要求。
因此,提供一种服务器监控方法及装置是非常有必要的。
发明内容
本发明的目的是提供一种服务器监控方法及装置,以及时有效地检测到设备故障,并及时处理节点故障。
为解决上述技术问题,本发明提供一种服务器监控方法,包括:
实时监控服务器中每个机箱中各子设备的状态信息,作为数据信息;
数据处理模块分别获取对应每个机箱中的所述数据信息,并将所述数据信息统一保存在内部缓存中,对控制中心提供信息访问接口;
所述控制中心获取各所述数据处理模块保存的所述数据信息,对所述服务器进行实时监控以及故障监测。
可选地,所述实时监控服务器中每个机箱中各子设备的状态信息,作为数据信息包括:
实时监控服务器每个机箱中各计算节点的状态信息、各存储节点的状态信息、各风扇的状态信息、各交换机的状态信息以及电源信息的状态信息,作为所述数据信息,并将监控得到的所述数据信息保存在内部缓存供所述数据处理模块进行数据访问。
本发明还提供了一种服务器监控装置,包括:
监控模块,用于实时监控服务器中每个机箱中各子设备的状态信息,作为数据信息;
数据处理模块,用于分别获取对应每个机箱中的所述数据信息,并将所述数据信息统一保存在内部缓存中,对控制中心提供信息访问接口;
控制中心,用于获取各所述数据处理模块保存的所述数据信息,对所述服务器进行实时监控以及故障监测。
可选地,所述监控模块包括:
第一监控单元,用于监控所述服务器中各计算节点的状态,并将得到的计算节点的状态信息保存在内部缓存供所述数据处理模块进行数据访问;
第二监控单元,用于监控所述服务器中各存储节点的状态,并将得到的存储节点的状态信息保存在内部缓存供所述数据处理模块进行数据访问;
第三监控单元,用于监控所述服务器中各风扇的风扇信息;
第四监控单元,用于监控所述服务器中各交换机的状态信息;
第五监控单元,用于监控所述服务器中电源模块的状态信息。
可选地,第三监控单元通过I2C总线与所述数据处理模块相连。
可选地,所述第一监控单元、第二监控单元通过IPMB总线或网线与所述数据处理模块相连。
可选地,所述电源模块通过I2C与所述数据处理模块相连。
可选地,所述控制中心通过网线与所述数据处理模块相连。
本发明所提供的服务器监控方法及装置,通过实时监控服务器每个机箱中各子设备的状态信息,作为数据信息;数据处理模块分别获取对应每个机箱中的数据信息,并将数据信息统一保存在内部缓存中,对控制中心提供信息访问接口;控制中心获取各数据处理模块保存的数据信息,对所述服务器进行实时监控以及故障监测。本发明所提供的服务器监控方法及装置,提高了服务器对内部计算节点、存储节点、交换机模块、风扇等各子设备的监控的实时性,能够及时有效地处理检测设备故障,提高了服务器的可用性和可靠性。
附图说明
图1为本发明所提供的服务器监控方法的一种具体实施方式的流程图;
图2为本发明所提供的服务器监控装置的一种具体实施方式的结构框图;
图3为本发明所提供的服务器监控装置的另一种具体实施方式的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明所提供的服务器监控方法的一种具体实施方式的流程图如图1所示,该方法包括:
步骤S101:实时监控服务器中每个机箱中各子设备的状态信息,作为数据信息;
上述步骤可以具体为:实时监控服务器每个机箱中各计算节点的状态信息、各存储节点的状态信息、各风扇的状态信息、各交换机的状态信息以及电源信息的状态信息,作为所述数据信息,并将监控得到的所述数据信息保存在内部缓存供所述数据处理模块进行数据访问。需要指出的是,本实施例中监控的数据信息包括但不限于:服务器每个机箱中各计算节点的状态信息、各存储节点的状态信息、各风扇的状态信息、各交换机的状态信息以及电源信息的状态信息。还可以对其他数据信息监控,这均不影响本发明的实现。
步骤S102:数据处理模块分别获取对应每个机箱中的所述数据信息,并将所述数据信息统一保存在内部缓存中,对控制中心提供信息访问接口;
步骤S103:控制中心获取各所述数据处理模块保存的所述数据信息,对所述服务器进行实时监控以及故障监测。
本发明所提供的服务器监控方法,通过实时监控服务器每个机箱中各子设备的状态信息,作为数据信息;数据处理模块分别获取对应每个机箱中的数据信息,并将数据信息统一保存在内部缓存中,对控制中心提供信息访问接口;控制中心获取各数据处理模块保存的数据信息,对所述服务器进行实时监控以及故障监测。本发明所提供的服务器监控方法,提高了服务器对内部计算节点、存储节点、交换机模块、风扇等各子设备的监控的实时性,能够及时有效地处理检测设备故障,提高了服务器的可用性和可靠性。
与上述方法相对应,本发明还提供了一种服务器监控装置,如图2本发明所提供的服务器监控装置的一种具体实施方式的结构框图所示,该装置包括:
监控模块100,用于实时监控服务器中每个机箱中各子设备的状态信息,作为数据信息;
该监控模块100可以具体包括:
第一监控单元,用于监控所述服务器中各计算节点的状态,并将得到的计算节点的状态信息保存在内部缓存供所述数据处理模块进行数据访问;
第二监控单元,用于监控所述服务器中各存储节点的状态,并将得到的存储节点的状态信息保存在内部缓存供所述数据处理模块进行数据访问;
第三监控单元,用于监控所述服务器中各风扇的风扇信息;
第四监控单元,用于监控所述服务器中各交换机的状态信息;
第五监控单元,用于监控所述服务器中电源模块的状态信息。
数据处理模块200,用于分别获取对应每个机箱中的所述数据信息,并将所述数据信息统一保存在内部缓存中,对控制中心提供信息访问接口;
控制中心300,用于获取各所述数据处理模块保存的所述数据信息,对所述服务器进行实时监控以及故障监测。
本发明所提供的服务器监控装置,通过实时监控服务器每个机箱中各子设备的状态信息,作为数据信息;数据处理模块分别获取对应每个机箱中的数据信息,并将数据信息统一保存在内部缓存中,对控制中心提供信息访问接口;控制中心获取各数据处理模块保存的数据信息,对所述服务器进行实时监控以及故障监测。本发明所提供的服务器监控装置,提高了服务器对内部计算节点、存储节点、交换机模块、风扇等各子设备的监控的实时性,能够及时有效地处理检测设备故障,提高了服务器的可用性和可靠性。
64路服务器内部设备复杂多变,机柜信息采集器、交换机模块、CC模块、计算节点、风扇、PCIE设备、电源和存储节点等设备繁多,传统的BMC监控不能满足64路服务器的监控的需求。以64路服务器为例,本发明所提供的服务器监控装置的另一种具体实施方式的示意图如图3所示。
在本实施例中,第一监控单元、第二监控单元分别由BMC和EMC按照传统机柜的方式,分别对计算节点和存储节点进行监控,数据处理模块由SMC来实现,控制中心体由RMC实现。
具体方法为:
BMC用于监控计算节点的信息状态,将监控数据保存在内部缓存中,供SMC进行数据访问。EMC用于监控存储节点状态,将监控数据保存在内部缓存中,供SMC进行数据访问。
SMC通过BMC获取计算节点的状态信息,通过EMC获取存储节点的状态信息,并访问与机箱内部的风扇控制板获取风扇信息,并进行风扇转速控制。访问交换机模块获取交换机状态信息和故障信息,访问CC模块获取CC模块故障信息和状态信息,访问电源模块获取电源的状态信息和故障信息。并最终将计算节点、存储节点、交换机、CC模块、电源和风扇信息提供统一接口供RMC进行数据访问。
RMC通过SMC获取64路服务器内部计算节点、存储节点、风扇、交换机模块、CC模块和电源信息,并轮询直接与RMC直接相连的风扇、信息采集器和电源信息,对外提供统一的接口,实现对64路服务器信息的监控。
具体地,可按照机箱进行划分,每个机箱有4个4路计算节点、风扇、电源、CC模块和交换机模块。SMC进行机箱内部设备的监控,并对RMC提供信息访问接口,SMC模块对用户不可见。计算节点内部BMC如同传统服务器BMC,进行64路服务器计算节点信息的监控,并SMC提供访问接口,直接供SMC进行访问。EMC进行64路服务器内部存储模块数据的监控,并SMC提供访问接口。其中BMC和EMC为64路内部监控模块,对用户不可见。
将64路服务器内部分为不同的机箱。每个机箱都有SMC作为机箱内部设备的二级监控,机箱内部的风扇控制板通过I2C总线连接到SMC上,同时BMC和EMC通过IPMB总线或者网络连接到SMC上。CC模块和交换机模块通过网络连接到SMC上。电源模块通过I2C连接到SMC上。SMC访问机箱内部上的风扇、电源、交换机、CC模块、计算节点信息和存储节点信息,同时将这些信息提供统一接口供RMC进行访问。
RMC作为机柜的监控中心,通过I2C总线连接到RMC供电的电源模块,通过网线连接到SMC和信息采集模块。通过I2C获取电源模块故障信息和状态信息。通过访问SMC获取Tray上风扇、电源、交换机、CC模块、计算节点信息和存储节点信息。访问信息采集模块获取机柜温度信息。
综上,本发明所提供的服务器监控方法及装置,通过64路服务器三级监控架构,用户通过访问RMC获取64路服务器所有监控信息,如同访问传统服务器BMC一样方便。可见,本发明提高了对RMC监控64路服务器内部计算节点、存储节点、交换机模块、信息采集器模块、CC模块、PCIE设备、风扇和电源等设备监控的实时性,能够及时有效的处理检测设备故障并进行处理,提高了64路服务器的可用性和可靠性。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种服务器监控方法,其特征在于,包括:
实时监控服务器中每个机箱中各子设备的状态信息,作为数据信息;
数据处理模块分别获取对应每个机箱中的所述数据信息,并将所述数据信息统一保存在内部缓存中,对控制中心提供信息访问接口;
所述控制中心获取各所述数据处理模块保存的所述数据信息,对所述服务器进行实时监控以及故障监测。
2.如权利要求1所述的服务器监控方法,其特征在于,所述实时监控服务器中每个机箱中各子设备的状态信息,作为数据信息包括:
实时监控服务器每个机箱中各计算节点的状态信息、各存储节点的状态信息、各风扇的状态信息、各交换机的状态信息以及电源信息的状态信息,作为所述数据信息,并将监控得到的所述数据信息保存在内部缓存供所述数据处理模块进行数据访问。
3.一种服务器监控装置,其特征在于,包括:
监控模块,用于实时监控服务器中每个机箱中各子设备的状态信息,作为数据信息;
数据处理模块,用于分别获取对应每个机箱中的所述数据信息,并将所述数据信息统一保存在内部缓存中,对控制中心提供信息访问接口;
控制中心,用于获取各所述数据处理模块保存的所述数据信息,对所述服务器进行实时监控以及故障监测。
4.如权利要求3所述的服务器监控装置,其特征在于,所述监控模块包括:
第一监控单元,用于监控所述服务器中各计算节点的状态,并将得到的计算节点的状态信息保存在内部缓存供所述数据处理模块进行数据访问;
第二监控单元,用于监控所述服务器中各存储节点的状态,并将得到的存储节点的状态信息保存在内部缓存供所述数据处理模块进行数据访问;
第三监控单元,用于监控所述服务器中各风扇的风扇信息;
第四监控单元,用于监控所述服务器中各交换机的状态信息;
第五监控单元,用于监控所述服务器中电源模块的状态信息。
5.如权利要求4所述的服务器监控装置,其特征在于,第三监控单元通过I2C总线与所述数据处理模块相连。
6.如权利要求5所述的服务器监控装置,其特征在于,所述第一监控单元、第二监控单元通过IPMB总线或网线与所述数据处理模块相连。
7.如权利要求6所述的服务器监控装置,其特征在于,所述电源模块通过I2C与所述数据处理模块相连。
8.如权利要求3至7任一项所述的服务器监控装置,其特征在于,所述控制中心通过网线与所述数据处理模块相连。
CN201510746566.3A 2015-11-05 2015-11-05 一种服务器监控方法及装置 Active CN105389244B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510746566.3A CN105389244B (zh) 2015-11-05 2015-11-05 一种服务器监控方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510746566.3A CN105389244B (zh) 2015-11-05 2015-11-05 一种服务器监控方法及装置

Publications (2)

Publication Number Publication Date
CN105389244A true CN105389244A (zh) 2016-03-09
CN105389244B CN105389244B (zh) 2018-05-04

Family

ID=55421551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510746566.3A Active CN105389244B (zh) 2015-11-05 2015-11-05 一种服务器监控方法及装置

Country Status (1)

Country Link
CN (1) CN105389244B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105812207A (zh) * 2016-04-01 2016-07-27 浪潮电子信息产业股份有限公司 一种网络交换机的监控装置、系统和方法
CN106227538A (zh) * 2016-07-26 2016-12-14 浪潮集团有限公司 一种服务器管理系统
CN106708707A (zh) * 2016-12-23 2017-05-24 郑州云海信息技术有限公司 一种基于服务器架构的服务器监控系统
CN106951352A (zh) * 2017-03-13 2017-07-14 郑州云海信息技术有限公司 一种服务器日志存储管理方法
CN107977273A (zh) * 2016-10-25 2018-05-01 郑州云海信息技术有限公司 一种机柜中结点信息采集内存共享的内存优化方法
CN108628231A (zh) * 2018-07-05 2018-10-09 郑州云海信息技术有限公司 云数据中心中设备监控方法和装置
CN111552615A (zh) * 2020-04-30 2020-08-18 深圳市智微智能软件开发有限公司 独立的计算机状态监测方法、装置、设备及存储介质
CN113535506A (zh) * 2020-04-21 2021-10-22 上海际链网络科技有限公司 服务系统的监控方法及装置、存储介质、计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100287395A1 (en) * 2009-05-06 2010-11-11 Via Technologies, Inc. Computer system for processing data in non-operational state and processing method thereof
CN102495785A (zh) * 2011-12-23 2012-06-13 创新科存储技术(深圳)有限公司 整机柜服务器集中管理方法和装置
CN104820479A (zh) * 2015-04-24 2015-08-05 北京百度网讯科技有限公司 整机柜服务器风扇的控制方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100287395A1 (en) * 2009-05-06 2010-11-11 Via Technologies, Inc. Computer system for processing data in non-operational state and processing method thereof
CN102495785A (zh) * 2011-12-23 2012-06-13 创新科存储技术(深圳)有限公司 整机柜服务器集中管理方法和装置
CN104820479A (zh) * 2015-04-24 2015-08-05 北京百度网讯科技有限公司 整机柜服务器风扇的控制方法和装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105812207A (zh) * 2016-04-01 2016-07-27 浪潮电子信息产业股份有限公司 一种网络交换机的监控装置、系统和方法
CN106227538A (zh) * 2016-07-26 2016-12-14 浪潮集团有限公司 一种服务器管理系统
CN107977273A (zh) * 2016-10-25 2018-05-01 郑州云海信息技术有限公司 一种机柜中结点信息采集内存共享的内存优化方法
CN106708707A (zh) * 2016-12-23 2017-05-24 郑州云海信息技术有限公司 一种基于服务器架构的服务器监控系统
CN106951352A (zh) * 2017-03-13 2017-07-14 郑州云海信息技术有限公司 一种服务器日志存储管理方法
CN108628231A (zh) * 2018-07-05 2018-10-09 郑州云海信息技术有限公司 云数据中心中设备监控方法和装置
CN113535506A (zh) * 2020-04-21 2021-10-22 上海际链网络科技有限公司 服务系统的监控方法及装置、存储介质、计算机设备
CN111552615A (zh) * 2020-04-30 2020-08-18 深圳市智微智能软件开发有限公司 独立的计算机状态监测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN105389244B (zh) 2018-05-04

Similar Documents

Publication Publication Date Title
CN105389244A (zh) 一种服务器监控方法及装置
CN105426286A (zh) 一种对整机柜服务器进行监控的系统
US20170139797A1 (en) System for monitoring a to-be-monitored unit of a rack
US10418849B2 (en) Systems and methods for monitoring a configuration of UPS groups with different redundancy levels
TWI433420B (zh) 主動式電源管理架構及其管理方法
CN105373462A (zh) 一种整机柜服务器管理的方法及系统
CN102567227B (zh) 共享缓存设备的双控制器存储系统和方法
US9098257B2 (en) Information handling system server architecture for improved management communication
CN102457517A (zh) 虚拟机间通信的方法
TW201532761A (zh) 自走式機器人、資料中心及資料中心之維修方法
US11216306B2 (en) Technologies for dynamically sharing remote resources across remote computing nodes
US9804980B2 (en) System management through direct communication between system management controllers
CN103473018A (zh) 硬盘和管理方法
US9535482B2 (en) Methods, systems, and computer readable media for controlling processor card power consumption in a network test equipment chassis that includes a plurality of processor cards
CN105162623B (zh) 一种云处理方法及云服务器
CN108090000A (zh) 一种获取cpu寄存器信息的方法及系统
US9430313B2 (en) Generation of debugging log list in a blade server environment
CN107179804A (zh) 机柜装置
CN105471986B (zh) 一种数据中心建设规模评估方法及装置
CN108647124A (zh) 一种存储跳变信号的方法及其装置
CN105577752A (zh) 一种用于融合架构服务器的管理系统
CN115190046B (zh) 一种服务器集群的检测方法、检测装置及计算设备
CN113487182B (zh) 设备健康状态评估方法、装置、计算机设备和介质
CN105095143A (zh) 一种服务器节点和整机柜服务器
Zhang et al. A homogeneous many-core x86 processor full system framework based on NoC

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant