CN105389244B - 一种服务器监控方法及装置 - Google Patents

一种服务器监控方法及装置 Download PDF

Info

Publication number
CN105389244B
CN105389244B CN201510746566.3A CN201510746566A CN105389244B CN 105389244 B CN105389244 B CN 105389244B CN 201510746566 A CN201510746566 A CN 201510746566A CN 105389244 B CN105389244 B CN 105389244B
Authority
CN
China
Prior art keywords
monitoring
server
information
data
processing module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510746566.3A
Other languages
English (en)
Other versions
CN105389244A (zh
Inventor
王恩东
胡雷钧
黄家明
乔英良
李冠广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201510746566.3A priority Critical patent/CN105389244B/zh
Publication of CN105389244A publication Critical patent/CN105389244A/zh
Application granted granted Critical
Publication of CN105389244B publication Critical patent/CN105389244B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Abstract

本发明公开了一种服务器监控方法及装置,该方法包括:实时监控服务器中每个机箱中各子设备的状态信息,作为数据信息;数据处理模块分别获取对应每个机箱中的所述数据信息,并将所述数据信息统一保存在内部缓存中,对控制中心提供信息访问接口;所述控制中心获取各所述数据处理模块保存的所述数据信息,对所述服务器进行实时监控以及故障监测。本发明所提供的服务器监控方法及装置,提高了服务器对内部计算节点、存储节点、交换机模块、风扇等各子设备的监控的实时性,能够及时有效地处理检测设备故障,提高了服务器的可用性和可靠性。

Description

一种服务器监控方法及装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种服务器监控方法及装置。
背景技术
随着用户对计算需求的提高,用户对单台计算机的计算性能要求也随之越来越高。64路服务器在计算性能和可靠性上,与传统服务器相比具有很大的优势,并在对实时性、可靠性和可用性要求苛刻的领域中应用越来越广泛。64路服务器在机柜内部集成计算节点、存储节点、交换机模块、信息采集器模块、CC模块、PCIE设备、风扇和电源等设备。计算节点、存储节点、交换机模块、信息采集器模块、CC模块、PCIE设备、风扇和电源等设备都有自身的FW,可以进行自身设备的监控。
由于64路服务器内部设备繁多,设备的接口和通信协议各不相同,采用传统服务器的一级监控架构,由BMC监控管理64路服务器内部所有设备的信息,无论从时间上还是管理的复杂度上都不能不能满足机柜服务器的监控的要求。
因此,提供一种服务器监控方法及装置是非常有必要的。
发明内容
本发明的目的是提供一种服务器监控方法及装置,以及时有效地检测到设备故障,并及时处理节点故障。
为解决上述技术问题,本发明提供一种服务器监控方法,包括:
实时监控服务器中每个机箱中各子设备的状态信息,作为数据信息;
数据处理模块分别获取对应每个机箱中的所述数据信息,并将所述数据信息统一保存在内部缓存中,对控制中心提供信息访问接口;
所述控制中心获取各所述数据处理模块保存的所述数据信息,对所述服务器进行实时监控以及故障监测。
可选地,所述实时监控服务器中每个机箱中各子设备的状态信息,作为数据信息包括:
实时监控服务器每个机箱中各计算节点的状态信息、各存储节点的状态信息、各风扇的状态信息、各交换机的状态信息以及电源信息的状态信息,作为所述数据信息,并将监控得到的所述数据信息保存在内部缓存供所述数据处理模块进行数据访问。
本发明还提供了一种服务器监控装置,包括:
监控模块,用于实时监控服务器中每个机箱中各子设备的状态信息,作为数据信息;
数据处理模块,用于分别获取对应每个机箱中的所述数据信息,并将所述数据信息统一保存在内部缓存中,对控制中心提供信息访问接口;
控制中心,用于获取各所述数据处理模块保存的所述数据信息,对所述服务器进行实时监控以及故障监测。
可选地,所述监控模块包括:
第一监控单元,用于监控所述服务器中各计算节点的状态,并将得到的计算节点的状态信息保存在内部缓存供所述数据处理模块进行数据访问;
第二监控单元,用于监控所述服务器中各存储节点的状态,并将得到的存储节点的状态信息保存在内部缓存供所述数据处理模块进行数据访问;
第三监控单元,用于监控所述服务器中各风扇的风扇信息;
第四监控单元,用于监控所述服务器中各交换机的状态信息;
第五监控单元,用于监控所述服务器中电源模块的状态信息。
可选地,第三监控单元通过I2C总线与所述数据处理模块相连。
可选地,所述第一监控单元、第二监控单元通过IPMB总线或网线与所述数据处理模块相连。
可选地,所述电源模块通过I2C与所述数据处理模块相连。
可选地,所述控制中心通过网线与所述数据处理模块相连。
本发明所提供的服务器监控方法及装置,通过实时监控服务器每个机箱中各子设备的状态信息,作为数据信息;数据处理模块分别获取对应每个机箱中的数据信息,并将数据信息统一保存在内部缓存中,对控制中心提供信息访问接口;控制中心获取各数据处理模块保存的数据信息,对所述服务器进行实时监控以及故障监测。本发明所提供的服务器监控方法及装置,提高了服务器对内部计算节点、存储节点、交换机模块、风扇等各子设备的监控的实时性,能够及时有效地处理检测设备故障,提高了服务器的可用性和可靠性。
附图说明
图1为本发明所提供的服务器监控方法的一种具体实施方式的流程图;
图2为本发明所提供的服务器监控装置的一种具体实施方式的结构框图;
图3为本发明所提供的服务器监控装置的另一种具体实施方式的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明所提供的服务器监控方法的一种具体实施方式的流程图如图1所示,该方法包括:
步骤S101:实时监控服务器中每个机箱中各子设备的状态信息,作为数据信息;
上述步骤可以具体为:实时监控服务器每个机箱中各计算节点的状态信息、各存储节点的状态信息、各风扇的状态信息、各交换机的状态信息以及电源信息的状态信息,作为所述数据信息,并将监控得到的所述数据信息保存在内部缓存供所述数据处理模块进行数据访问。需要指出的是,本实施例中监控的数据信息包括但不限于:服务器每个机箱中各计算节点的状态信息、各存储节点的状态信息、各风扇的状态信息、各交换机的状态信息以及电源信息的状态信息。还可以对其他数据信息监控,这均不影响本发明的实现。
步骤S102:数据处理模块分别获取对应每个机箱中的所述数据信息,并将所述数据信息统一保存在内部缓存中,对控制中心提供信息访问接口;
步骤S103:控制中心获取各所述数据处理模块保存的所述数据信息,对所述服务器进行实时监控以及故障监测。
本发明所提供的服务器监控方法,通过实时监控服务器每个机箱中各子设备的状态信息,作为数据信息;数据处理模块分别获取对应每个机箱中的数据信息,并将数据信息统一保存在内部缓存中,对控制中心提供信息访问接口;控制中心获取各数据处理模块保存的数据信息,对所述服务器进行实时监控以及故障监测。本发明所提供的服务器监控方法,提高了服务器对内部计算节点、存储节点、交换机模块、风扇等各子设备的监控的实时性,能够及时有效地处理检测设备故障,提高了服务器的可用性和可靠性。
与上述方法相对应,本发明还提供了一种服务器监控装置,如图2本发明所提供的服务器监控装置的一种具体实施方式的结构框图所示,该装置包括:
监控模块100,用于实时监控服务器中每个机箱中各子设备的状态信息,作为数据信息;
该监控模块100可以具体包括:
第一监控单元,用于监控所述服务器中各计算节点的状态,并将得到的计算节点的状态信息保存在内部缓存供所述数据处理模块进行数据访问;
第二监控单元,用于监控所述服务器中各存储节点的状态,并将得到的存储节点的状态信息保存在内部缓存供所述数据处理模块进行数据访问;
第三监控单元,用于监控所述服务器中各风扇的风扇信息;
第四监控单元,用于监控所述服务器中各交换机的状态信息;
第五监控单元,用于监控所述服务器中电源模块的状态信息。
数据处理模块200,用于分别获取对应每个机箱中的所述数据信息,并将所述数据信息统一保存在内部缓存中,对控制中心提供信息访问接口;
控制中心300,用于获取各所述数据处理模块保存的所述数据信息,对所述服务器进行实时监控以及故障监测。
本发明所提供的服务器监控装置,通过实时监控服务器每个机箱中各子设备的状态信息,作为数据信息;数据处理模块分别获取对应每个机箱中的数据信息,并将数据信息统一保存在内部缓存中,对控制中心提供信息访问接口;控制中心获取各数据处理模块保存的数据信息,对所述服务器进行实时监控以及故障监测。本发明所提供的服务器监控装置,提高了服务器对内部计算节点、存储节点、交换机模块、风扇等各子设备的监控的实时性,能够及时有效地处理检测设备故障,提高了服务器的可用性和可靠性。
64路服务器内部设备复杂多变,机柜信息采集器、交换机模块、CC模块、计算节点、风扇、PCIE设备、电源和存储节点等设备繁多,传统的BMC监控不能满足64路服务器的监控的需求。以64路服务器为例,本发明所提供的服务器监控装置的另一种具体实施方式的示意图如图3所示。
在本实施例中,第一监控单元、第二监控单元分别由BMC和EMC按照传统机柜的方式,分别对计算节点和存储节点进行监控,数据处理模块由SMC来实现,控制中心体由RMC实现。
具体方法为:
BMC用于监控计算节点的信息状态,将监控数据保存在内部缓存中,供SMC进行数据访问。EMC用于监控存储节点状态,将监控数据保存在内部缓存中,供SMC进行数据访问。
SMC通过BMC获取计算节点的状态信息,通过EMC获取存储节点的状态信息,并访问与机箱内部的风扇控制板获取风扇信息,并进行风扇转速控制。访问交换机模块获取交换机状态信息和故障信息,访问CC模块获取CC模块故障信息和状态信息,访问电源模块获取电源的状态信息和故障信息。并最终将计算节点、存储节点、交换机、CC模块、电源和风扇信息提供统一接口供RMC进行数据访问。
RMC通过SMC获取64路服务器内部计算节点、存储节点、风扇、交换机模块、CC模块和电源信息,并轮询直接与RMC直接相连的风扇、信息采集器和电源信息,对外提供统一的接口,实现对64路服务器信息的监控。
具体地,可按照机箱进行划分,每个机箱有4个4路计算节点、风扇、电源、CC模块和交换机模块。SMC进行机箱内部设备的监控,并对RMC提供信息访问接口,SMC模块对用户不可见。计算节点内部BMC如同传统服务器BMC,进行64路服务器计算节点信息的监控,并SMC提供访问接口,直接供SMC进行访问。EMC进行64路服务器内部存储模块数据的监控,并SMC提供访问接口。其中BMC和EMC为64路内部监控模块,对用户不可见。
将64路服务器内部分为不同的机箱。每个机箱都有SMC作为机箱内部设备的二级监控,机箱内部的风扇控制板通过I2C总线连接到SMC上,同时BMC和EMC通过IPMB总线或者网络连接到SMC上。CC模块和交换机模块通过网络连接到SMC上。电源模块通过I2C连接到SMC上。SMC访问机箱内部上的风扇、电源、交换机、CC模块、计算节点信息和存储节点信息,同时将这些信息提供统一接口供RMC进行访问。
RMC作为机柜的监控中心,通过I2C总线连接到RMC供电的电源模块,通过网线连接到SMC和信息采集模块。通过I2C获取电源模块故障信息和状态信息。通过访问SMC获取Tray上风扇、电源、交换机、CC模块、计算节点信息和存储节点信息。访问信息采集模块获取机柜温度信息。
综上,本发明所提供的服务器监控方法及装置,通过64路服务器三级监控架构,用户通过访问RMC获取64路服务器所有监控信息,如同访问传统服务器BMC一样方便。可见,本发明提高了对RMC监控64路服务器内部计算节点、存储节点、交换机模块、信息采集器模块、CC模块、PCIE设备、风扇和电源等设备监控的实时性,能够及时有效的处理检测设备故障并进行处理,提高了64路服务器的可用性和可靠性。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (5)

1.一种服务器监控装置,其特征在于,包括:
监控模块,用于实时监控服务器中每个机箱中各子设备的状态信息,作为数据信息;
数据处理模块,用于分别获取对应每个机箱中的所述数据信息,并将所述数据信息统一保存在内部缓存中,对控制中心提供信息访问接口;
控制中心,用于获取各所述数据处理模块保存的所述数据信息,对所述服务器进行实时监控以及故障监测
所述监控模块包括:
第一监控单元,用于监控所述服务器中各计算节点的状态,并将得到的计算节点的状态信息保存在内部缓存供所述数据处理模块进行数据访问;
第二监控单元,用于监控所述服务器中各存储节点的状态,并将得到的存储节点的状态信息保存在内部缓存供所述数据处理模块进行数据访问;
第三监控单元,用于监控所述服务器中各风扇的风扇信息;
第四监控单元,用于监控所述服务器中各交换机的状态信息;
第五监控单元,用于监控所述服务器中电源模块的状态信息;
第一监控单元、第二监控单元分别由BMC和EMC按照传统机柜的方式,分别对计算节点和存储节点进行监控,数据处理模块由SMC来实现,控制中心体由RMC实现;
BMC用于监控计算节点的信息状态,将监控数据保存在内部缓存中,供SMC进行数据访问;EMC用于监控存储节点状态,将监控数据保存在内部缓存中,供SMC进行数据访问;
SMC通过BMC获取计算节点的状态信息,通过EMC获取存储节点的状态信息,并访问与机箱内部的风扇控制板获取风扇信息,并进行风扇转速控制;访问交换机模块获取交换机状态信息和故障信息,访问CC模块获取CC模块故障信息和状态信息,访问电源模块获取电源的状态信息和故障信息;并最终将计算节点、存储节点、交换机、CC模块、电源和风扇信息提供统一接口供RMC进行数据访问;
RMC通过SMC获取64路服务器内部计算节点、存储节点、风扇、交换机模块、CC模块和电源信息,并轮询直接与RMC直接相连的风扇、信息采集器和电源信息,对外提供统一的接口,实现对64路服务器信息的监控。
2.如权利要求1所述的服务器监控装置,其特征在于,第三监控单元通过I2C总线与所述数据处理模块相连。
3.如权利要求2所述的服务器监控装置,其特征在于,所述第一监控单元、第二监控单元通过IPMB总线或网线与所述数据处理模块相连。
4.如权利要求3所述的服务器监控装置,其特征在于,所述电源模块通过I2C与所述数据处理模块相连。
5.如权利要求1至4任一项所述的服务器监控装置,其特征在于,所述控制中心通过网线与所述数据处理模块相连。
CN201510746566.3A 2015-11-05 2015-11-05 一种服务器监控方法及装置 Active CN105389244B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510746566.3A CN105389244B (zh) 2015-11-05 2015-11-05 一种服务器监控方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510746566.3A CN105389244B (zh) 2015-11-05 2015-11-05 一种服务器监控方法及装置

Publications (2)

Publication Number Publication Date
CN105389244A CN105389244A (zh) 2016-03-09
CN105389244B true CN105389244B (zh) 2018-05-04

Family

ID=55421551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510746566.3A Active CN105389244B (zh) 2015-11-05 2015-11-05 一种服务器监控方法及装置

Country Status (1)

Country Link
CN (1) CN105389244B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105812207A (zh) * 2016-04-01 2016-07-27 浪潮电子信息产业股份有限公司 一种网络交换机的监控装置、系统和方法
CN106227538A (zh) * 2016-07-26 2016-12-14 浪潮集团有限公司 一种服务器管理系统
CN107977273A (zh) * 2016-10-25 2018-05-01 郑州云海信息技术有限公司 一种机柜中结点信息采集内存共享的内存优化方法
CN106708707A (zh) * 2016-12-23 2017-05-24 郑州云海信息技术有限公司 一种基于服务器架构的服务器监控系统
CN106951352A (zh) * 2017-03-13 2017-07-14 郑州云海信息技术有限公司 一种服务器日志存储管理方法
CN108628231A (zh) * 2018-07-05 2018-10-09 郑州云海信息技术有限公司 云数据中心中设备监控方法和装置
CN113535506A (zh) * 2020-04-21 2021-10-22 上海际链网络科技有限公司 服务系统的监控方法及装置、存储介质、计算机设备
CN111552615A (zh) * 2020-04-30 2020-08-18 深圳市智微智能软件开发有限公司 独立的计算机状态监测方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495785A (zh) * 2011-12-23 2012-06-13 创新科存储技术(深圳)有限公司 整机柜服务器集中管理方法和装置
CN104820479A (zh) * 2015-04-24 2015-08-05 北京百度网讯科技有限公司 整机柜服务器风扇的控制方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8650425B2 (en) * 2009-05-06 2014-02-11 Via Technologies, Inc. Computer system for processing data in non-operational state and processing method thereof

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495785A (zh) * 2011-12-23 2012-06-13 创新科存储技术(深圳)有限公司 整机柜服务器集中管理方法和装置
CN104820479A (zh) * 2015-04-24 2015-08-05 北京百度网讯科技有限公司 整机柜服务器风扇的控制方法和装置

Also Published As

Publication number Publication date
CN105389244A (zh) 2016-03-09

Similar Documents

Publication Publication Date Title
CN105389244B (zh) 一种服务器监控方法及装置
CN105426286B (zh) 一种对整机柜服务器进行监控的系统
CN110392001B (zh) 机架级网络交换机
WO2015176451A1 (zh) 拓扑展示方法及装置
CN104683147B (zh) 一种对大规模数据中心硬件管理方法及系统
CN102346707B (zh) 服务器系统与其操作方法
CN105808499A (zh) 一种cpu互联装置以及多路服务器cpu互联拓扑结构
CN109656767A (zh) 一种cpld状态信息的获取方法、系统及相关组件
CN105430114B (zh) 一种ip地址冲突检测方法、系统及接入层设备
CN105389242A (zh) 一种实现批量获取整机柜服务器信息的方法
CN101867490A (zh) 运维操作系统和方法
CN103281208B (zh) 一种数据灾备服务及综合监控系统
CN110191204A (zh) 一种内网设备间通信方法、系统、装置及计算机存储介质
CN108090000A (zh) 一种获取cpu寄存器信息的方法及系统
CN106227642A (zh) 一种Rack管理控制器及整机柜服务器
CN108173735A (zh) 一种GPU Box服务器级联通信方法、装置及系统
CN109254780A (zh) 一种批量刷新服务器节点固件的方法、装置及受控终端
CN103188108A (zh) 监测管理装置、数据中心的监测管理系统及监测管理方法
CN201048388Y (zh) 一种基于刀片服务器的千兆交换刀片
CN104076880A (zh) 一种微服务器
CN106250291A (zh) 一种整机柜服务器的管理装置及整机柜服务器
CN105577752A (zh) 一种用于融合架构服务器的管理系统
CN105490859B (zh) 一种高端容错服务器的节点定位方法
CN206686217U (zh) 一种多服务器网络共享架构
CN102065315B (zh) 一种用于电视台技术信息监测的三维可视化方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant