CN109101400A - 一种云计算数据中心整机柜服务器的监控系统 - Google Patents

一种云计算数据中心整机柜服务器的监控系统 Download PDF

Info

Publication number
CN109101400A
CN109101400A CN201810935551.5A CN201810935551A CN109101400A CN 109101400 A CN109101400 A CN 109101400A CN 201810935551 A CN201810935551 A CN 201810935551A CN 109101400 A CN109101400 A CN 109101400A
Authority
CN
China
Prior art keywords
node
monitoring system
monitoring
server
running state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810935551.5A
Other languages
English (en)
Inventor
钱晓峰
蔡积淼
林楷智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810935551.5A priority Critical patent/CN109101400A/zh
Publication of CN109101400A publication Critical patent/CN109101400A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents

Abstract

本申请提供了一种云计算数据中心整机柜服务器的监控系统,该系统通过服务器管理单元监测各个节点的运行状态参数信息,并将监测到的运行状态参数信息依次经由管理中板和机柜管理单元传输至数据中心监控后台,然后,数据中心监控后台根据各个节点的运行状态参数信息对各个节点进行控制。因而,在该系统中,数据中心监控后台能够根据服务器管理单元采集的该服务器节点的运行状态参数信息及时的分析每个服务器的运行状态并根据不同的运行状态采取不同的控制,从而为后期运维管理提供了便利。

Description

一种云计算数据中心整机柜服务器的监控系统
技术领域
本申请涉及服务器技术领域,尤其涉及一种云计算数据中心整机柜服务器的监控系统。
背景技术
整机柜服务器是一种面向数据中心大规模部署的服务器解决方案,这种方式是将电源、散热、交换、服务器节点等计算机IT体系结构模块集成在一个机柜中,采用功能模块和支撑模块彻底分离,更加可靠高效,它改变了传统服务器的部署和使用方式,可以根据用户的需求来灵活配置硬件平台,能够做到快速大规模部署,还可以降低成本。
整机柜采用模块化设计,将功能模块和支撑模块彻底分离,可以根据需求采用定制化配置,采用标准化程度更高、尺度更大的刀片式服务器,而且整合供电、散热、管理等“基础设施”,因而,大型数据中心通常建设在偏远的地区,整机柜把大部分组装工作转移到服务器工厂预先完成,在数据中心现场快速部署可以显著降低人力成本。与传统的机架式服务器相比,整机柜服务器具有较高的交付效率,例如,日交付量从原来的几百台可以提高到几千台。
在云计算时代,数据中心规模越来越大。为了实现快速部署服务器以及提供便利的后期运维管理,数据中心内部署的服务器通常为整机柜服务器。
然而,提供便利的后期运维管理是业界一致追求的目标。
发明内容
有鉴于此,本申请提供了一种云计算数据中心整机柜服务器的监控系统,以提供便利的后期运维管理。
为了达到上述发明目的,本申请采用了如下技术方案:
一种云计算数据中心整机柜服务器的监控系统,包括:
服务器管理单元、管理中板和机柜管理单元,
其中,所述服务器管理单元用于监测各个节点的运行状态参数信息,并将监测到的各个节点的运行状态参数信息传输至所述管理中板;
所述管理中板用于将所述各个节点的运行状态参数信息传输至机柜管理单元;
所述机柜管理单元用于将所述各个节点的运行状态参数信息传输至数据中心监控后台,以使所述数据中心监控后台根据所述各个节点的运行状态参数信息对所述各个节点进行控制。
可选地,所述监控系统还包括:
风扇监控模块,用于监控整机柜服务器的风扇运转状态,并将所述风扇运转状态传输至所述管理中板;
所述管理中板还用于将所述风扇运转状态发送至所述机柜管理单元;
所述机柜管理单元还用于下发风扇调控指令,所述风扇调控指令经由所述管理中板传输至所述风扇监控模块。
可选地,所述监控系统还包括:
供电模块,用于监控整机柜服务器的电源功耗信息与电源状态,并将所述电源功耗信息与电源状态传输至所述机柜管理单元。
可选地,所述监控系统还包括:
自适应监控管理模块,用于根据所述整机柜服务器发生故障的概率高低,动态调整监控周期。
可选地,所述监控系统还包括:
故障预测模块,用于将实时监测到的各个节点的运行状态参数信息输入至故障预测模型,由所述故障预测模型预测故障可能性。
可选地,所述监控系统还包括:
预设模型修正模块,用于根据准确的预测结果及其对应的各个节点的运行状态参数信息对所述预测模型进行修正。
可选地,所述运行状态参数信息包括:节点的现场可更换单元FRU信息、节点的位置信息、温度信息、功耗信息以及资产信息中的至少一种。
可选地,所述机柜管理单元还用于根据所述各个节点的运行状态参数信息控制节点。
可选地,所述根据所述各个节点的运行状态参数信息控制节点,具体包括:
控制节点开关机、控制节点网络设置以及对节点定位中的至少一种。
可选地,所述机柜管理单元还用于控制该机柜管理单元的指示灯的开关。
相较于现有技术,本申请具有以下有益效果:
本申请提供云计算数据中心整机柜服务器的监控系统,通过服务器管理单元监测各个节点的运行状态参数信息,并将监测到的运行状态参数信息依次经由管理中板和机柜管理单元输至数据中心监控后台,然后,数据中心监控后台根据各个节点的运行状态参数信息对各个节点进行控制。因而,在该系统中,数据中心监控后台能够根据服务器管理单元采集的该服务器节点的运行状态参数信息及时的分析每个服务器的运行状态并根据不同的运行状态采取不同的控制,从而为后期运维管理提供了便利。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一提供的云计算数据中心整机柜服务器的监控系统的结构示意图;
图2为本申请实施例二提供的系统的故障预测过程示意图;
图3为本申请实施例三提供的云计算数据中心整机柜服务器的监控系统的结构示意图;
图4为本申请实施例三提供的云计算数据中心整机柜服务器的监控系统的拓扑示意图。
具体实施方式
为了解决背景技术部分所述的技术问题,本申请提供了一种云计算数据中心整机柜服务器的监控系统,包括:服务器管理单元(Baseboard Management Controller,BMC)、管理中板(Medium Management Controller,MMC)和机柜管理单元(Rack ManagementController,RMC),其中,所述服务器管理单元用于监测各个节点的运行状态参数信息,并将监测到的各个节点的运行状态参数信息传输至所述管理中板;所述管理中板用于将所述各个节点的运行状态参数信息传输至机柜管理单元;所述机柜管理单元用于将所述各个节点的运行状态参数信息传输至数据中心监控后台,以使所述数据中心监控后台根据所述各个节点的运行状态参数信息对所述各个节点进行控制。
本申请提供的云计算数据中心整机柜服务器的监控系统,通过服务器管理单元监测各个节点的运行状态参数信息,并将监测到的运行状态参数信息依次经由管理中板和机柜管理单元传输至数据中心监控后台,然后,数据中心监控后台根据各个节点的运行状态参数信息对各个节点进行控制。因而,该系统中,数据中心监控后台能够根据服务器管理单元采集的该服务器节点的运行状态参数信息及时的分析每个服务器的运行状态并根据不同的运行状态采取不同的控制,从而为后期运维管理提供了便利。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
参见图1,该图为本申请实施例一提供的云计算数据中心整机柜服务器的监控系统的结构示意图。
本申请实施例提供的云计算数据中心整机柜服务器的监控系统,包括:服务器管理单元101、管理中板102和机柜管理单元103。
为了便于解释和理解下面将依次介绍服务器管理单元101、管理中板102和机柜管理单元103。
服务器管理单元101的介绍。
服务器管理单元101的作用是:监测各个节点的运行状态参数信息,并将监测到的各个节点的运行状态参数信息传输至所述管理中板102。
其中,每个节点均对应一台服务器,且各个节点的运行状态参数信息是指该节点对应服务器的运行状态参数信息。
而且,运行状态参数信息包括:节点的现场可更换单元FRU信息、节点的位置信息、温度信息、功耗信息、产品序列号(serial number,SN)信息、开关机信息、健康信息以及资产信息中的至少一种。
管理中板102的介绍。
管理中板102的作用是:将所述各个节点的运行状态参数信息传输至机柜管理单元103。
管理中板102在本申请实施例提供的云计算数据中心整机柜服务器的监控系统中具有桥接的作用,将服务器管理单元101检测到的运行状态参数信息转发给机柜管理单元103,以便于机柜管理单元103根据不同的运行状态参数信息对每个节点上的服务器采取不同的控制措施。
机柜管理单元103的介绍。
机柜管理单元103的作用是:将所述各个节点的运行状态参数信息传输至数据中心监控后台,以使所述数据中心监控后台根据所述各个节点的运行状态参数信息对所述各个节点进行控制。
其中,数据中心监控后台根据所述各个节点的运行状态参数信息对所述各个节点进行控制,可以具体为:
首先,数据中心监控后台根据各个节点的运行状态参数信息,得到相应的控制指令;然后,数据中心监控后台将获得的控制指令发送至机柜管理单元103;最后,机柜管理单元103根据收到的控制指令对各个节点上的服务器采取相应的控制措施。
需要说明的是,本申请实施例提供的云计算数据中心整机柜服务器的监控系统中服务器管理单元101、管理中板102、机柜管理单元103和数据中心监控后台彼此之间可以通过IPMB(智能平台管理总线)传输各个节点运行状态参数信息。
为了便于理解和解释,下面将整体介绍本申请实施例提供的云计算数据中心整机柜服务器的监控系统的工作流程。
本申请实施例提供的云计算数据中心整机柜服务器的监控系统的工作流程可以具体为:
首先,服务器管理单元101检测每个节点上的服务器的运行状态参数信息,并将检测到的运行状态参数信息通过IPMB(智能平台管理总线)发送至管理中板102;
其次,管理中板102将接收的运行状态参数信息通过IPMB(智能平台管理总线)转发给机柜管理单元103;
然后,机柜管理单元103再将接收的运行状态参数信息通过IPMB(智能平台管理总线)转发给数据中心监控后台;
其次,数据中心监控后台根据各个节点的运行状态参数信息,得到相应的控制指令;
然后,数据中心监控后台将获得的控制指令发送至机柜管理单元103;
最后,机柜管理单元103根据收到的控制指令对各个节点上的服务器进行控制。为了进一步提高对服务器的控制效率,以便于进一步提高后期运维管理的便利性,本申请实施例提供的云计算数据中心整机柜服务器的监控系统,所述机柜管理单元103还用于根据所述各个节点的运行状态参数信息控制节点。
其中,根据所述各个节点的运行状态参数信息控制节点,具体包括:
控制节点开关机、控制节点网络设置以及对节点定位中的至少一种。
还有,机柜管理单元103还用于控制该机柜管理单元103的指示灯的开关。
本申请实施例提供云计算数据中心整机柜服务器的监控系统,通过服务器管理单元101监测各个节点的运行状态参数信息,并将监测到的运行状态参数信息依次经由管理中板102和机柜管理单元传输至数据中心监控后台,然后,数据中心监控后台根据各个节点的运行状态参数信息对各个节点进行控制。因而,该系统中,数据中心监控后台能够根据服务器管理单元101采集的该服务器节点的运行状态参数信息及时的分析每个服务器的运行状态并根据不同的运行状态采取不同的控制,从而为后期运维管理提供了便利。
为了进一步提高后期运维管理的便利性,本申请实施例还提供了另一种云计算数据中心整机柜服务器的监控系统,下面结合附图进行介绍。
实施例二
实施例二是在实施例一的基础上改进得到的,因此,实施例二与实施例一的部分内容相似,为了简要起见,在此不再赘述。
本申请实施例提供的云计算数据中心整机柜服务器的监控系统还包括:自适应监控管理模块和故障预测模块。
为了便于解释和理解下面将依次介绍自适应监控管理模块和故障预测模块。
自适应监控管理模块的介绍。
自适应监控管理模块的作用是:根据所述整机柜服务器发生故障的概率高低,动态调整监控周期。
例如,当服务器发生故障的概率较高时,缩短监控周期,搜集更多监控数据,以密切跟踪该服务器的运行状态,从而提高故障检测的准确性和及时性;然而,当服务器发生故障的概率较低时,延长监控周期,从而降低监控开销。
故障预测模块的介绍。
故障预测模块的作用是:将实时监测到的各个节点的运行状态参数信息输入至故障预测模型,由所述故障预测模型预测故障可能性。
作为示例,为了提高故障预测的准确性,故障预测模块可以具体包括:训练子模块和预测子模块。
训练子模块用于运用机器学习的方法对历史检测数据进行归一化处理、特征提取、建模等过程得到故障预测模型。
预测子模块用于将实时监测到的各个节点的运行状态参数信息输入至故障预测模型,从而进行故障预测。
在预测得到故障之后,且在故障发生前,可以通过提前调度等预防措施,避免故障的发生或者降低故障发生带来的资源损失。
为了进一步提高故障预测能力和故障处理能力,可以运用反馈机制,因而,本申请实施例还提供了预设模型修改正模块
预设模型修正模块,用于根据准确的预测结果及其对应的各个节点的运行状态参数信息对所述预测模型进行修正。
为了便于解释和理解,下面将以图2中的故障预测过程为例进行说明。
参见图2,该图为本申请实施例二提供的系统的故障预测过程示意图。
本申请实施例提供的云计算数据中心整机柜服务器的监控系统进行故障自适应监控管理的过程,可以具体为:
训练阶段201:根据历史监测的运行状态参数信息进行数据挖掘,可以具体为运用机器学习的方法对历史检测数据进行归一化处理、特征提取、建模等过程得到故障预测模型。
预测阶段202:将实时检测到的运行状态参数信息作为训练阶段201获得的故障预测模型的输入参数,然后进行预测,进而得到预测结果。
修正阶段203:将对预测结果的准确性进行验证,并将验证结果作为修正信息输入故障预测模型中,进而,对预测模型进行修正,得到准确性更高的预测结果。
需要说明的是,每次实时监测到的运行状态参数信息需要进行存储,以便于下一次故障检测的使用。
另外,为了缩短服务器处于故障状态的时间,本申请实施例提供的云计算数据中心整机柜服务器的监控系统还包括:RMC指示灯控制单元,
RMC指示灯控制单元用于接收机柜管理单元发送的各个节点的运行状态参数信息,并根据各个节点的运行状态参数信息对各个节点的运行状态进行判断,以便于根据判断结果控制RMC指示灯。
作为示例,RMC指示灯可以根据整机柜中所有节点的状态进行控制,若所有节点均处于正常运行状态,则控制RMC指示灯亮绿灯;若整机柜存在至少一个节点的部件需要维护或更换,则控制RMC指示灯亮橙色灯,若整机柜存在节点需要更换,则控制RMC指示灯亮红灯
本申请实施例提供的云计算数据中心整机柜服务器的监控系统还可以包括:自适应监控管理模块和故障预测模块。该系统中的自适应监控管理模块可以根据故障发生概率,自适应的调整监控周期;该系统中的故障预测模块能够根据实时监测的运行状态参数信息对可能发生的故障进行预测,从而,以便于在故障发生前,通过提前调度等预防措施,避免故障的发生或者降低故障发生带来的资源损失。为了进一步提高故障预测能力和故障处理能力,本申请实施例提供的云计算数据中心整机柜服务器的监控系统还包括:预测模型修正模块,该模块可以将预测结果的准确性作为修正信息,及时对预测模型进行修正,增强系统的故障预测能力和故障处理能力。
为了实现资源集中管理,进一步提高后期运维管理的便利性,本申请实施例还提供了一种云计算数据中心整机柜服务器的监控系统,下面结合附图进行介绍。
实施例三
参见图3,该图为本申请实施例三提供的云计算数据中心整机柜服务器的监控系统的结构示意图。
实施例三是在实施例一或实施例二的基础上改进得到的,为了便于解释和理解,下面将以在实施例一的基础上改进的实施例三为例进行说明。
实施例二与实施例一的部分内容相似,为了简要起见,在此不再赘述。
本申请实施例提供的云计算数据中心整机柜服务器的监控系统包括:服务器管理单元301、管理中板302、机柜管理单元303和风扇监控模块304,
风扇监控模块304,用于监控整机柜服务器的风扇运转状态,并将所述风扇运转状态传输至所述管理中板302;
所述管理中板302还用于将所述风扇运转状态发送至所述机柜管理单元303;
所述机柜管理单元303还用于下发风扇调控指令,所述风扇调控指令经由所述管理中板302传输至所述风扇监控模块。
需要说明的是,风扇监控模块304可以通过管理中板302接收PWM信号调整风扇运转转速,也可以通过Tach信号将风扇运转转速传输至管理中板302,还可以通过led将风扇运转状态传输至管理中板302。
为了便于解释和理解,下面将以风扇监控模块304通过led将风扇运转状态传输至管理中板302为例进行说明。
本申请实施例提供云计算数据中心整机柜服务器的监控系统监控风扇的过程可以具体为:
首先,风扇监控模块实时监控每个服务器的风扇运转状态,并通过TACH信号将监控到的风扇运转状态信息传输至管理中板302;
其次,管理中板302将收到的风扇运转状态信息转发至机柜管理单元303;
然后,机柜管理单元303将根据接收到的风扇运转状态信息,进行比较计算,获取相应的风扇调控指令,并将风扇调控指令通过PWM信号发送至管理中板302;
最后,管理中板302将接收的风扇调控指令通过PWM信号转发给风扇监控模块,以便于风扇监控模块根据收到的风扇调控指令对服务器的风扇进行控制。
本申请实施例提供的云计算数据中心整机柜服务器的监控系统通过风扇监控模块对每个服务器的风扇的监测及控制,实现了风扇的集中控制,从而进一步提高了后期运维管理的便利性。
另外,为了提高供电效率,进而,进一步提高后期运维管理的便利性,本申请实施例提供的云计算数据中心整机柜服务器的监控系统,还包括:供电模块。
供电模块,用于监控整机柜服务器的电源功耗信息与电源状态,并将所述电源功耗信息与电源状态传输至所述机柜管理单元303。
需要说明的是,在供电模块内部包括多组电源子模块,且供电模块通过PMBUS与多组电源子模块连接并通过PMBUS控制电源子模块;供电模块通过PMBUS将电源功耗信息与电源状态传输至机柜管理单元303
本申请实施例提供的云计算数据中心整机柜服务器的监控系统通过供电模块对每个服务器供电的监测和控制,实现了供电的集中控制,从而进一步提高了后期运维管理的便利性。
另外,本申请实施例提供的云计算数据中心整机柜服务器的监控系统采用分布式监控技术。根据数据中心管理的节点规模,智能的增加数据处理与数据采集的组件个数,并使每个组件只服务于特定数量的服务器数据采集处理,该特定数量是根据单线程在不影响系统性能,能够采集处理的最大服务器数。
本申请实施例提供的云计算数据中心整机柜服务器的监控系统包括一个机柜管理单元303、多个服务器管理单元301、多个管理中板302、多个风扇监控模块304和一个供电模块。
为了便于解释和说明,下面将以八个服务器管理单元301、两个管理中板302和两个风扇监控模块304为例进行说明
参见图4,该图为本申请实施例三提供的云计算数据中心整机柜服务器的监控系统的拓扑示意图。
图4的云计算数据中心整机柜服务器的监控系统包括一个机柜管理单元401、第一管理中板4021至第二管理中板4022、第一服务器管理单元至第八服务器管理单元、第一风扇监控模块至第二风扇监控模块和供电模块403。
第一服务器管理单元至第八服务器管理单元分别用于监测第一节点至第八节点的运行状态参数信息,而且,第一服务器管理单元至第四服务器管理单元将监测到的第一节点至第四节点的运行状态参数信息通过IPMB(智能平台管理总线)传输至第一管理中板4021,而第五服务器管理单元至第八服务器管理单元将监测到的第五节点至第八节点的运行状态参数信息通过IPMB(智能平台管理总线)传输至第二管理中板4022。
第一风扇监控模块检测第一风扇至第三风扇的运转状态,并将第一风扇至第三风扇的运转状态通过led传输至第一管理中板4021;第二风扇监控模块检测第四风扇至第六风扇的运转状态,并将第四风扇至第六风扇的运转状态通过led传输至第二管理中板4022。
第一管理中板4021和第二管理中板4022均通过IPMB(智能平台管理总线)将接收的节点运行状态信息和/或风扇运转状态信息转发给机柜管理单元401.
供电模块403通过第一PMBUS监控第一电源至第四电源的电源功耗信息与电源状态信息,并通过第二PMBUS监控第五电源至第八电源的电源功耗信息与电源状态信息。然后,供电模块403再通过第三PMBUS将监控的电源功耗信息与电源状态传输至机柜管理单元401。
本申请实施例提供的云计算数据中心整机柜服务器的监控系统通过采用分布式监控技术,实现对不同资源的并行处理,从而,提高了资源利用率和系统吞吐量,也提高采集数据的实时性,进一步提高后期运维管理的便利性。
以上为本申请的具体实施方式。

Claims (10)

1.一种云计算数据中心整机柜服务器的监控系统,其特征在于,包括:
服务器管理单元、管理中板和机柜管理单元,
其中,所述服务器管理单元用于监测各个节点的运行状态参数信息,并将监测到的各个节点的运行状态参数信息传输至所述管理中板;
所述管理中板用于将所述各个节点的运行状态参数信息传输至机柜管理单元;
所述机柜管理单元用于将所述各个节点的运行状态参数信息传输至数据中心监控后台,以使所述数据中心监控后台根据所述各个节点的运行状态参数信息对所述各个节点进行控制。
2.根据权利要求1所述的监控系统,其特征在于,所述监控系统还包括:
风扇监控模块,用于监控整机柜服务器的风扇运转状态,并将所述风扇运转状态传输至所述管理中板;
所述管理中板还用于将所述风扇运转状态发送至所述机柜管理单元;
所述机柜管理单元还用于下发风扇调控指令,所述风扇调控指令经由所述管理中板传输至所述风扇监控模块。
3.根据权利要求1所述的监控系统,其特征在于,所述监控系统还包括:
供电模块,用于监控整机柜服务器的电源功耗信息与电源状态,并将所述电源功耗信息与电源状态传输至所述机柜管理单元。
4.根据权利要求1所述的监控系统,其特征在于,所述监控系统还包括:
自适应监控管理模块,用于根据所述整机柜服务器发生故障的概率高低,动态调整监控周期。
5.根据权利要求1所述的监控系统,其特征在于,所述监控系统还包括:
故障预测模块,用于将实时监测到的各个节点的运行状态参数信息输入至故障预测模型,由所述故障预测模型预测故障可能性。
6.根据权利要求5所述的监控系统,其特征在于,所述监控系统还包括:
预设模型修正模块,用于根据准确的预测结果及其对应的各个节点的运行状态参数信息对所述预测模型进行修正。
7.根据权利要求1-6任一项所述的监控系统,其特征在于,所述运行状态参数信息包括:节点的现场可更换单元FRU信息、节点的位置信息、温度信息、功耗信息以及资产信息中的至少一种。
8.根据权利要求1-6任一项所述的监控系统,其特征在于,所述机柜管理单元还用于根据所述各个节点的运行状态参数信息控制节点。
9.根据权利要求8所述的监控系统,其特征在于,所述根据所述各个节点的运行状态参数信息控制节点,具体包括:
控制节点开关机、控制节点网络设置以及对节点定位中的至少一种。
10.根据权利要求1-6任一项所述的监控系统,其特征在于,所述机柜管理单元还用于控制该机柜管理单元的指示灯的开关。
CN201810935551.5A 2018-08-16 2018-08-16 一种云计算数据中心整机柜服务器的监控系统 Pending CN109101400A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810935551.5A CN109101400A (zh) 2018-08-16 2018-08-16 一种云计算数据中心整机柜服务器的监控系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810935551.5A CN109101400A (zh) 2018-08-16 2018-08-16 一种云计算数据中心整机柜服务器的监控系统

Publications (1)

Publication Number Publication Date
CN109101400A true CN109101400A (zh) 2018-12-28

Family

ID=64849893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810935551.5A Pending CN109101400A (zh) 2018-08-16 2018-08-16 一种云计算数据中心整机柜服务器的监控系统

Country Status (1)

Country Link
CN (1) CN109101400A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111338908A (zh) * 2020-03-10 2020-06-26 山东超越数控电子股份有限公司 一种基于bmc自动调整部件监控周期的方法
TWI721411B (zh) * 2019-01-30 2021-03-11 廣達電腦股份有限公司 感測和補償系統和補償溫度效應的方法
CN114002952A (zh) * 2021-09-29 2022-02-01 苏州浪潮智能科技有限公司 一种集群集中式散热调控系统及方法
CN117076253A (zh) * 2023-08-30 2023-11-17 广州逸芸信息科技有限公司 一种数据中心业务及设施多维度智能运维系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105373462A (zh) * 2015-11-12 2016-03-02 浪潮(北京)电子信息产业有限公司 一种整机柜服务器管理的方法及系统
US20160070627A1 (en) * 2014-09-08 2016-03-10 Quanta Computer Inc. Backup management control in a server system
CN105426286A (zh) * 2015-11-05 2016-03-23 浪潮(北京)电子信息产业有限公司 一种对整机柜服务器进行监控的系统
CN105912086A (zh) * 2016-04-26 2016-08-31 浪潮(北京)电子信息产业有限公司 电源模块故障诊断方法、电源模块及整机柜服务器
CN107273273A (zh) * 2017-06-27 2017-10-20 郑州云海信息技术有限公司 一种分布式集群硬件故障预警方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160070627A1 (en) * 2014-09-08 2016-03-10 Quanta Computer Inc. Backup management control in a server system
CN105426286A (zh) * 2015-11-05 2016-03-23 浪潮(北京)电子信息产业有限公司 一种对整机柜服务器进行监控的系统
CN105373462A (zh) * 2015-11-12 2016-03-02 浪潮(北京)电子信息产业有限公司 一种整机柜服务器管理的方法及系统
CN105912086A (zh) * 2016-04-26 2016-08-31 浪潮(北京)电子信息产业有限公司 电源模块故障诊断方法、电源模块及整机柜服务器
CN107273273A (zh) * 2017-06-27 2017-10-20 郑州云海信息技术有限公司 一种分布式集群硬件故障预警方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI721411B (zh) * 2019-01-30 2021-03-11 廣達電腦股份有限公司 感測和補償系統和補償溫度效應的方法
CN111338908A (zh) * 2020-03-10 2020-06-26 山东超越数控电子股份有限公司 一种基于bmc自动调整部件监控周期的方法
CN114002952A (zh) * 2021-09-29 2022-02-01 苏州浪潮智能科技有限公司 一种集群集中式散热调控系统及方法
CN117076253A (zh) * 2023-08-30 2023-11-17 广州逸芸信息科技有限公司 一种数据中心业务及设施多维度智能运维系统

Similar Documents

Publication Publication Date Title
CN109101400A (zh) 一种云计算数据中心整机柜服务器的监控系统
US11126242B2 (en) Time varying power management within datacenters
US10429921B2 (en) Datacenter power management optimizations
Wu et al. Dynamo: Facebook's data center-wide power management system
CN107070726A (zh) 一种基于mdc的综合管理方法
CN102495785A (zh) 整机柜服务器集中管理方法和装置
CN108092813A (zh) 数据中心综合管理系统服务器硬件管理框架及实现方法
CN102833095A (zh) 一种多专业、大容量实时数据采集方法
CN106774752A (zh) 一种Rack服务器备用风扇控制方法
KR20220095313A (ko) 디지털 트윈 기반의 분산 자원 및 전력 계통 운영 계획 시스템 및 운영 계획 방법
US11061458B2 (en) Variable redundancy data center power topology
CN107070753A (zh) 一种分布式集群系统的数据监控方法、装置及系统
CN107861392A (zh) 一种智能家电的数据管理平台及方法
CN110022229A (zh) 一种电网跨区传输通信系统及方法
CN110296501A (zh) 一种空调系统的集中管控系统及方法
CN107086936A (zh) 一种基于mdc的容量管理设计方法
CN102724100B (zh) 一种针对组合服务的板卡资源分配系统及方法
CN105116987A (zh) 一种云计算中心的通用电源和性能管理系统
CN106095642A (zh) 一种基于rmc管理的风扇故障解决方法
CN109491867A (zh) 一种通讯自动恢复方法和装置
WO2019213466A1 (en) Time varying power management within datacenters
CN107783888A (zh) 一种基于ipmi带数据预测功能的服务器管理实现的方法及装置
CN204883337U (zh) Pas100控制系统的通信模块冗余构架
CN108011757A (zh) 一种用于电力行业的智能网络管理方法及装置
CN107506144A (zh) 一种集群存储系统机箱统一管理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181228