CN108880880A - 一种对节点的多级监控系统 - Google Patents
一种对节点的多级监控系统 Download PDFInfo
- Publication number
- CN108880880A CN108880880A CN201810613229.0A CN201810613229A CN108880880A CN 108880880 A CN108880880 A CN 108880880A CN 201810613229 A CN201810613229 A CN 201810613229A CN 108880880 A CN108880880 A CN 108880880A
- Authority
- CN
- China
- Prior art keywords
- interface
- tmc
- bmc
- node
- operation information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/04—Network management architectures or arrangements
- H04L41/044—Network management architectures or arrangements comprising hierarchical management structures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0805—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
- H04L43/0811—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0805—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
- H04L43/0817—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Environmental & Geological Engineering (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种对节点的多级监控系统,包括整机柜服务器和多个BMC,整机柜服务器包括至少一个TMC;BMC和TMC的接口数量相同,均包括至少两个接口,同一类型的各BMC的接口与对应的TMC的一个接口连接。本系统中,每个BMC能够获取对应节点的运行信息,实现一级监控,每个BMC还与TMC连接,使得TMC也能够获取一个节点簇中各节点的运行信息实现二级监控,此外,每个BMC和TMC均包含至少两个接口,每个接口均能够获取节点的运行信息,实现冗余,由此可见,本系统的通过多级监控从而避免单个BMC故障导致监控可靠性降低的风险,同时,通过多个接口实现获取运行信息的冗余,进一步提高了监控的可靠性。
Description
技术领域
本发明涉及节点监控领域,特别是涉及一种对节点的多级监控系统。
背景技术
当前用户不仅对服务器性能的需求越来越高,而且对服务器的需求数量也越来越多。每个服务器构成一个节点,多个节点构成一个集群。集群中的多个节点可以分属同一个节点簇,也可以分属多个节点簇。每个节点有一个BMC(基板管理控制器),每个BMC监控本节点的运行信息。现有技术中,通过整机柜服务器对节点进行统一监控和管理。具体为:整机柜服务器通过一一访问每个BMC以获得对应节点的运行信息。由此可见,该方式下,整机服务器对于各节点的监控仅依赖每个BMC,一旦某一个BMC的接口出现故障,则无法实现监控,造成监控的可靠性降低。并且,单级的监控方式只能获取一个节点簇中的各节点的运行信息,无法获取其它节点簇的各节点的运行信息。
由此可见,如何提供一种可靠的监控系统是本领域技术人员亟待解决的问题。
发明内容
本发明的目的是提供一种对节点的多级监控系统,用于提高监控的可靠性。
为解决上述技术问题,本发明提供一种对节点的多级监控系统,包括整机柜服务器和多个BMC,所述整机柜服务器包括至少一个TMC;
所述BMC和所述TMC的接口数量相同,均包括至少两个接口,同一类型的各所述BMC的接口与对应的TMC的一个接口连接;
其中,所述TMC的数量与集群中节点簇的数量相同,各所述BMC的各接口均获取对应节点的运行信息。
优选地,所述整机柜服务器还包括RMC,所述RMC的接口数量与所述TMC的接口数量相同,同一类型的各所述TMC的接口与所述RMC对应的接口连接。
优选地,所述BMC、所述TMC和所述RMC均包括两个接口,各所述BMC的第一接口与对应的TMC的第一接口连接,各所述TMC的第一接口与所述RMC的第一接口连接,各所述BMC的第二接口与对应的TMC的第二接口连接,各所述TMC的第二接口与所述RMC的第二接口连接。
优选地,各所述BMC的第一接口、各所述TMC的第一接口以及各所述RMC的第一接口采用第一网段连接,各所述BMC的第二接口、各所述TMC的第二接口以及各所述RMC的第二接口采用第二网段连接。
优选地,所述BMC、所述TMC和所述RMC之间通过以太网连接。
优选地,所述运行信息具体包括CPU的运行信息和/或内存的运行信息。
优选地,还包括与各所述TMC连接的第一报警模块,用于在所述运行信息异常时报警提示。
优选地,还包括与所述RMC连接的第二报警模块,用于在所述运行信息异常时报警提示。
优选地,所述第二报警模块具体包括指示灯和用于显示出现异常的运行信息对应的节点位置的显示模块。
本发明所提供的对节点的多级监控系统,包括整机柜服务器和多个BMC,整机柜服务器包括至少一个TMC;BMC和TMC的接口数量相同,均包括至少两个接口,同一类型的各BMC的接口与对应的TMC的一个接口连接;其中,TMC的数量与集群中节点簇的数量相同,各BMC的各接口均获取对应节点的运行信息。本系统中,每个BMC能够获取对应节点的运行信息,实现一级监控,每个BMC还与TMC连接,使得TMC也能够获取一个节点簇中各节点的运行信息实现二级监控,此外,每个BMC和TMC均包含至少两个接口,每个接口均能够获取节点的运行信息,实现冗余,由此可见,本系统的通过多级监控从而避免单个BMC故障导致监控可靠性降低的风险,同时,通过多个接口实现获取运行信息的冗余,进一步提高了监控的可靠性。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种对节点的多级监控系统的结构图;
图2为本发明实施例提供的另一种对节点的多级监控系统的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。
本发明的核心是提供一种对节点的多级监控系统,用于提高监控的可靠性。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
本发明提到的TMC(TrayManagement Controller)的全称为:机箱管理控制器,RMC(RackManagement Controller)的全称为:机架管理控制器。
图1为本发明实施例提供的一种对节点的多级监控系统的结构图。如图1所示,该系统包括整机柜服务器和多个BMC,在图1中每个节点簇内的BMC没有示出,只示出了各BMC的各接口,例如第一接口和第二接口。集群中包括N各节点簇,其各接口均获取对应节点的运行信息。运行信息具体包括CPU的运行信息和/或内存的运行信息。
整机柜服务器包括至少一个TMC,图1中,用TMC0-TMCN表示,一个TMC与一个节点簇对应,即TMC的数量与集群中节点簇的数量相同。
图1中,BMC和TMC均包括两个接口,分别是第一接口和第二接口,同一类型的各BMC的接口与对应的TMC的一个接口连接,即同一个节点簇内的全部BMC的第一接口与本节点簇对应的TMC的第一接口连接,同一个节点簇内的全部BMC的第二接口与本节点簇对应的TMC的第二接口连接。对应于图1中,节点簇0中的全部BMC的第一接口与TMC0的第一接口连接,节点簇0中的全部BMC的第二接口与TMC0的第二接口连接,节点簇N中的全部BMC的第一接口与TMCN的第一接口连接,节点簇N中的全部BMC的第二接口与TMCN的第二接口连接。
以接口的数量均为2个为例,进行说明,在具体实施中,每个BMC的两个接口获取到本节点的运行信息,即同一个BMC的两个接口获取的内容是相同的,用户可以通过访问单个BMC以获取单个节点的运行信息,属于一级监控单元。同一个节点簇内的各BMC的第一接口均与本节点簇对应的TMC的第一接口连接,使得该TMC的第一接口可以得到本节点簇内全部节点的运行信息,同一个节点簇内的各BMC的第二接口均与本节点簇对应的TMC的第二接口连接,使得该TMC的第二接口可以得到本节点簇内全部节点的运行信息,使得该TMC无论通过第一接口还是第二接口均可以得到本节点簇内全部节点的运行信息,属于二级监控单元,当某一运行信息异常时,通过查看TMC能够实现对异常运行信息的定位,不需要再逐个排除。事实上,TMC的第一接口和第二接口可以是择一工作,另外一个处于备用状态,当出现故障时,处于备用状态的接口再继续获取节点的运行信息。
本实施例提供的对节点的多级监控系统,包括整机柜服务器和多个BMC,整机柜服务器包括至少一个TMC;BMC和TMC的接口数量相同,均包括至少两个接口,同一类型的各BMC的接口与对应的TMC的一个接口连接;其中,TMC的数量与集群中节点簇的数量相同,各BMC的各接口均获取对应节点的运行信息。本系统中,每个BMC能够获取对应节点的运行信息,实现一级监控,每个BMC还与TMC连接,使得TMC也能够获取一个节点簇中各节点的运行信息实现二级监控,此外,每个BMC和TMC均包含至少两个接口,每个接口均能够获取节点的运行信息,实现冗余,由此可见,本系统的通过多级监控从而避免单个BMC故障导致监控可靠性降低的风险,同时,通过多个接口实现获取运行信息的冗余,进一步提高了监控的可靠性。
图2为本发明实施例提供的另一种对节点的多级监控系统的结构图。在上一实施例的基础上,整机柜服务器还包括RMC,RMC的接口数量与TMC的接口数量相同,同一类型的各TMC的接口与RMC对应的接口连接。
如图2所示,RMC具有两个接口,全部TMC的第一接口与RMC的第一接口连接,全部TMC的第二接口与RMC的第二接口连接,即TMC0-TMCN的第一接口均与RMC的第一接口连接,TMC0-TMCN的第二接口均与RMC的第二接口连接。可以理解的是,由于每个TMC能够获取对应节点簇的各节点的运行信息,因此,RMC就可以获取集群中全部节点的运行信息,属于三级监控单元,当某一运行信息异常时,通过查看RMC能够实现对异常运行信息的定位,不需要再逐个排除。
作为优选地实施方式,各BMC的第一接口、各TMC的第一接口以及各RMC的第一接口采用第一网段连接,各BMC的第二接口、各TMC的第二接口以及各RMC的第二接口采用第二网段连接。
根据上文的描述,各BMC的第一接口、各TMC的第一接口以及各RMC的第一接口与对应的第二接口是相互独立且互为冗余,因此为了避免产生网络风暴,不同的接口所在的网段不同。优选地,BMC、TMC和RMC之间通过以太网连接。
在另一实施例中,还包括与各TMC连接的第一报警模块,用于在运行信息异常时报警提示。
本实施例在上述实施例的基础上,增加了第一报警模块,使得在运行信息异常时报警提示。第一报警模块的类型可以是蜂鸣器或指示灯,本发明不做限定。
在另一实施例中,还包括与RMC连接的第二报警模块,用于在运行信息异常时报警提示。
本实施例在上述实施例的基础上,增加了第二报警模块,使得在运行信息异常时报警提示。作为优选地实施方式,第二报警模块具体包括指示灯和用于显示出现异常的运行信息对应的节点位置的显示模块。具体的,显示模块可以显示出节点的具体位置,以便用户快速进行故障定位。
以上对本发明所提供的对节点的多级监控系统进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (9)
1.一种对节点的多级监控系统,其特征在于,包括整机柜服务器和多个BMC,所述整机柜服务器包括至少一个TMC;
所述BMC和所述TMC的接口数量相同,均包括至少两个接口,同一类型的各所述BMC的接口与对应的TMC的一个接口连接;
其中,所述TMC的数量与集群中节点簇的数量相同,各所述BMC的各接口均获取对应节点的运行信息。
2.根据权利要求1所述的对节点的多级监控系统,其特征在于,所述整机柜服务器还包括RMC,所述RMC的接口数量与所述TMC的接口数量相同,同一类型的各所述TMC的接口与所述RMC对应的接口连接。
3.根据权利要求2所述的对节点的多级监控系统,其特征在于,所述BMC、所述TMC和所述RMC均包括两个接口,各所述BMC的第一接口与对应的TMC的第一接口连接,各所述TMC的第一接口与所述RMC的第一接口连接,各所述BMC的第二接口与对应的TMC的第二接口连接,各所述TMC的第二接口与所述RMC的第二接口连接。
4.根据权利要求3所述的对节点的多级监控系统,其特征在于,各所述BMC的第一接口、各所述TMC的第一接口以及各所述RMC的第一接口采用第一网段连接,各所述BMC的第二接口、各所述TMC的第二接口以及各所述RMC的第二接口采用第二网段连接。
5.根据权利要求3所述的对节点的多级监控系统,其特征在于,所述BMC、所述TMC和所述RMC之间通过以太网连接。
6.根据权利要求1所述的对节点的多级监控系统,其特征在于,所述运行信息具体包括CPU的运行信息和/或内存的运行信息。
7.根据权利要求1-6任意一项所述的对节点的多级监控系统,其特征在于,还包括与各所述TMC连接的第一报警模块,用于在所述运行信息异常时报警提示。
8.根据权利要求1-6任意一项所述的对节点的多级监控系统,其特征在于,还包括与所述RMC连接的第二报警模块,用于在所述运行信息异常时报警提示。
9.根据权利要求8所述的对节点的多级监控系统,其特征在于,所述第二报警模块具体包括指示灯和用于显示出现异常的运行信息对应的节点位置的显示模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810613229.0A CN108880880A (zh) | 2018-06-14 | 2018-06-14 | 一种对节点的多级监控系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810613229.0A CN108880880A (zh) | 2018-06-14 | 2018-06-14 | 一种对节点的多级监控系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108880880A true CN108880880A (zh) | 2018-11-23 |
Family
ID=64338283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810613229.0A Pending CN108880880A (zh) | 2018-06-14 | 2018-06-14 | 一种对节点的多级监控系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108880880A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104035831A (zh) * | 2014-07-01 | 2014-09-10 | 浪潮(北京)电子信息产业有限公司 | 一种高端容错计算机管理系统及方法 |
CN104360927A (zh) * | 2014-12-11 | 2015-02-18 | 浪潮电子信息产业股份有限公司 | 一种基于numa的计算机体系结构的监控信息采集方法 |
CN104731727A (zh) * | 2015-03-25 | 2015-06-24 | 浪潮集团有限公司 | 一种双控存储系统监控管理系统及方法 |
CN105681359A (zh) * | 2016-04-01 | 2016-06-15 | 浪潮电子信息产业股份有限公司 | 一种监控机柜的装置及方法 |
CN106250291A (zh) * | 2016-08-04 | 2016-12-21 | 浪潮(北京)电子信息产业有限公司 | 一种整机柜服务器的管理装置及整机柜服务器 |
US20170315599A1 (en) * | 2016-05-02 | 2017-11-02 | Samsung Electronics Co., Ltd. | Ssd driven system level thermal management |
-
2018
- 2018-06-14 CN CN201810613229.0A patent/CN108880880A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104035831A (zh) * | 2014-07-01 | 2014-09-10 | 浪潮(北京)电子信息产业有限公司 | 一种高端容错计算机管理系统及方法 |
CN104360927A (zh) * | 2014-12-11 | 2015-02-18 | 浪潮电子信息产业股份有限公司 | 一种基于numa的计算机体系结构的监控信息采集方法 |
CN104731727A (zh) * | 2015-03-25 | 2015-06-24 | 浪潮集团有限公司 | 一种双控存储系统监控管理系统及方法 |
CN105681359A (zh) * | 2016-04-01 | 2016-06-15 | 浪潮电子信息产业股份有限公司 | 一种监控机柜的装置及方法 |
US20170315599A1 (en) * | 2016-05-02 | 2017-11-02 | Samsung Electronics Co., Ltd. | Ssd driven system level thermal management |
CN106250291A (zh) * | 2016-08-04 | 2016-12-21 | 浪潮(北京)电子信息产业有限公司 | 一种整机柜服务器的管理装置及整机柜服务器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103607297B (zh) | 一种计算机集群系统的故障处理方法 | |
US20030046339A1 (en) | System and method for determining location and status of computer system server | |
EP2093934B1 (en) | System, device, equipment and method for monitoring management | |
US6385665B1 (en) | System and method for managing faults in a data transmission system | |
US20140372805A1 (en) | Self-healing managed customer premises equipment | |
CN105391588B (zh) | 一种网络故障的诊断方法及装置 | |
CN109656767A (zh) | 一种cpld状态信息的获取方法、系统及相关组件 | |
WO2021136370A1 (zh) | 一种分布式系统的业务恢复方法及系统 | |
CN112035319A (zh) | 一种针对多路径状态的监控告警系统 | |
US20090315395A1 (en) | Fieldbus system with shared redundancy system | |
US20090006902A1 (en) | Methods, systems, and computer program products for reporting fru failures in storage device enclosures | |
CN110474821A (zh) | 节点故障检测方法及装置 | |
CN108959025A (zh) | 一种服务器告警方法、装置及服务器 | |
CN109921949A (zh) | 一种灾备系统冗余机制的实现方法 | |
US20130090760A1 (en) | Apparatus and method for managing robot components | |
CN108829570A (zh) | 服务器节点信息显示控制方法、装置、系统及存储介质 | |
CN106446311B (zh) | Cpu告警电路及告警方法 | |
CN108880880A (zh) | 一种对节点的多级监控系统 | |
CN110488206B (zh) | 一种故障监控系统 | |
CN106791667A (zh) | 一种显示视频的方法及控制装置 | |
US20060195558A1 (en) | Redundant manager modules | |
CN102638369B (zh) | 一种主备倒换的仲裁方法、装置和系统 | |
TW201201013A (en) | Method and multiple computer system with a failover support to manage shared resources | |
CN108718256A (zh) | 一种对节点的冗余监控系统 | |
Cisco | Troubleshooting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181123 |
|
RJ01 | Rejection of invention patent application after publication |