CN108718256A - 一种对节点的冗余监控系统 - Google Patents

一种对节点的冗余监控系统 Download PDF

Info

Publication number
CN108718256A
CN108718256A CN201810613243.0A CN201810613243A CN108718256A CN 108718256 A CN108718256 A CN 108718256A CN 201810613243 A CN201810613243 A CN 201810613243A CN 108718256 A CN108718256 A CN 108718256A
Authority
CN
China
Prior art keywords
bmc
monitoring
smc
interface
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810613243.0A
Other languages
English (en)
Inventor
叶笑夕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810613243.0A priority Critical patent/CN108718256A/zh
Publication of CN108718256A publication Critical patent/CN108718256A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0695Management of faults, events, alarms or notifications the faulty arrangement being the maintenance, administration or management system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种对节点的冗余监控系统,包括:整机柜服务器和多个BMC,整机柜服务器至少包含一组监控单元,监控单元包括至少2个SMC,各SMC包括管理接口和SMC监控接口,各BMC包括至少2个BMC监控接口,各BMC监控接口均获取本节点的运行信息,同一个监控单元中的各SMC监控接口分别与各BMC中的其中一个BMC监控接口连接。由此可见,每个BMC构成了一级监控,通过其中一个BMC即可确定对应节点的运行信息。每个监控单元构成了二级监控,通过监控单元即可确定对应节点簇中各节点的运行信息。并且,每个监控单元中的各SMC互为冗余,因此,二级监控具有冗余,对于单个SMC的要求就可以适当降低,提高监控系统的可靠性。

Description

一种对节点的冗余监控系统
技术领域
本发明涉及节点监控领域,特别是涉及一种对节点的冗余监控系统。
背景技术
当前用户不仅对服务器性能的需求越来越高,而且对服务器的需求数量也越来越多。每个服务器构成一个节点,多个节点构成一个集群。现有技术中,通过整机柜服务器对节点进行统一监控和管理。具体为:整机柜服务器包含有一个或多个SMC(系统管理控制器),集群中包含有一簇或多簇节点,称为节点簇,每个节点簇中包含有多个节点,每个节点有一个BMC(基板管理控制器),每个BMC监控本节点的运行信息,每个SMC与所在节点簇的各节点的BMC连接,以将所在节点簇的各节点的运行信息作为监控对象。
现有技术中,各节点簇的所有BMC均与对应的一个SMC连接,当SMC故障时,用户就无法获取该SMC对应的全部BMC的运行信息,而且,当某一运行信息表征故障时,也无法对故障位置进行定位,最后,由于现有的监控方式决定了,各节点簇对应的SMC必须可靠性工作,因此,对于SMC依赖程度也是非常高。
由此可见,如何提供一种可靠的监控系统是本领域技术人员亟待解决的问题。
发明内容
本发明的目的是提供一种对节点的冗余监控系统,用于提高监控过程的可靠性,降低对SMC的依赖程度。
为解决上述技术问题,本发明提供一种对节点的冗余监控系统,包括:整机柜服务器和多个BMC,所述整机柜服务器至少包含一组监控单元,所述监控单元包括至少2个SMC,各所述SMC包括用于控制自身运行的管理接口和用于与对应的所述BMC连接的SMC监控接口,各所述BMC包括至少2个BMC监控接口,各所述BMC监控接口均获取本节点的运行信息,同一个所述监控单元中的各所述SMC监控接口分别与各所述BMC中的其中一个所述BMC监控接口连接以获取全部节点的所述运行信息,其中各所述监控单元中的所述SMC的数量与各所述BMC中的所述BMC监控接口的数量相同,所述监控单元的数量与集群中节点簇的数量相同,同一个所述监控单元中的各所述SMC互为冗余。
优选地,所述监控单元具体包括2个SMC,分别为SMC0和SMC1,所述BMC具体包括2个BMC监控接口,分别为BMC监控接口0和BMC监控接口1,各所述BMC监控接口0与所述SMC0连接,各所述BMC监控接口1与所述SMC1连接。
优选地,同一个所述监控单元中的各所述SMC具体采用不同的网段与对应的所述BMC监控接口连接。
优选地,各所述SMC具体通过以太网与对应的所述BMC监控接口连接。
优选地,所述运行信息具体包括CPU的运行信息和/或内存的运行信息。
优选地,所述SMC监控接口还与所在SMC对应的外围器件连接以获取所述外围器件的状态参数。
优选地,所述外围器件具体包括风扇和电源。
优选地,还包括与所述SMC连接的报警模块,用于在所述运行信息或所述状态参数异常时报警提示。
本发明所提供的对节点的冗余监控系统,包括:整机柜服务器和多个BMC,整机柜服务器至少包含一组监控单元,监控单元包括至少2个SMC,各SMC包括用于控制自身运行的管理接口和用于与对应的BMC连接的SMC监控接口,各BMC包括至少2个BMC监控接口,各BMC监控接口均获取本节点的运行信息,同一个监控单元中的各SMC监控接口分别与各BMC中的其中一个BMC监控接口连接以获取全部节点的运行信息,其中各监控单元中的SMC的数量与各BMC中的BMC监控接口的数量相同,监控单元的数量与集群中节点簇的数量相同,同一个监控单元中的各SMC互为冗余。由此可见,本系统中,每个BMC构成了一级监控,通过其中一个BMC即可确定对应节点的运行信息。每个监控单元构成了二级监控,通过监控单元即可确定对应节点簇中各节点的运行信息。并且,每个监控单元中的各SMC互为冗余,因此,二级监控具有冗余,对于单个SMC的要求就可以适当降低,提高监控系统的可靠性。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种对节点的冗余监控系统的结构图;
图2中是图1中一组节点簇对应的接口连接示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。
本发明的核心是提供一种对节点的冗余监控系统,用于提高监控过程的可靠性,降低对SMC的依赖程度。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
图1为本发明实施例提供的一种对节点的冗余监控系统的结构图。如图1所示,该系统包括:整机柜服务器10和多个BMC。图1中,以节点簇的数量为2个,监控单元的数量为2个,监控单元中的SMC的数量为2个,BMC中的BMC监控接口的数量为2个,每个节点簇包括3个节点为例说明,需要说明的是,图1只是一种具体应用场景,并不代表只有这一种应用场景。图2中是图1中一组节点簇对应的接口连接示意图。图2中,仅包括一组节点簇,该节点簇中包括N个节点,对应的有N个BMC监控单元包括SMC0和SMC1。
图1中,整机柜服务器10包含两组监控单元。每组监控单元包括2个SMC,分别是SMC0和SMC1。如图2所示,SMC0包括用于控制自身运行的管理接口和用于与对应的BMC(BMC10的BMC监控接口0、BMC11的BMC监控接口0和BMC12的BMC监控接口0)连接的SMC监控接口,BMC包括2个BMC监控接口,分别为BMC监控接口0和BMC监控接口1,各BMC监控接口均获取本节点的运行信息,同一个监控单元中的各SMC监控接口分别与各BMC中的其中一个BMC监控接口连接以获取全部节点的运行信息。
可以理解的是,各监控单元中的SMC的数量与各BMC中的BMC监控接口的数量相同,监控单元的数量与集群中节点簇的数量相同,同一个监控单元中的各SMC互为冗余。需要说明的是,同一个监控单元中的各SMC监控接口分别与各BMC中的其中一个BMC监控接口连接对应在图2中就是,SMC0与每个BMC(本节点簇中的BMC)的一个BMC监控接口连接,即BMC10的BMC监控接口0、BMC11的BMC监控接口0、BMC12的BMC监控接口0、……、BMC1N的BMC监控接口0连接,SMC1与每个BMC(本节点簇中的BMC)的一个BMC监控接口连接,即BMC10的BMC监控接口1、BMC11的BMC监控接口11、BMC12的BMC监控接口1、……、BMC1N的BMC监控接口1连接。由于BMC监控接口均获取本节点的运行信息,因此,同一个BMC来说,其两个BMC监控接口获取的运行信息是相同的,如图2所示,同一个BMC的BMC监控接口0和BMC监控接口1获取的运行信息是相同。由于上述的连接关系,使得同一个监控单元内的SMC能够获取到同一个节点簇的运行信息,如图2所示,SMC0的SMC监控接口和SMC1的SMC监控接口能够获取到相同的运行信息,而SMC0的和SMC1是相互独立且互为冗余,因此,在具体实施中,仅有其中一个处于工作状态,只有在当前的SMC处于故障时,再启用另外一个SMC,从而达到冗余监控的目的。
需要说明的是,在具体实施中,需要将全部的BMC监控接口0与SMC0的SMC监控接口连接,将全部的BMC监控接口1与SMC1的SMC监控接口连接,BMC中的一个监控接口只与一个SMC监控连接,与上文中提到的“同一个监控单元中的各SMC监控接口分别与各BMC中的其中一个BMC监控接口连接以获取全部节点的运行信息”是相对应的。这样的连接方式使得BMC监控接口之间是相互独立的,能够防止某一个BMC监控接口出现故障,而无法获取所在节点的运行信息。由此可见,每个BMC构成了一级监控,通过其中一个BMC即可确定对应节点的运行信息。
在正常情况下,用户通过SMC0获取所在节点簇中各节点的运行信息,SMC1处于休眠状态,当SMC0故障时,启动SMC1,通过SMC1获取该节点簇中各节点的运行信息。由此可见,每个监控单元构成了二级监控,通过监控单元即可确定对应节点簇中各节点的运行信息。并且,二级监控具有冗余,提高监控系统的可靠性。
另外,本实施例中提到的管理接口是对SMC进行管理和控制的专用接口。运行信息具体包括CPU的运行信息和/或内存的运行信息。可以理解的是,除了这两种运行信息外,还可以包含其它运行信息,本发明不作限定。
本实施例提供的对节点的冗余监控系统,包括:整机柜服务器和多个BMC,整机柜服务器至少包含一组监控单元,监控单元包括至少2个SMC,各SMC包括用于控制自身运行的管理接口和用于与对应的BMC连接的SMC监控接口,各BMC包括至少2个BMC监控接口,各BMC监控接口均获取本节点的运行信息,同一个监控单元中的各SMC监控接口分别与各BMC中的其中一个BMC监控接口连接以获取全部节点的运行信息,其中各监控单元中的SMC的数量与各BMC中的BMC监控接口的数量相同,监控单元的数量与集群中节点簇的数量相同,同一个监控单元中的各SMC互为冗余。由此可见,本系统中,每个BMC构成了一级监控,通过其中一个BMC即可确定对应节点的运行信息。每个监控单元构成了二级监控,通过监控单元即可确定对应节点簇中各节点的运行信息。并且,每个监控单元中的各SMC互为冗余,因此,二级监控具有冗余,对于单个SMC的要求就可以适当降低,提高监控系统的可靠性。
在上述实施例的基础上,监控单元具体包括2个SMC,分别为SMC0和SMC1,BMC具体包括2个BMC监控接口,分别为BMC监控接口0和BMC监控接口1,各BMC监控接口0与SMC0连接,各BMC监控接口1与SMC1连接。图2中,就是以监控单元包括2个SMC为例的示意图,具体工作过程参见上文不再赘述。需要再次说明的是,监控单元中SMC的数量与本节点簇内节点的数量没有关系,例如,节点数量可以为10个,监控单元中SMC的数量为2个,或者节点数量可以为20个,监控单元中SMC的数量仍然为2个。在具体实施中,只要将全部的BMC监控接口0与SMC0的SMC监控接口连接,将全部的BMC监控接口1与SMC1的SMC监控接口连接即可。
在上述实施例的基础上,作为优选地实施方式,同一个监控单元中的各SMC具体采用不同的网段与对应的BMC监控接口连接。
根据上文的描述,同一个监控单元中的各SMC是相互独立且互为冗余,因此,为了避免产生网络风暴,不同的SMC采用不同的网段,如图2中,SMC0与各SMC监控接口0的连接采用某一个网段,而SMC1与各SMC监控接口1的连接采用另一个网段。优选地,各SMC具体通过以太网与对应的BMC监控接口连接。
在另一实施例中,SMC监控接口还与所在SMC对应的外围器件连接以获取外围器件的状态参数。
可以理解的是,SMC需要外围器件的共同协助以实现正常功能,事实上,SMC以及其外围器件构成一个机箱。多个机箱构成一个整机柜服务器10。优选地,外围器件具体包括风扇和电源。可以理解的是,除了这两种器件外,还可以包括种类,并不限定只能是这两种。
在另一实施例中,还包括与SMC连接的报警模块,用于在运行信息或状态参数异常时报警提示。
本实施例在上述实施例的基础上,增加了报警模块,使得在运行信息或状态参数异常时报警提示。报警模块的类型可以是蜂鸣器或指示灯,本发明不做限定。
以上对本发明所提供的对节点的冗余监控系统进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (8)

1.一种对节点的冗余监控系统,其特征在于,包括:整机柜服务器和多个BMC,所述整机柜服务器至少包含一组监控单元,所述监控单元包括至少2个SMC,各所述SMC包括用于控制自身运行的管理接口和用于与对应的所述BMC连接的SMC监控接口,各所述BMC包括至少2个BMC监控接口,各所述BMC监控接口均获取本节点的运行信息,同一个所述监控单元中的各所述SMC监控接口分别与各所述BMC中的其中一个所述BMC监控接口连接以获取全部节点的所述运行信息,其中各所述监控单元中的所述SMC的数量与各所述BMC中的所述BMC监控接口的数量相同,所述监控单元的数量与集群中节点簇的数量相同,同一个所述监控单元中的各所述SMC互为冗余。
2.根据权利要求1所述的对节点的冗余监控系统,其特征在于,所述监控单元具体包括2个SMC,分别为SMC0和SMC1,所述BMC具体包括2个BMC监控接口,分别为BMC监控接口0和BMC监控接口1,各所述BMC监控接口0与所述SMC0连接,各所述BMC监控接口1与所述SMC1连接。
3.根据权利要求1或2所述的对节点的冗余监控系统,其特征在于,同一个所述监控单元中的各所述SMC具体采用不同的网段与对应的所述BMC监控接口连接。
4.根据权利要求3所述的对节点的冗余监控系统,其特征在于,各所述SMC具体通过以太网与对应的所述BMC监控接口连接。
5.根据权利要求1所述的对节点的冗余监控系统,其特征在于,所述运行信息具体包括CPU的运行信息和/或内存的运行信息。
6.根据权利要求1所述的对节点的冗余监控系统,其特征在于,所述SMC监控接口还与所在SMC对应的外围器件连接以获取所述外围器件的状态参数。
7.根据权利要求6所述的对节点的冗余监控系统,其特征在于,所述外围器件具体包括风扇和电源。
8.根据权利要求7所述的对节点的冗余监控系统,其特征在于,还包括与所述SMC连接的报警模块,用于在所述运行信息或所述状态参数异常时报警提示。
CN201810613243.0A 2018-06-14 2018-06-14 一种对节点的冗余监控系统 Pending CN108718256A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810613243.0A CN108718256A (zh) 2018-06-14 2018-06-14 一种对节点的冗余监控系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810613243.0A CN108718256A (zh) 2018-06-14 2018-06-14 一种对节点的冗余监控系统

Publications (1)

Publication Number Publication Date
CN108718256A true CN108718256A (zh) 2018-10-30

Family

ID=63912051

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810613243.0A Pending CN108718256A (zh) 2018-06-14 2018-06-14 一种对节点的冗余监控系统

Country Status (1)

Country Link
CN (1) CN108718256A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030056539A (ko) * 2001-12-28 2003-07-04 한국전자통신연구원 서버 보드를 이용한 리눅스 클러스터의 노드 진단 장치 및방법
CN103117874A (zh) * 2013-01-18 2013-05-22 浪潮电子信息产业股份有限公司 一种刀片服务器管理网络快速配置方法
CN103473152A (zh) * 2013-09-25 2013-12-25 浪潮电子信息产业股份有限公司 一种刀片服务器主备管理模块备份及更新方法
CN104731727A (zh) * 2015-03-25 2015-06-24 浪潮集团有限公司 一种双控存储系统监控管理系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030056539A (ko) * 2001-12-28 2003-07-04 한국전자통신연구원 서버 보드를 이용한 리눅스 클러스터의 노드 진단 장치 및방법
CN103117874A (zh) * 2013-01-18 2013-05-22 浪潮电子信息产业股份有限公司 一种刀片服务器管理网络快速配置方法
CN103473152A (zh) * 2013-09-25 2013-12-25 浪潮电子信息产业股份有限公司 一种刀片服务器主备管理模块备份及更新方法
CN104731727A (zh) * 2015-03-25 2015-06-24 浪潮集团有限公司 一种双控存储系统监控管理系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
叶操: "面向自主刀片服务器的智能监控管理系统设计", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Similar Documents

Publication Publication Date Title
US20020029097A1 (en) Wind farm control system
CN109375750A (zh) 存储服务器风扇散热组的控制方法、装置、介质及设备
CN107612748A (zh) 一种多节点服务器功耗管理系统
WO2015090098A1 (zh) 一种实现故障定位的方法及装置
CN110515801A (zh) 一种oled显示设备、服务器状态的监控方法及服务器
EP2853962A1 (en) Identification method for pan-tilt apparatus, pan-tilt apparatus, camera and control system for pan-tilt apparatus
CN107947998A (zh) 一种基于应用系统的实时监测系统
ES2436070T3 (es) Sistema y método para gestionar configuraciones de dispositivos NCPI
CN108073477A (zh) 设备监控系统、设备和设备监控方法
CN106506256A (zh) 一种基于平台+插件的设备监控系统及方法
CA2473467A1 (en) Remote sensing of power supply states
CN105072386A (zh) 一种基于多播技术的视频联网系统及状态监测方法
CN105549696A (zh) 具有机箱管理功能的机架式服务器系统
CN109921949A (zh) 一种灾备系统冗余机制的实现方法
CN106506248A (zh) 一种服务器智能监控系统
CN110365524A (zh) 服务器节点固件的镜像升级方法及系统
CN108718256A (zh) 一种对节点的冗余监控系统
CN106446311B (zh) Cpu告警电路及告警方法
US9293031B2 (en) System and method for using customer data networks for alarm systems
CN110474821A (zh) 节点故障检测方法及装置
CN111641680A (zh) 一种Ambari高可用集群的管理方法
CN108880880A (zh) 一种对节点的多级监控系统
CN109491875A (zh) 一种机器人信息显示方法、系统及设备
CN106230614A (zh) 登录故障自动监控修复方法、系统及电力企业信息系统
KR20090026873A (ko) 배전 자동화 모의훈련 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181030

RJ01 Rejection of invention patent application after publication