CN103138975B - 多个机架系统的托管方法 - Google Patents

多个机架系统的托管方法 Download PDF

Info

Publication number
CN103138975B
CN103138975B CN201110385613.8A CN201110385613A CN103138975B CN 103138975 B CN103138975 B CN 103138975B CN 201110385613 A CN201110385613 A CN 201110385613A CN 103138975 B CN103138975 B CN 103138975B
Authority
CN
China
Prior art keywords
integration
administration module
machine frame
module
management module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110385613.8A
Other languages
English (en)
Other versions
CN103138975A (zh
Inventor
王浩皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rydberg Information Technology Zhejiang Co ltd
Original Assignee
Inventec Pudong Technology Corp
Inventec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Pudong Technology Corp, Inventec Corp filed Critical Inventec Pudong Technology Corp
Priority to CN201110385613.8A priority Critical patent/CN103138975B/zh
Priority to US13/396,118 priority patent/US8965993B2/en
Publication of CN103138975A publication Critical patent/CN103138975A/zh
Application granted granted Critical
Publication of CN103138975B publication Critical patent/CN103138975B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/28Restricting access to network management systems or functions, e.g. using authorisation function to access network configuration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2033Failover techniques switching over of hardware resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2097Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements maintaining the standby controller/processing unit updated
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/64Hybrid switching systems
    • H04L12/6418Hybrid transport
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/04Network management architectures or arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2048Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share neither address space nor persistent storage

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)

Abstract

一种多个机架系统的托管方法,其包括下列步骤。提供这些机架系统,每个机架系统分别包括一个整合管理模块以及多个机架内部设备。分配这些机架系统为至少一组的机架组,并选择在每一个机架组内的多个整合管理模块其中之一为一主要整合管理模块。此主要整合管理模块与其他整合管理模块通过网络连接,并进行一同步配置程序,以备份在此机架组内的其他整合管理模块的多个配置信息。当一特定整合管理模块发生异常,或是特定整合管理模块提出一托管请求时,主要整合管理模块则通过网络以管理上述特定整合管理模块原先所管理的机架内部设备。

Description

多个机架系统的托管方法
技术领域
本发明是有关于一种集中管理服务器的技术,且特别是有关于一种多个机架系统的托管方法。
背景技术
许多企业依据其所提供的云端服务或是业务需求而设置许多服务器,并将这些服务器整合成可集中管理的机架系统,藉以节省服务器的管理成本。
图1说明机架系统100的方块示意图。机架系统100内部放置网络交换机120和多台服务器110_1~110_n,n为正整数。服务器110_1~110_n各自具有一个网络端口,这些网络端口均连接至网络交换机120。
服务器110_1~110_n通过网络交换机120连接至网际网络(internet)10,网际网络10也可以称作服务网络。每台服务器都是一个独立的电脑系统。举例而言,每台服务器110_1~110_n各自包含电源供应器、基板管理控制器(BMC)、以及用于散热的多个风扇。在传统的机架系统100中,各个服务器110_1~110_n通过基板管理控制器以各自管理自身的电源供应器与风扇,藉以管控其内部的功耗与温度。
由于需要对整个机架系统100中的相关设备进行管理,因此机架系统100还设有管理模块。由于整合管理模块对于机架系统而言十分重要,因此若其出现故障时,需要具备备援措施。
发明内容
本发明提供一种机架系统的托管方法,其从每个机架组的多个机架系统中选择出一个首领(主要整合管理模块),此首领通过网络对机架组内的所有整合管理模块进行同步备份以及进行托管,因此具有高可靠性且利于集中管理服务器,而不需额外增加硬件成本。
本发明提出一种多个机架系统的托管方法,其包括下列步骤。提供这些机架系统,其中每个机架系统分别包括一个整合管理模块以及多个机架内部设备,这些整合管理模块通过网络分别管理这些机架内部设备。分配这些机架系统为至少一组的机架组,并选择在每一个机架组内的多个整合管理模块其中之一为一主要整合管理模块。此主要整合管理模块与其他整合管理模块通过网络连接,并进行一同步配置程序,以备份在此机架组内的其他整合管理模块的多个配置信息。当一特定整合管理模块发生异常,或是此特定整合管理模块提出一托管请求时,主要整合管理模块则通过网络以管理上述特定整合管理模块原先管理的机架内部设备。
在本发明之一实施例中,此托管方法更包括下列步骤。选择在此机架组内多个整合管理模块其中的另一个以作为一次要整合管理模块。此次要整合管理模块进行上述的同步配置程序,以备份在此机架组内的其他整合管理模块的配置信息。当特定整合管理模块发生异常,或是特定整合管理模块提出托管请求时,次要整合管理模块判断上述特定整合管理模块是否为主要整合管理模块。以及,当特定整合管理模块为主要整合管理模块时,则将次要整合管理模块转换为主要整合管理模块,并从机架组内的其他正常工作的整合管理模块中选择其中一个,以成为新的次要整合管理模块。
在本发明的一实施例中,上述的主要整合管理模块执行服务器管理程序、散热管理程序或电源管理程序,藉以管理所述主要的机架内部设备和/或所述被托管的特定机架内部设备。
基于上述,从每个机架组的多个机架系统中选择出一个首领(主要整合管理模块)以及副首领(次要整合管理模块)。首领与副首领通过网络对机架组内的所有整合管理模块进行同步备份。并且,在某个整合管理模块发生异常或提出托管请求时,首领得以利用备份的数据来即时管控需被托管的机架内部设备,副首领则作为首领的冗余设备。因此,本实施例所提出的管控方法具有高可靠性且可将异常的整合管理模块进行托管,利于集中管理服务器并不需额外增加硬件成本。
为让本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图式作详细说明如下。
附图说明
图1说明机架系统的方块示意图。
图2是依照本发明实施例以说明多个机架系统的托管方法的流程图。
图3是依照本发明实施例说明机架组与机架系统的功能模块示意图。
【主要元件符号说明】
10:网际网络(服务网络)
20:管理网络
100:机架系统
110_1~110_n、320_1~320_4:服务器
120:网络交换机
100、300_1~300_4:机架系统
305:机架组
330_1~330_4:电力供应单元
340_1~340_4:风扇单元
350_1~350_4:整合管理模块
360_1~360_4:服务网络交换机
370_1~370_4:管理网络交换机
S210~S297:步骤
具体实施方式
由于以往在每个机架系统中仅具备单个整合管理模块,或是仅能在每个机架系统中配置多个整合管理模块,藉以相互备援与托管,避免在整合管理模块发生故障或损坏时,机架系统无法运作的情形。
于此,本发明实施例会将多个机架系统进行分组,并在同组中选出其中一个整合管理模块作为首领(主要整合管理模块),使同组中机架系统的各个整合管理模块会通过网络对首领进行同步备份。当某个整合管理模块发生异常或故障、或是发出托管请求时,主要整合管理模块便可通过备份的配置数据以主动承担所对应的机架系统以及其管理工作,藉以维持组内机架系统及服务器的正常运作。
此外,本实施例也会从每组中选出另整合管理模块作为此组的副首领(次要整合管理模块),以当首领发生异常或是发出托管请求时,副首领会另外选择正常运作的整合管理模块,藉以接管发生异常的首领或副首领的监测工作。
图2是依照本发明实施例以说明多个机架系统300_1~300_M的监控方法的流程图,M为正整数。图2所述的监控方法适用于多个机架系统300_1~300_M。为方便说明,本实施例在下述说明中可将机架系统300_1~300_M分别称为是机架1至机架M,并于下图3的相关叙述中详加说明机架系统300_1~300_M的硬件结构。并且,符合本发明实施例的M可为2或是大于2的正整数,但此仅为举例,并不限制本发明。
首先,于步骤S210中,本实施例提供多个机架系统300_1~300_M。本实施例将机架系统300_1~300_M架设于货柜中以提供机架1至机架M。每个机架系统300_1~300_M分别包括一个整合管理模块(IntegratedManagementModule;IMM)350_1~350_M以及多个机架内部设备。各个整合管理模块350_1~350_M皆会通过网络来分别管理对应机架系统300_1~300_M内的机架内部设备。于本实施例中,上述的机架内部设备可以是装设于各个机架系统或是机箱当中的多个风扇单元、多个电源供应器、各个服务器的基板管理控制器(baseboardmanagementcontroller;BMC)、和/或其结合。
于步骤S220中,分配这些机架系统300_1~300_M为至少一组机架组,并且选择在每一机架组内的这些整合管理模块其中之一以作为主要整合管理模块。每个机架系统300_1~300_M的整合管理模块350_1~350_M则是通过管理网络相互连结。换句话说,步骤S220便是在每个机架组内选择其中一个整合管理模块作为首领(或称为是主要整合管理模块)。此外,于步骤S230中,本实施例更会选择在每一机架组内的这些整合管理模块其中之另一为一次要整合管理模块。换句话说,便是在每个机架组内选择其中一个不是主要整合管理模块的另一个整合管理模块以作为副首领(或称为是次要整合管理模块)。
于本实施例中,在此以4个机架系统作为一组机架组,并以图3中的机架组305作为举例,图3是依照本发明实施例说明机架组305与机架系统300_1~300_4的功能模块示意图。然而,于其他符合本发明精神的实施例中,也可将2个或2个以上的机架系统300_1~300_M分配作为同一组机架组,因此,每一组机架组中机架系统的数量并不受限于此,各组机架系统的数量也可以不相同。
特别说明的是,步骤S220可以利用机架系统300_1~300_M中整合管理模块的分散式结构来自动匹配并加以分组,以使同一网段中的整合管理模块所对应的机架系统分为同一组,并自动依据这些整合管理模块的相关特征值来选举出上述的首领与副首领。换句话说,本实施例可通过整合管理模块的相互通讯来使得机架系统300_1~300_4得以自动分配为同一组机架组305。
举例而言,每个机架系统300_1~300_M的整合管理模块可以自行建立一机架信息表单,并且将整合管理模块本身相关的特征值写入此机架信息表单,上述特征值例如是整合管理模块各自的名称(例如,在网域名称系统(DomainNameSystem;DNS)中预设的名称)、编号、网络协议地址和/或媒体访问控制(MAC)地址)...等可供识别整合管理模块的相关参数或信息。此外,每个整合管理模块也可通过网络封包,以将本身的特征值通过管理网络20传送到附近的整合管理模块,藉以完善其他整合管理模块中的机架信息表单。
然后,各个整合管理模块便可执行自身的分组判断程序,依据这些整合管理模块的特征值,来自动匹配对应的机架系统300_1~300_M,以使固定数量的机架系统能够分配为同一组机架组中,并得以利用这些特征值来自动选择出较佳的首领与副首领。于本实施例中,会将同一网段中的整合管理模块所对应的机架系统皆分为同一组机架组。
于其他实施例中,这些整合管理模块350_1~350_4也可通过管理网络20及公共网络交换机以连线到一远端整合管理中心,此远端整合管理中心可统一将这些机架系统350_1~350_4进行分组,在此不再赘述其详细流程。
在此详细说明每个机架系统300_1~300_M中的硬件架构及其功能。如图3所示,机架系统300_1~300_4分别包括整合管理模块(IMM)350_1~350_4、多个服务器320_1~320_2、电力供应单元330_1~330_4、风扇单元340_1~340_4、服务网络交换机360_1~360_4以及管理网络交换机370_1~370_4。由于每个机架系统300_1~300_M皆相互类似,在此以机架系统300_1(机架1)作为举例,机架2至机架M皆可以通过机架1中的描述来推知,在此不再赘述。
服务器320_1各自具有服务网络端口。服务网络交换机360_1的多个网络连接端口分别连接至服务器320_1的服务网络端口。因此,这些服务器320_1可经由服务网络交换机360_1提供服务至服务网络10(例如,网际网络)。此外,同样位在机架组305中的服务网络交换机360_1~360_4也利用各自的网络连接端口与服务网络10进行连接。
服务器320_1各自具有基板管理控制器(baseboardmanagementcontroller;BMC),这些基板管理控制器则各自具有管理网络端口。这些基板管理控制器的管理网络端口各自连接至管理网络交换机370_1的多个网络连接端口其中之一。管理网络交换机370_1耦接管理网络20。此外,同样位在机架组305中的管理网络交换机370_1~370_4可以利用各自的网络连接端口相互连接,或是耦接至公共网络交换机以形成管理网络20。此管理网络20可以是区域网络(localareanetwork;LAN),例如乙太网络(Ethernet)等区域网络。因此,管理网络交换机370_1~370_4可以是乙太网络交换机或是其他区域网络交换机。
整合管理模块350_1的管理网络端口连接至管理网络交换机370_1。在机架1中,整合管理模块350_1经由管理网络交换机370_1与这些服务器320_1的基板管理控制器通信,以获取这些服务器320_1的运行状态(例如服务器内部温度等运行状态),及/或控制这些服务器320_1的运行(例如控制服务器的开机与关机、固件更新等运行)。
机架系统300_1亦配置电力供应单元330_1、多个风扇单元340_1。电力供应单元330_1提供电能给机架1内的各个装置。例如,电力供应单元330_1供电给机架1中的管理网络交换机370_1、服务网络交换机360_1、服务器320_1、风扇单元340_1以及整合管理模块350_1。电力供应单元330_1与风扇单元340_1皆具有管理网络端口,这些管理网络端口连接至管理网络交换机370_1。藉此,整合管理模块350_1可以经由管理网络交换机370_1与电力供应单元330_1以及风扇单元340_1通信,以获取电力供应单元330_1、风扇单元340_1的运行状态,及/或控制电力供应单元330_1、风扇单元340_1的运行。
特别提及的是,本实施例于上述中提及机架1的机架内部设备,便是图3中机架1的多个风扇单元340_1、电力供应单元330_1以及各个服务器320_1的基板管理控制器。上述这些机架1中的整合管理模块350_1以及其机架内部设备皆连接至一交换机(例如,管理网络交换机370_1),且机架组305内的这些管理网络交换机370_1~370_4相互连接以实现各个整合管理模块350_1~350_4之间的通讯。
藉此,管理网络20上可以传送整合管理模块之间的沟通命令、网络交换机的验证讯息、基板管理控制器之间的智慧平台管理接口(IntelligentPlatformManagementInterface;IPMI)讯息、传输给风扇单元或电力供应单元的讯息、整合管理模块之间的配置信息以及同步化信息...等。因此,在管理网络20上传递的信息皆用于管理各个机架系统300_1~300_M及其机架内部设备。
请回来继续参考图2,并配合图3来接续说明本实施例所揭示的多个机架系统的托管方法。为了方便说明,在此将步骤S220中所选择出的主要整合管理模块假设是机架1中的整合管理模块350_1,且将步骤S230中所选择出的次要整合管理模块则假设是机架3中的整合管理模块350_3。其中,步骤S240~S265为主要整合管理模块350_1来执行机架组305内机架系统300_2~300_4的相关步骤,而步骤S270~S297则由次要整合管理模块350_3来执行机架组305内机架系统300_1、300_3~300_4的相关步骤,以下分别加以说明。
首先说明主要整合管理模块350_1所执行的步骤S240~S265。于步骤S240中,主要整合管理模块350_1与同个机架组305内的其他整合管理模块350_2~350_4通过网络连接,并进行一同步配置程序,以备份在机架组305内的其他整合管理模块350_2~350_4的多个配置信息。
详言之,在进行上述的同步配置程序时,整合管理模块350_2~350_4会通过管理网络20,将其用以管理的机架系统300_2~300_4中的配置信息,分别备份至机架1的主要整合管理模块350_1中。所谓的『配置信息』,便是包括整合管理模块在管控对应机架系统中的机架内部设备时所必须要得知的相关信息。因此,上述的配置信息包括这些整合管理模块各自的网络协议地址,以及这些机架内部设备各自的多个周边地址(例如,各个机架内部设备的网络协议地址)及相关的配置设定信息。
以机架2中整合管理模块350_2的配置信息作为举例,整合管理模块350_2所产生的配置信息包括整合管理模块350_2本身的网络协议地址、每个机架内部设备(例如,图3中机架2内各个风扇单元340_2、电力供应单元330_2以及各个服务器320_2的基板管理控制器)的网络协议地址,以及整合管理模块350_2分别针对每个机架内部设备进行设定的配置设定信息,换句话说,配置设定信息可以是整合管理模块350_22对每个风扇单元340_2设定的风扇转速参数、对电力供应单元330_2设定的电源供应参数、以及对于各个服务器320_2中基板管理控制器的控制参数...等。
于步骤S240之后,主要整合管理模块350_1开始监测在所对应的机架组内(例如,图3的机架组305)、并且除了主要整合管理模块350_1以外的其他整合管理模块(例如,整合管理模块350_2~350_4),藉以判断是否发生异常,或是,主要整合管理模块3501会判断机架组305内的其他整合管理模块350_2~350_4是否提出托管请求。此处所谓的『异常』,可以指为主要整合管理模块350_1与整合管理模块350_2~4之间的网络链路无法连线、管理网络交换器370_1~370_4其中之一发生故障而中断连线,或是整合管理模块350_2~350_4其中之一发生故障...等情况。
在此举例说明主要整合管理模块350_1如何判断是否发生异常。如果主要整合管理模块350_1偶尔没有收到整合管理模块350_2~350_4其中一个所回传的确认回应时,例如主要整合管理模块350_1并未接收到整合管理模块350_2(下述亦可称为特定整合管理模块)的确认回应的连续次数小于一门槛值的时候,可能当时的整合管理模块350_2已经满载、网络链结过于壅塞而暂时无法收到此确认回应,上述情况应可以允许偶尔发生。但是,当主要整合管理模块350_1并未接收到上述确认回应的连续次数大于上述门槛值时,则主要整合管理模块350_1便需将没有回传其确认回应的整合管理模块350_2判断已发生异常。
于类似实施例中,主要整合管理模块350_1也可以通过监听整合管理模块350_2~350_4的通讯连线情况,以判断是否发生异常。换句话说,由于每个整合管理模块350_2~350_4皆会定时对其管理的服务器320_2~320_4进行通讯连线,因此主要整合管理模块350_1便可通过监听整合管理模块350_2~350_4接收/发送网络封包的情况来判断整合管理模块350_2~350_4、或是判断主要整合管理模块350_1到整合管理模块350_2~350_4之间的网络链路是否发生异常。
因此,于步骤S250中,主要整合管理模块350_1便会持续判断在机架组305内的其他整合管理模块350_2~350_4是否发生异常、或是在整合管理模块350_2~350_4当中是否有其中一个整合管理模块(在此称为一特定整合管理模块)提出托管请求。在此假设,整合管理模块350_2于此时发生异常,或是于此时对主要整合管理模块350_2提出托管请求。
因此,如果步骤S250为是,便由步骤S250进入步骤S255,主要整合管理模块350_1将会通过网络,并依据整合管理模块350_2备份在整合管理模块350_1当中之机架2的配置信息,藉以管理整合管理模块350_2原先管理、且位于机架系统300_2中的多个机架内部设备。藉此,整合管理模块350_1可以通过执行上述的服务器管理程序、散热管理程序和/或电源管理程序,以同时管理机架1的机架内部设备和机架2的机架内部设备。相对地,如果步骤S250为否,则会持续进行步骤S240及步骤S250。
于本发明的其他延伸实施例中,在步骤S255时,主要整合管理模块350_1除了可以自行管理上述特定整合管理模块350_2原先管理的机架内部设备以外,主要整合管理模块350_1也可以指定负载较轻且位在机架组305内的其他整合管理模块,藉以代替主要整合管理模块350_1来托管机架2中的机架内部设备,藉以减轻主要整合管理模块350_1的运算负荷。举例而言,主要整合管理模块35_01可以在侦测到机架2的整合管理模块350_2已经发生异常时,判断在机架组305内正常运作且具有较低运算负荷的整合管理模块(例如是整合管理模块350_4)。之后,主要整合管理模块350_1便将原先备份于其中的机架2配置信息传送至整合管理模块350_4,并指派整合管理模块350_4对机架2的机架内部设备进行托管。
回到图2与图3,当特定整合管理模块350_2发生异常时,主要整合管理模块便会继续于步骤S260中开始检测主要整合管理模块350_1与异常的整合管理模块350_2之间的通讯链路、整合管理模块350_2是否确实故障、以及其对应的机架系统300_2中的相关设备是否还可与管理网络20连线,藉以产生一检测结果,并发送包含异常的整合管理模块350_2以及上述检测结果的警示讯息至管理网络20上的一远端整合管理中心。藉此,便可让维护机架系统300_1~300_M的管理人员能够通过远端整合管理中心来立即得知异常的发生,进而得以立即排除。上述的警示讯息可以包括电子邮件讯息、系统日志和/或简单网络管理协议陷阱(SNMPTrap)讯息...等,本发明实施例并不限制警示讯息的类型。
接着,于步骤S262中,主要整合管理模块350_1判断监测到异常或是提出托管请求的整合管理模块是否是次要整合管理模块(例如是整合管理模块350_3)。如果步骤S262为否,则回到步骤S240以持续进行同步配置程序。相对地,如果主要整合管理模块350_1发现受到托管的整合管理模块确实是次要整合管理模块350_3的时候,便由步骤S262进入步骤S265,主要整合管理模块350_1便从机架组305内正常工作的其他整合管理模块中选择其中之一,使其成为新的次要整合管理模块。藉此,便可在次要整合管理模块350_3异常、故障或提出托管请求时,由主要整合管理模块350_1指派另一个正常工作的整合管理模块以使其成为新的副首领,从而持续执行图2中的步骤S270~S297。
请继续参考图2配合图3,在此以次要整合管理模块350_3来说明步骤S270~S297。由于主要整合管理模块350_1所执行的步骤S240~S250与次要整合管理模块350_3所执行的步骤S270~S280相类似,因此部份说明可参照上述,在此不另外赘述。
于步骤S270中,次要整合管理模块350_3(副首领)也会与其它整合管理模块350_1~350_2、350_4进行上述的同步配置程序,以备份在机架组305内之整合管理模块350_1~350_2、350_4的多个配置信息。然后,于步骤S280中,次要整合管理模块3503便会判断在机架组305内的其他整合管理模块350_1~350_2、350_4是否发生异常、或是在整合管理模块350_1~350_2、350_4当中是否有其中一个整合管理模块提出托管请求。
如果步骤S280为否,则回到步骤S270以持续进行同步配置程序。如果次要整合管理模块350_3判断在机架组305内其中一个整合管理模块350_1~350_2、350_4已经发生异常、或是次要整合管理模块350_3通过管理网络20而接收到其中一个整合管理模块350_1~350_2、350_4所发出的托管请求时,便由步骤S280进入步骤S285,次要整合管理模块350_3便会判断发生异常或发出托管请求的整合管理模块是否为主要整合管理模块350_1。
接续上述,如果步骤S285为否,则发生异常或发出托管请求的整合管理模块便可由主要整合管理模块350_1来加以处理,次要整合管理模块350_3则回到步骤S270以继续进行同步配置程序,藉以作为主要整合管理模块350_1的冗余设备。然而,如果步骤S285为是,便由步骤S285进入步骤S290,以将次要整合管理模块3503转换为新的主要整合管理模块,并从机架组305内其他正常工作的整合管理模块中选择其中之一,使其成为新的次要整合管理模块。藉此,新的主要整合管理模块350_3便会通过网络以管理异常的整合管理模块350_1原先管理的机架1的机架内部设备。
然后,于步骤S297中,便由新的主要整合管理模块350_3来检测上述整合管理模块350_1及机架系统300_1的相关内部设备,例如,检测新的主要整合管理模块350_3与异常的整合管理模块350_1之间的通讯链路、整合管理模块350_1是否确实故障、以及其对应的机架系统300_1中的相关设备是否还可与管理网络20连线...等,藉以产生一检测结果,并依据整合管理模块350_1以及所述的检测结果来发送警示讯息至远端整合管理中心。
综上所述,本发明实施例从每个机架组的多个机架系统中选择出一个首领(主要整合管理模块)以及副首领(次要整合管理模块)。首领与副首领通过网络对机架组内的所有整合管理模块进行同步备份。并且,在某个整合管理模块发生异常或提出托管请求时,首领得以利用备份的数据来即时管控需被托管的机架内部设备,副首领则作为首领的冗余设备。因此,本实施例所提出的管控方法具有高可靠性且可集中进行托管,利于集中管理服务器并不需额外增加硬件成本。
虽然本发明已以实施例揭露如上,然其并非用以限定本发明,任何所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作些许的更动与润饰,故本发明的保护范围当以权利要求所界定的为准。

Claims (14)

1.一种多个机架系统的托管方法,包括:
提供所述这些机架系统,其中每一所述机架系统分别包括一整合管理模块以及多个机架内部设备,所述这些整合管理模块通过网络分别管理所述这些机架内部设备;
分配所述这些机架系统为至少一组机架组,并选择在每一所述机架组内的所述这些整合管理模块其中之一为一主要整合管理模块;
该主要整合管理模块与其他整合管理模块通过网络连接,并进行一同步配置程序,以备份在该机架组内的其他所述这些整合管理模块的多个配置信息;以及
当一特定整合管理模块发生异常,或是该特定整合管理模块提出一托管请求时,该主要整合管理模块通过网络以管理该特定整合管理模块原先管理的所述这些机架内部设备,
其中判断其他整合管理模块是否异常包括下列步骤:
该主要整合管理模块定期发送多个确认信号至该特定整合管理模块,并接收由该特定整合管理模块传送的一回应信号,当该主要整合管理模块并未接收到特定整合管理模块所传送的该回应信号的次数大于一门槛值时,该主要整合管理模块判断该特定整合管理模块已发生异常。
2.如权利要求1所述的托管方法,其特征在于,该配置信息包括所述这些整合管理模块各自的一网络协议地址、以及所述这些机架内部设备各自的多个周边位元址及多个配置设定信息。
3.如权利要求1所述的托管方法,其特征在于,进行该同步配置程序包括下列步骤:
该特定整合管理模块将用以管理一特定机架系统的一特定配置信息备份至该主要整合管理模块。
4.如权利要求1所述的托管方法,其特征在于,更包括:
选择在该机架组内的所述这些整合管理模块其中之另一为一次要整合管理模块;
该次要整合管理模块进行该同步配置程序,以备份在该机架组内的其他所述这些整合管理模块的所述这些配置信息;
当该特定整合管理模块发生异常,或是该特定整合管理模块提出该托管请求时,该次要整合管理模块判断该特定整合管理模块是否为该主要整合管理模块;以及
当该特定整合管理模块为该主要整合管理模块时,将该次要整合管理模块转换为该主要整合管理模块,并从该机架组内之所述这些其他正常工作的整合管理模块中选择其中之一以成为新的该次要整合管理模块。
5.如权利要求4所述的托管方法,其特征在于,更包括:
当该特定整合管理模块发生异常时,该次要整合管理模块检测该特定整合管理模块及其对应的一特定机架系统以产生一检测结果,并发送包含该特定整合管理模块信息以及该检测结果的一警示讯息。
6.如权利要求5所述的托管方法,其特征在于,该次要整合管理模块检测该次要整合管理模块与异常的该整合管理模块之间的通讯链路以产生该检测结果。
7.如权利要求1所述的托管方法,其特征在于,更包括:
当该特定整合管理模块发生异常时,该主要整合管理模块检测该特定整合管理模块及其对应的一特定机架系统以产生一检测结果,并发送包含该特定整合管理模块信息以及该检测结果的一警示讯息。
8.如权利要求7所述的托管方法,其特征在于,该主要整合管理模块检测该主要整合管理模块与异常的该整合管理模块之间的通讯链路以产生该检测结果。
9.如权利要求1所述的托管方法,其特征在于,判断其他整合管理模块是否异常包括下列步骤:
该主要整合管理模块监听该特定整合管理模块的网络连线情况,以判断该特定整合管理模块是否发生异常。
10.如权利要求1所述的托管方法,其特征在于,所述这些机架内部设备为设于所述这些机架系统内的多个基板管理控制器、多个风扇单元、多个电源供应器和/或其结合。
11.如权利要求10所述的托管方法,其特征在于,该主要整合管理模块执行一服务器管理程序、一散热管理程序或一电源管理程序以管理所述这些主要机架内部设备和/或所述这些被托管的特定机架内部设备。
12.如权利要求1所述的托管方法,其特征在于,每个机架系统更包括一交换机,该机架系统内的整合管理模块以及机架内部设备均连接至该交换机,该机架组内的所述这些交换机相互连接以实现各整合管理模块之间的通讯,
其中,该主要整合管理模块通过其所对应的该机架系统的交换机以及该特定整合管理模块所对应的一特定机架系统的交换机,以管控该特定机架系统中的所述这些机架内部设备。
13.如权利要求1所述的托管方法,其特征在于,分配所述这些机架系统为至少一组机架组包括下列步骤:
依据所述这些整合管理模块的至少一特征值,自动匹配对应的所述这些整合管理模块,以使同一网段中的所述这些整合管理模块所对应的所述这些机架系统分为同一机架组。
14.如权利要求13所述的托管方法,其特征在于,该至少一特征值为所述这些整合管理模块各自的一名称、一网络协议地址和/或一媒体访问控制地址。
CN201110385613.8A 2011-11-28 2011-11-28 多个机架系统的托管方法 Active CN103138975B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201110385613.8A CN103138975B (zh) 2011-11-28 2011-11-28 多个机架系统的托管方法
US13/396,118 US8965993B2 (en) 2011-11-28 2012-02-14 Entrusted management method for a plurality of rack systems

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110385613.8A CN103138975B (zh) 2011-11-28 2011-11-28 多个机架系统的托管方法

Publications (2)

Publication Number Publication Date
CN103138975A CN103138975A (zh) 2013-06-05
CN103138975B true CN103138975B (zh) 2016-01-06

Family

ID=48467822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110385613.8A Active CN103138975B (zh) 2011-11-28 2011-11-28 多个机架系统的托管方法

Country Status (2)

Country Link
US (1) US8965993B2 (zh)
CN (1) CN103138975B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103139248B (zh) * 2011-11-28 2016-04-20 英业达科技有限公司 机架系统
US9223326B2 (en) * 2012-07-22 2015-12-29 International Business Machines Corporation Distributed thermal management system for servers
US9958178B2 (en) * 2014-03-06 2018-05-01 Dell Products, Lp System and method for providing a server rack management controller
US9936605B2 (en) * 2015-11-30 2018-04-03 Quanta Computer Inc. Controlling air flow in a server rack

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1945480A (zh) * 2006-10-17 2007-04-11 南京科远自动化集团有限公司 通用工业控制器
CN101344807A (zh) * 2007-07-13 2009-01-14 环达电脑(上海)有限公司 风扇控制架构

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7149796B2 (en) * 2001-12-12 2006-12-12 Hewlett-Packard Development Company, L.P. Independent server diagnostic port
US7138733B2 (en) * 2001-12-13 2006-11-21 Hewlett-Packard Development Company, L.P. Redundant data and power infrastructure for modular server components in a rack
US20050038579A1 (en) * 2003-08-15 2005-02-17 Lewis Michael W. Interactive maintenance management alarm handling
JP2010238124A (ja) * 2009-03-31 2010-10-21 Fujitsu Ltd データ管理プログラム、データ管理装置、およびデータ管理方法
US8838286B2 (en) * 2010-11-04 2014-09-16 Dell Products L.P. Rack-level modular server and storage framework
CN103139000A (zh) * 2011-11-28 2013-06-05 英业达科技有限公司 多个机架系统的监控方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1945480A (zh) * 2006-10-17 2007-04-11 南京科远自动化集团有限公司 通用工业控制器
CN101344807A (zh) * 2007-07-13 2009-01-14 环达电脑(上海)有限公司 风扇控制架构

Also Published As

Publication number Publication date
US20130138788A1 (en) 2013-05-30
US8965993B2 (en) 2015-02-24
CN103138975A (zh) 2013-06-05

Similar Documents

Publication Publication Date Title
CN103139248B (zh) 机架系统
CN102111310B (zh) Cdn设备状态监控方法
CN101714109B (zh) 双cpu系统主板的控制方法及设备
US11146457B2 (en) Train network node and CANopen-based train network node monitoring method
US8880703B2 (en) Address distribution method, device and system thereof
CN101160828A (zh) 基于智能平台管理接口的管理系统和方法
CN103138975B (zh) 多个机架系统的托管方法
CA2861984A1 (en) Technique for handling a status change in an interconnect node
WO2008119288A1 (fr) Système, dispositif, équipement et procédé de surveillance de la gestion
CN112468592B (zh) 一种基于电力信息采集的终端在线状态侦测方法及系统
CN112601216B (zh) 一种基于Zigbee的可信平台告警方法与系统
CN106774752A (zh) 一种Rack服务器备用风扇控制方法
CN110830324A (zh) 一种检测数据中心网络连通性的方法、装置及电子设备
CN103135732A (zh) 服务器机柜系统
CN112018871A (zh) 一种机柜式双输入服务器三相平衡供电的调节系统及方法
CN100508468C (zh) 分布式节点动态管理数据自适应交换方法
CN101404594B (zh) 热备份性能的测试方法与装置、通信设备
US9118540B2 (en) Method for monitoring a plurality of rack systems
CN117061357A (zh) 一种基于虚拟专用网络的网络拓扑管理方法和系统
CN103138999A (zh) 多个机架系统的监控方法
CN111181764A (zh) 一种基于ovs的主备切换方法及其系统
JP2008299658A (ja) 監視制御システム
CN114124803A (zh) 设备管理方法、装置、电子设备及存储介质
CN102710525B (zh) 一种负载均衡环境下报文的处理方法和装置
CN113708967B (zh) 一种系统监测容灾预警装置及预警方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20191023

Address after: Room 301, floor 3, building 1, No. 500, Ping'an Road, Wutong street, Tongxiang City, Jiaxing City, Zhejiang Province

Patentee after: Rydberg Information Technology (Zhejiang) Co., Ltd.

Address before: 201114 Shanghai City, Minhang District Caohejing export processing zone of Shanghai Pu Xing Road No. 789

Co-patentee before: Yingda Co., Ltd.

Patentee before: Yingda Technology Co., Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210408

Address after: 314599 Tongxiang, Jiaxing, Zhejiang, Wutong Street East Road (East) 329 East Lake Jinyue District 8 6 story.

Patentee after: Zhejiang Tongcheng Construction Management Co.,Ltd.

Address before: 314500 301, three, 1, 1 Ping An Road, Wutong street, Tongxiang, Jiaxing, Zhejiang

Patentee before: Rydberg Information Technology (Zhejiang) Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220426

Address after: 314599 301, three, 1, 1 Ping An Road, Wutong street, Tongxiang, Jiaxing, Zhejiang

Patentee after: Rydberg Information Technology (Zhejiang) Co.,Ltd.

Address before: 314599 Tongxiang, Jiaxing, Zhejiang, Wutong Street East Road (East) 329 East Lake Jinyue District 8 6 story.

Patentee before: Zhejiang Tongcheng Construction Management Co.,Ltd.