CN101132314B - 实现冗余备份的方法 - Google Patents

实现冗余备份的方法 Download PDF

Info

Publication number
CN101132314B
CN101132314B CN2007101516489A CN200710151648A CN101132314B CN 101132314 B CN101132314 B CN 101132314B CN 2007101516489 A CN2007101516489 A CN 2007101516489A CN 200710151648 A CN200710151648 A CN 200710151648A CN 101132314 B CN101132314 B CN 101132314B
Authority
CN
China
Prior art keywords
processor
management controller
baseboard management
intelligent platform
management unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007101516489A
Other languages
English (en)
Other versions
CN101132314A (zh
Inventor
刘忱
周海山
陈雪源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wei Dezong
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN2007101516489A priority Critical patent/CN101132314B/zh
Publication of CN101132314A publication Critical patent/CN101132314A/zh
Application granted granted Critical
Publication of CN101132314B publication Critical patent/CN101132314B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供了一种实现冗余备份方法,应用于分布式系统中,包括以下步骤:步骤S202,基板管理控制器对分布式系统中的处理机进行集中配置和管理;步骤S204,智能平台管理单元实时检测各处理机的状态,并将状态信息发送给基板管理控制器;以及步骤S206,智能平台管理单元和基板管理控制器联合控制处理机间的倒换。本发明提供的实现冗余备份方法增强了系统的可靠性,并且有效降低了硬件成本。

Description

实现冗余备份的方法
技术领域
本发明涉及分布式系统管理方法,尤其涉及一种基于IPMI技术在分布式系统中实现冗余备份的方法。
背景技术
智能平台管理接口(IPMI,Intelligent Platform ManagementInterface)是一项应用于服务器管理系统设计的接口标准,由Intel、HP、Dell和NEC公司于1998年共同提出。利用此接口标准设计有助于在不同类服务器系统硬件上实施系统管理,使不同平台的集中管理成为可能。IPMI的消息传输主要依赖于IPMB(智能平台管理总线),serial/modem(串口/调制解调器),LAN(局域网),ICMB(内部管理总线),PCI(周边器件互连总线)总线等物理设备,以标准化的消息格式通信。IPMI提供一种带外管理的方式,对系统内各处理机的BIOS,CPU,FRU(Field Replaceable Unit,现场可更换单元)等硬件设备进行标准化的管理。遵循统一的IPMI协议(目前最高版本为2.0),可以实现跨操作系统和跨硬件平台的硬件平台管理。
IPMI技术的引入,是对传统硬件平台管理的一次重要革新。IPMI的功能主要体现在系统的安装配置、监控管理、故障诊断等关键功能上,为硬件平台提供统一的、可靠的安全保障。IPMI是独立于操作系统之外的管理单元,即使操作系统已经暂停或服务器已经关闭,管理员照样可以监测、管理、诊断和恢复系统。极大的增强了系统的可操作和可维护性。
分布式系统是独立计算机的集合体,在一个现代分布式计算机系统中,不同的处理机实现不同的功能,通过系统内部的各处理机单元紧密分工协作,对外表现出完整的系统功能和性能强大的处理能力。随着分布式系统的发展,越来越多的厂商对分布式系统的可用性提出了很高的要求。高可用性的系统表现在系统内一台正在提供服务的处理机故障时,能够不影响系统的整体功能。
分布式系统的可用性目前主要采用冗余备份方式实现。冗余备份是指分布式系统内存在两个或多个处理机可以提供同一逻辑功能,当一台正常运行的处理机发生故障宕机或因为某种原因无法继续提供业务功能时,作为备份的处理机可以及时接替原处理机的逻辑功能,从而使系统为上层提供的业务功能不受影响。如图1所示,系统具有不同的业务单元,每个业务单元内有一台主处理机和一台备处理机,传统的冗余备份实现,是通过处理机间的内部网络通信或者处理机之间的物理信号线来实现的。利用通信网络的实现,一方面受到网络物理设备的限制,而且处理机不能正常工作很可能与物理网络设备故障相关,这样实际上降低了系统的可用性;另一方面受限于网络通信质量因素和通信协议处理的时延,处理机间控制和处理机间内部业务通信,影响了处理机倒换的效率。利用物理信号线的实现,则对处理机分布的物理位置有严格的限制,不利于功能的扩展,而且这样的限制将使资源浪费严重,提高可用性的同时必然增加了硬件成本。
发明内容
本发明的目的在于提供一种基于智能平台管理接口(IPMI,Intelligent Platform Management Interface)技术在分布式系统中实现冗余备份的方法,采用在基板管理控制器(BMC,BaseboardManagement Controller)上通过IPMI集中管理分布式资源的备份方式,利用处理机上智能平台管理单元(IPMC,Intelligent PlatformManagement Controller)对硬件的控制管理功能,完成处理机间的硬件倒换,以提供更有效的分布式系统安全保障。
本发明提供了一种实现冗余备份方法,应用于分布式系统中,方法包括以下步骤:步骤S202,基板管理控制器对分布式系统中的处理机进行集中配置和管理;步骤S204,智能平台管理单元实时检测各处理机的状态,并将状态信息发送给基板管理控制器;以及步骤S206,智能平台管理单元和基板管理控制器联合控制处理机间的倒换。
其中,步骤S202包括:步骤S2022,智能平台管理单元请求基板管理控制器对处理机进行配置;步骤S2024,基板管理控制器通过以下方式对处理机进行配置:如果处理机所在的逻辑功能单元中没有主用处理机,则基板管理控制器将处理机配置为主用处理机;如果处理机所在的逻辑功能单元中有主用处理机,则基板管理控制器将处理机配置为主用处理机的备机,并且基板管理控制器配置处理机的备份方式;以及步骤S2026,基板管理控制器将处理机的配置参数通知智能平台管理单元,智能平台管理单元根据配置参数决定处理机的工作状态。
其中,步骤S2024中备份方式包括:热备份方式和冷备份方式;热备份为:基板管理控制器确定处理机的逻辑功能,将处理机作为一台主用处理机的备机,处理机与主用处理机保持同步业务数据和配置数据,处理机在IPMC的控制下为上电的正常状态;以及冷备份为:基板管理控制器不确定处理机的逻辑功能,将处理机作为至少一台主用处理机的备机,处理机在IPMC的控制下为非上电的等待状态。
其中,步骤S2026中配置参数为以下至少之一:备份方式、逻辑配置、功能配置。
其中,步骤S204包括:步骤S2042,智能平台管理单元向基板管理控制器上报处理机状态信息;步骤S2044,基板管理控制器根据智能平台管理单元上报的状态信息,判断处理机的状态:如果处理机为正常状态,则开始实时状态检测;如果处理机为非正常状态,则发起处理机复位或倒换;以及步骤S2046,基板管理控制器对处于正常状态的处理机智能平台管理单元定时发起状态检测。
其中,步骤S206包括:步骤S2062,智能平台管理单元主动请求倒换或者基板管理控制器检测到处理机故障;步骤S2064,基板管理控制器在处于备份方式的处理机中确定新的主用处理机;步骤S2066,备用处理机的智能平台管理单元处理倒换请求:如果备用处理机为热备份方式,则直接与原主处理机进行功能倒换;如果备用处理机为冷备份方式,则向基板管理控制器申请逻辑配置,基板管理控制器将初始化配置发送到智能平台管理单元后,备用处理机上电启动,完成功能倒换。
其中,智能平台管理单元和基板管理控制器通过智能平台管理接口通信。
因此,本发明提供的实现冗余备份方法的最大特点是对分布式系统内各处理机备份方式进行集中管理,利用BMC的配置功能和处理机上IPMC模块的控制功能,通过处理机IPMC与BMC之间的通信联系实现倒换功能的控制。本发明可以在没有处理机上操作系统干预的情况下实现功能倒换,并且采用专用通道和专用物理器件控制的倒换更加安全可靠和快速,使得倒换控制在处理流程上大大的简化,提高了系统的效率,增强了系统的可靠性。
另外,本发明提供的实现冗余备份方法,可以充分发挥IPMI技术的特性和优势,采用冷备份技术,提高了处理机资源的利用率,在提高可用性的同时降低了硬件成本。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是现有技术中实现处理机间冗余备份的分布式系统结构示意图;
图2是本发明基于IPMI技术的冗余备份管理方法流程图;
图3是本发明处理机IPMC与BMC之间通信结构图;
图4是本发明的处理机间冗余备份的分布式系统结构示意图;
图5是本发明的处理机初始化处理流程图;
图6是本发明的处理机实时状态检测处理流程图;以及
图7是本发明的处理机间倒换处理流程图。
具体实施方式
下面参考附图,详细说明本发明的具体实施方式。
本发明提供一种基于IPMI技术的冗余备份管理方法,如图2所示,包括以下基本处理步骤:
步骤S202,BMC对分布式系统中的处理机进行集中配置和管理。分布式系统内各处理机配置在BMC上集中管理,各处理机通过初始化时处理机上IPMC向BMC的请求配置决定当前处理机的备份方式。备份方式根据业务需要有冷备份和热备份两种方式。冷备份是指处理机在IPMC控制下,处于没有上电的等待状态,冷备份中没有确定处理机的具体逻辑配置和功能,可以实现一台处理机备份多台处理机的功能。热备份指处理机虽然处于正常上电工作状态,但因为其配置的逻辑功能与正在运行的主处理机相同,所以在系统中不对外提供相应业务功能的闲置状态。但与冷备份不同,热备用处理机确定处理机的具体逻辑配置和功能,而且需要和主处理机保持通信联络,实时或定时同步业务数据和配置数据。上层可以根据具体应用场合决定采用何种备份方式,所有处理机的备份方式统一在BMC上维护。在BMC的配置中对同一逻辑功能单元的不同处理机,只允许存在一个主用配置。处理机启动时本机IPMC模块需要向BMC主动请求逻辑配置和主备状态,BMC根据处理机的物理信息为其配置基本的逻辑功能和备份方式,并在逻辑配置表中搜索,若BMC上该功能单元逻辑配置项中没有主用的处理机,则设置该处理机为主用,并将备份方式,逻辑配置通知处理机IPMC模块,通知其以主用方式上电;若BMC上该功能单元的逻辑配置项中已经有主用处理机,则设置该处理机为备用,然后将备份方式,逻辑配置通知处理机IPMC模块,然后处理机本机IPMC模块根据这些信息以冷备用或热备用方式上电。
步骤S204,IPMC实时检测各处理机的状态,并通过智能平台管理接口总线将状态信息转发BMC。各处理机的IPMC模块通过IPMI总线(IPMB)与BMC通信,实时监控分布式各处理机的状态。处理机的IPMC模块主要负责三个工作,一是收集处理机上的各FRU器件上报的硬件状态和故障信息,发往管理控制BMC;二是实现对处理机的电源,BIOS,各FRU器件等的控制,并处理BMC主动向IPMC模块发起的控制和查询命令;三是接收处理机HOST主动向BMC上报的请求和状态信息,并根据IPMI消息中的子网络号,将IPMI消息转发到BMC的物理通道上。本发明通过处理机上IPMC的通信转发功能,提供BMC与处理机握手方式的健康心跳检测机制,让各处理机定时向BMC上报状态信息,动态监控各处理机的运行情况。而且,处理机IPMC还提供看门狗中断功能,处理机IPMC可以检测到处理机复位前的看门狗中断上报,并及时通过IPMI通知BMC。
步骤S206,BMC和处理机IPMC联合控制处理机倒换。通过BMC的集中管理功能和IPMC的控制功能,实现处理机间的设备倒换。分两种情况描述,一是主处理机因为某原因主动发起功能倒换的情况。由主处理机HOST CPU通知本机IPMC,发起倒换请求;BMC接收倒换请求后,分析逻辑配置表中的配置数据,决策处于备用状态的处理机,选取其中一个作为新的主用处理机,然后将倒换命令通过IPMI通道发送到该替代处理机IPMC模块,新主用处理机IPMC收到倒换请求后则开始响应原主处理机的倒换请求。若新主用处理机处于冷备份状态,则在IPMC控制下,新主用处理机开始上电初始化,并且由IPMC提供处理机启动必需的初始化配置;若新主用处理机处于热备份状态,则处理机已经通过实时或定时方式同步了一些配置,可以直接接替原主处理机的业务功能。二是主处理机由于某种原因(或故障)不能继续提供相应的业务功能,主处理机无法通过IPMC主动发起处理机倒换的情况。这时通过在步骤B中提供的处理机内IPMC与BMC之间的实时状态检测机制以及其它处理机上报的故障信息,在BMC上可以及时发现该处理机无法正常提供业务功能,从而作出令该主用处理机倒换的最终决策,并通知决策后的新处理机IPMC,处于冷备份处理机开始上电初始化,处于热备用处理机则开始成为主用,并提供相应的业务功能。
在步骤S202中,BMC集中管理分布式系统内所有的处理机资源,系统内网络结构如图3所示,每个处理机单元中包括处理机和IPMC模块,每个处理机单元的IPMC模块与BMC使用IPMI通信。系统内各处理机在IPMC控制下,可以衍生出以下基本备份方式:
冷备份方式:处理机通过IPMC请求配置时,BMC不确定处理机具体逻辑配置和功能,只确定处理机备份方式,处理机在IPMC控制下,处于非上电的等待状态;
热备份方式:处理机通过IPMC请求配置时,BMC确定处理机备份方式,具体逻辑配置和功能,以正常方式上电初始化,但因为其配置的逻辑功能与正在运行的主处理机相同,所以在系统中不对外提供相应业务功能的空闲状态,只起到实时同步和备份数据的作用。
图4中列举的分布式系统内应用处理机备份情况如下:
1+1备份:系统内一台处理机处于正常工作状态,一台处理机处于热备份状态,当正常工作的处理机出现故障或因为其它原因导致不能继续对外提供业务功能时,处于热备份的处理机在BMC控制下完成与故障处理机的功能倒换;
N+1备份:系统内N台处理机处于正常工作状态,一台处理机处于冷备份状态,当正常工作的N台处理机有一台出现故障或因为其它原因导致不能继续对外提供业务功能时,处于冷备份的处理机在基板管理控制器控制下完成与故障处理机的功能倒换;
N+M备份:系统内N台处理机处于正常工作状态,M台处理机处于冷备份状态,当正常工作的N台处理机有一台出现故障或因为其它原因导致不能继续对外提供业务功能时,在基板管理控制器控制下选择M台处于冷备份的处理机中一台,完成与故障处理机的功能倒换。
分布式系统内所有处理机的备份方式统一在BMC上维护。在BMC的配置中对同一逻辑功能单元的不同处理机,只允许存在一个主用配置。处理机启动时本机IPMC模块需要向BMC主动请求逻辑配置和主备状态,BMC根据处理机的物理信息为其配置基本的逻辑功能和备份方式,并在逻辑配置表中搜索,若BMC上该功能单元逻辑配置项中没有主用的处理机,则设置该处理机为主用,并将备份方式,逻辑配置和功能通知处理机IPMC模块,通知其以主用方式上电;若BMC上该功能单元的逻辑配置项中已经有主用处理机,则设置该处理机为备用,然后将备份方式,逻辑配置和功能通知处理机IPMC模块,然后处理机本机IPMC模块根据这些信息以冷备份或热备份方式上电。
结合图5,下面描述本发明处理机初始化处理流程。
步骤S501,处理机启动时,首先本机IPMC模块开始启动,完成处理机内硬件的自检。
步骤S502,IPMC模块主动向BMC请求本机备份方式,逻辑配置和功能配置等。
步骤S503,BMC根据处理机的物理信息为其配置基本的逻辑功能和备份方式,并在逻辑配置表中搜索,若BMC上该功能单元逻辑配置项中没有主用的处理机,则设置该处理机为主用,并将备份方式,逻辑配置,功能配置等通知处理机IPMC模块,通知其以主用方式上电;若BMC上该功能单元的逻辑配置项中已经有主用处理机,则设置该处理机为备用,然后将备份方式通知处理机IPMC模块,若为热备份,还需要把逻辑配置和功能配置通知处理机IPMC。
步骤S504,处理机本机IPMC模块根据返回的配置信息决定以主用上电,热备用方式上电或以冷备用方式等待。
可以看出,为了避免启动流程的复杂和不确定性,以上流程采用在BMC上集中管理所有处理机的资源备份,通过IPMC的硬件控制和IPMI的带外管理共同完成处理机启动的流程控制。
在步骤S204中,系统内处理机完成上电启动后,基板管理控制器对各处理机进行实时状态检测。系统内各处理机在IPMC控制下,定时将处理机的运行状态信息通过IPMI通道告知基板管理控制器。特别的,如果处理机正常运行时有故障发生,比如看门狗溢出等,IPMC可以控制的硬件异常,IPMC模块需要实时的将硬件当前的状况反馈给基板管理控制器。
各处理机的IPMC模块通过IPMI总线与BMC通信,实时监控分布式各处理机的状态。处理机的IPMC模块主要负责三个工作,一是收集处理机上的各FRU器件上报的硬件状态和故障信息,发往管理控制BMC;二是实现对处理机的电源,BIOS,各FRU器件等的控制,并处理BMC主动向IPMC模块发起的控制和查询命令;三是接收处理机HOST主动向BMC上报的请求和状态信息,并根据IPMI消息中的子网络号,将IPMI消息转发到BMC的物理通道上。本发明通过处理机上IPMC的通信转发功能,提供BMC与处理机握手方式的健康心跳检测机制,让各处理机定时向BMC上报状态信息,动态监控各处理机的运行情况。而且,处理机IPMC还提供看门狗中断功能,处理机IPMC可以检测到处理机复位前的看门狗中断上报,并及时通过IPMI通知BMC。
结合图6,下面描述本发明处理机实时状态检测处理流程。
步骤S601,启动成功后,处理机所在IPMC模块主动向基板管理控制器上报状态信息。
步骤S602,基板管理控制器检测到处理机IPMC主动上报的状态信息,判断该处理机是否处于正常状态。如果处于正常工作状态,则开始实时状态检测。如果状态显示为非正常,则发起处理机复位或倒换。
步骤S603,基板管理控制器对处于正常状态的处理机IPMC定时通过IPMI通道发起状态检测。
步骤S604,处理机本机IPMC模块在处理机正常上电后,主要负责响应基板管理控制器对本处理机硬件的状态查询,并将处理机的工作情况反馈给基板管理控制器。同时IPMC模块通过与本机HOST(主处理器)通信监测本处理机HOST的业务状态,如果出现不正常则将该业务异常上报给基板管理控制器。
步骤S605,如果处理机内FRU主动向本机IPMC模块上报异常信息,IPMC需要实时上报给BMC。
可以看出,通过BMC的集中管理,可以严密监视系统内的软硬件运行状态,为系统的一些重要决策提供依据。
在步骤S206中,基板管理控制器和处理机IPMC联合控制的处理机倒换实施步骤,分主处理机主动发起功能倒换和由于外部原因导致主处理机被动倒换两种情况来描述。
主处理机主动发起功能倒换,由主处理机HOST CPU通知本机IPMC,发起倒换请求;BMC接收倒换请求后,分析逻辑配置表中的配置数据,决策处于备份状态的处理机,选取其中一个作为新的主用处理机,然后将倒换命令通过IPMI通道发送到该替代处理机IPMC模块,新主用处理机IPMC收到倒换请求后则开始响应原主处理机的倒换请求。若新主用处理机处于冷备份状态,则在IPMC控制下,新主用处理机开始上电初始化,并且由IPMC提供处理机启动必需的初始化配置;若新主用处理机处于热备份状态,则处理机已经通过实时或定时方式同步了一些配置,可以直接接替原主处理机的业务功能。
主处理机由于某种原因(例如故障)不能继续提供相应的业务功能,主处理机无法通过IPMC主动发起处理机倒换的情况。这时通过在步骤二中提供的处理机内IPMC与BMC之间的实时状态检测机制以及其它处理机上报的故障信息,在BMC上可以及时发现该处理机无法正常提供业务功能,从而作出令该主用处理机倒换的最终决策,并通知决策后的新处理机IPMC,处于冷备用处理机开始上电初始化,处于热备用处理机则开始成为主用,并提供相应的业务功能。
结合图7,下面描述本发明处理机间倒换处理流程。
步骤S701,处理机IPMC主动请求倒换,或者BMC上的实时状态检测模块检测到处理机故障,启动倒换流程。
步骤S702,BMC从本机逻辑功能配置表中获取与故障处理机逻辑功能相同的处理机单元号,即处于备份状态的处理机。
步骤S703,BMC通过IPMI通道向备用处理机IPMC发送倒换请求。
步骤S704,备用处理机IPMC模块处理倒换请求,如果该处理机备份方式为热备份,则直接与原主处理机开始进行功能倒换;如果该处理机为冷备份,则开始申请逻辑配置,待BMC将初始化配置传回后开始上电启动,完成功能倒换。
本发明方法可以在没有处理机上操作系统干预的情况下也能实现功能倒换,并且采用专用通道和专用物理器件控制的倒换更加安全可靠,并且非常快速,使得倒换控制在处理流程上大大的简化,提高了系统的效率,也增强了系统的可靠性。另外,本发明所提供的一种基于IPMI技术的冗余备份管理方式,发挥了IPMI技术的特性和优势,采用冷备份,IPMC控制等技术,提高了处理机资源的利用率,在提高可用性的同时降低了硬件成本。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种实现冗余备份方法,应用于分布式系统中,其特征在于,所述方法包括以下步骤:
步骤S202,基板管理控制器对所述分布式系统中的处理机进行集中配置和管理;
步骤S204,智能平台管理单元实时检测各处理机的状态,并将状态信息发送给所述基板管理控制器;以及
步骤S206,所述智能平台管理单元和所述基板管理控制器联合控制所述处理机间的倒换。
2.根据权利要求1所述的实现冗余备份方法,其特征在于,所述步骤S202包括:
步骤S2022,所述智能平台管理单元请求所述基板管理控制器对所述处理机进行配置;
步骤S2024,所述基板管理控制器通过以下方式对所述处理机进行配置:
如果所述处理机所在的逻辑功能单元中没有主用处理机,则所述基板管理控制器将所述处理机配置为主用处理机;
如果所述处理机所在的逻辑功能单元中有主用处理机,则所述基板管理控制器将所述处理机配置为所述主用处理机的备机,并且所述基板管理控制器配置所述处理机的备份方式;以及
步骤S2026,所述基板管理控制器将所述处理机的配置参数通知所述智能平台管理单元,所述智能平台管理单元根据所述配置参数决定所述处理机的工作状态。
3.根据权利要求2所述的实现冗余备份方法,其特征在于,所述步骤S2024中所述备份方式包括:热备份方式和冷备份方式;
所述热备份为:所述基板管理控制器确定所述处理机的逻辑功能,将所述处理机作为一台主用处理机的备机,所述处理机与所述主用处理机保持同步业务数据和配置数据,所述处理机在智能平台管理单元的控制下为上电的正常状态;以及
所述冷备份为:所述基板管理控制器不确定所述处理机的逻辑功能,将所述处理机作为至少一台主用处理机的备机,所述处理机在智能平台管理单元的控制下为非上电的等待状态。
4.根据权利要求3所述的实现冗余备份方法,其特征在于,所述步骤S2026中所述配置参数为以下至少之一:备份方式、逻辑配置、功能配置。
5.根据权利要求2所述的实现冗余备份方法,其特征在于,所述步骤S204包括:
步骤S2042,所述智能平台管理单元向所述基板管理控制器上报所述处理机状态信息;
步骤S2044,所述基板管理控制器根据所述智能平台管理单元上报的状态信息,判断所述处理机的状态:
如果所述处理机为正常状态,则开始实时状态检测;
如果所述处理机为非正常状态,则发起处理机复位或倒换;以及
步骤S2046,所述基板管理控制器对处于正常状态的处理机智能平台管理单元定时发起状态检测。
6.根据权利要求5所述的实现冗余备份方法,其特征在于,所述步骤S206包括:
步骤S2062,所述智能平台管理单元主动请求倒换或者所述基板管理控制器检测到所述处理机故障;
步骤S2064,所述基板管理控制器在处于备份方式的处理机中确定新的主用处理机;
步骤S2066,备用处理机的智能平台管理单元处理倒换请求:
如果所述备用处理机为热备份方式,则直接与原主处理机进行功能倒换;
如果所述备用处理机为冷备份方式,则向所述基板管理控制器申请逻辑配置,所述基板管理控制器将初始化配置发送到智能平台管理单元后,所述备用处理机上电启动,完成功能倒换。
7.根据权利要求1至6任一项所述的实现冗余备份方法,其特征在于,所述智能平台管理单元和基板管理控制器通过智能平台管理接口通信。
CN2007101516489A 2007-09-21 2007-09-21 实现冗余备份的方法 Expired - Fee Related CN101132314B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007101516489A CN101132314B (zh) 2007-09-21 2007-09-21 实现冗余备份的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007101516489A CN101132314B (zh) 2007-09-21 2007-09-21 实现冗余备份的方法

Publications (2)

Publication Number Publication Date
CN101132314A CN101132314A (zh) 2008-02-27
CN101132314B true CN101132314B (zh) 2010-09-29

Family

ID=39129445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101516489A Expired - Fee Related CN101132314B (zh) 2007-09-21 2007-09-21 实现冗余备份的方法

Country Status (1)

Country Link
CN (1) CN101132314B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102427412A (zh) * 2011-12-31 2012-04-25 网宿科技股份有限公司 基于内容分发网络的零延时主备源灾备切换方法和系统
CN103068034B (zh) * 2013-01-29 2016-05-11 大唐移动通信设备有限公司 一种数据同步的方法及装置
CN103617104B (zh) * 2013-12-01 2017-01-04 中国船舶重工集团公司第七一六研究所 一种基于ipmi的冗余计算机系统节点故障主被动检测方法
CN103793533B (zh) * 2014-02-27 2017-12-08 大唐移动通信设备有限公司 一种分布式数据同步方法和设备
CN103885860A (zh) * 2014-03-21 2014-06-25 浪潮集团有限公司 一种应用ipmi命令实现bmc双管理热冗余的方法
CN104133734B (zh) * 2014-07-29 2017-02-15 中国航空无线电电子研究所 分布式综合模块化航空电子系统混合式动态重构系统与方法
CN104991520B (zh) * 2015-05-25 2018-01-19 南京南瑞继保电气有限公司 一种镜像配置方法及装置
CN105589712B (zh) * 2015-08-24 2019-09-06 新华三信息技术有限公司 Bmc模块更新方法以及装置
US9875165B2 (en) * 2015-11-24 2018-01-23 Quanta Computer Inc. Communication bus with baseboard management controller
US9952948B2 (en) * 2016-03-23 2018-04-24 GM Global Technology Operations LLC Fault-tolerance pattern and switching protocol for multiple hot and cold standby redundancies
CN106301967B (zh) 2016-10-25 2019-10-15 杭州华为数字技术有限公司 一种数据同步方法及带外管理设备
CN106714501A (zh) * 2017-02-28 2017-05-24 郑州云海信息技术有限公司 一种节点服务器的识别方法、装置及机柜
CN109151815A (zh) * 2017-06-15 2019-01-04 杭州海康威视数字技术股份有限公司 设备接入方法、装置及系统
CN109495543B (zh) * 2018-10-16 2021-08-24 新华三技术有限公司 一种ceph集群中监视器的管理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1635472A (zh) * 2003-12-31 2005-07-06 英业达股份有限公司 多处理器计算机系统的开机切换方法
CN1808990A (zh) * 2005-01-18 2006-07-26 英业达股份有限公司 网络连线的备援系统
CN101038562A (zh) * 2006-03-15 2007-09-19 联想(北京)有限公司 一种存储装置关键数据备份与恢复系统和方法
CN101038563A (zh) * 2006-03-17 2007-09-19 联想(北京)有限公司 一种通过网络远程自动恢复cmos数据的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1635472A (zh) * 2003-12-31 2005-07-06 英业达股份有限公司 多处理器计算机系统的开机切换方法
CN1808990A (zh) * 2005-01-18 2006-07-26 英业达股份有限公司 网络连线的备援系统
CN101038562A (zh) * 2006-03-15 2007-09-19 联想(北京)有限公司 一种存储装置关键数据备份与恢复系统和方法
CN101038563A (zh) * 2006-03-17 2007-09-19 联想(北京)有限公司 一种通过网络远程自动恢复cmos数据的方法和装置

Also Published As

Publication number Publication date
CN101132314A (zh) 2008-02-27

Similar Documents

Publication Publication Date Title
CN101132314B (zh) 实现冗余备份的方法
KR101029901B1 (ko) 상호접속 시스템 아키텍쳐에서 오작동하는 서브시스템을 처리하는 장치, 방법 및 모듈
WO2016058307A1 (zh) 资源的故障处理方法及装置
CN112181660A (zh) 一种基于服务器集群的高可用方法
CN102541697A (zh) 一种双余度计算机故障处理的切换方法
CN101483540A (zh) 一种高端数据通信设备中的主备倒换方法
CN101237413B (zh) 在转发和控制分离网络件架构下实现控制件高可用性的方法
CN114090184B (zh) 一种虚拟化集群高可用性的实现方法和设备
CN103885860A (zh) 一种应用ipmi命令实现bmc双管理热冗余的方法
CN102026042A (zh) 一种高级电信计算架构控制面的保活、自愈方法和装置
CN100496030C (zh) 基于高可用性系统的综合接入媒体网关设备
CN109936532A (zh) 一种数据总线传输安全防护系统
CN112235141B (zh) 一种单广播域下的Linux操作系统的轻量级以太网冗余装置
US8965993B2 (en) Entrusted management method for a plurality of rack systems
US11093014B2 (en) Method for monitoring, control and graceful shutdown of control and/or computer units
KR0133337B1 (ko) 타켓 시스템 이중화 운용관리 장치 및 방법
CN109995597A (zh) 一种网络设备故障处理方法及装置
CN113742142B (zh) 存储系统管理sata硬盘的方法及存储系统
CN101410808A (zh) 检查管理网络的潜在故障的方法
CN100463373C (zh) 一种集中控制并分层实施的切换控制方法及装置
CN107423113B (zh) 一种管理虚拟设备的方法、带外管理设备及备用虚拟设备
CN110677288A (zh) 一种通用于多场景部署的边缘计算系统及方法
CN100361047C (zh) 提高总线传输可靠性的方法及装置
Kitamura Configuration of a Power-saving High-availability Server System Incorporating a Hybrid Operation Method
KR101883251B1 (ko) 가상 시스템에서 장애 조치를 판단하는 장치 및 그 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: WEI DEZONG

Free format text: FORMER OWNER: ZTE CORPORATION

Effective date: 20141217

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518057 SHENZHEN, GUANGDONG PROVINCE TO: 541105 GUILIN, GUANGXI ZHUANG AUTONOMOUS REGION

TR01 Transfer of patent right

Effective date of registration: 20141217

Address after: 541105, room 2, unit 8, 1 Xing Xing Road, 202 Town, Lingui County, the Guangxi Zhuang Autonomous Region, Lingui

Patentee after: Wei Dezong

Address before: 518057 Nanshan District science and Technology Industrial Park, Guangdong high tech Industrial Park, ZTE building

Patentee before: ZTE Corporation

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100929

Termination date: 20170921