CN103457777B - 电源分配单元容灾方法、管理器及系统 - Google Patents

电源分配单元容灾方法、管理器及系统 Download PDF

Info

Publication number
CN103457777B
CN103457777B CN201310400314.6A CN201310400314A CN103457777B CN 103457777 B CN103457777 B CN 103457777B CN 201310400314 A CN201310400314 A CN 201310400314A CN 103457777 B CN103457777 B CN 103457777B
Authority
CN
China
Prior art keywords
manager
virtual machine
pdu
power distribution
warning message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310400314.6A
Other languages
English (en)
Other versions
CN103457777A (zh
Inventor
谢伟
李勇
梁治平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Cloud Computing Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201310400314.6A priority Critical patent/CN103457777B/zh
Publication of CN103457777A publication Critical patent/CN103457777A/zh
Application granted granted Critical
Publication of CN103457777B publication Critical patent/CN103457777B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Power Sources (AREA)
  • Remote Monitoring And Control Of Power-Distribution Networks (AREA)

Abstract

本发明提供一种电源分配单元容灾方法、管理器及系统,包括:第二管理器通过第二管理接口接收第一管理器通过第一管理接口发送的电源分配单元,即PDU的故障告警报文;以及所述第二管理器根据所述故障告警报文控制对应于所述PDU的故障的虚拟机的迁移。通过本发明提供的电源分配单元容灾方法、管理器及系统,通过第一管理器和第二管理器的联动,实现了在PDU故障时自动迁移虚拟机,不影响用户业务,在数据中心云化之后,自动运维,减少了数据中心运维的人力需求,为用户节约成本。

Description

电源分配单元容灾方法、管理器及系统
技术领域
本发明涉及计算机领域,尤其涉及一种电源分配单元容灾方法、管理器及系统。
背景技术
在数据中心机房中,电源分配单元(英文:Power Distribution Unit,缩写:PDU)负责机架设备的电源分配。PDU对于维持服务器的正常运行至关重要,一旦PDU出现故障,将会导致服务器被下电,业务被中断,影响客户使用,同时也损害服务器的寿命。因此,检测PDU故障为数据中心运维的一项重要任务。
数据中心根据设备的功能特点划分为L1、L2、L3三层,分别对应的设备为:
L1层:供电(不间断电源,电源分配单元)、制冷(空调);
L2层:服务器、网络设备(路由器、交换机)、存储设备、虚拟化平台。
L3层:应用软件(如邮件服务器、Web服务器等)。
一般来说,PDU和服务器、虚拟化平台属于不同的管理器,也就是说L1层的第一管理器和L2/L3层的第二管理器之间没有关联,因此,当PDU发生故障时,需要人工分别登录两个管理器进行24小时监测,操作繁琐、响应时间慢、运维效率低下且成本较高。
发明内容
技术问题
有鉴于此,本发明要解决的技术问题是,PDU发生故障时,自动迁移与该PDU关联的服务器上的虚拟机。
解决方案
为了解决上述技术问题,根据本发明一实施例,在第一方面,提供了一种电源分配单元容灾方法,包括:
第二管理器通过第二管理接口接收第一管理器通过第一管理接口发送的电源分配单元,即PDU的故障告警报文;以及
所述第二管理器根据所述故障告警报文控制对应于所述PDU的故障的虚拟机的迁移。
结合第一方面,在第一种可能的实施方式中,所述第二管理器根据所述故障告警报文控制对应于所述PDU的故障的虚拟机的迁移之前,还包括:
所述第二管理器将虚拟机划分为工作虚拟机和容灾虚拟机;
其中,所述工作虚拟机用于运行业务;所述容灾虚拟机用于在所述工作虚拟机出现故障时,接管所述出现故障的工作虚拟机的业务。
结合第一方面和第一方面的第一种可能的实施方式,在第二种可能的实施方式中,所述第二管理器根据所述故障告警报文控制对应于所述PDU的故障的虚拟机的迁移,具体包括:
所述第二管理器查询出现故障的所述PDU所属的服务器,并将所述服务器设置为维护状态;
所述第二管理器查询所述服务器上分配的工作虚拟机;
所述第二管理器将所查询到的工作虚拟机迁移到所述容灾虚拟机;以及
所述第二管理器控制所述容灾虚拟机接管所述工作虚拟机的业务。
结合第一方面的前二种可能的实施方式,在第三种可能的实施方式中,所述第二管理器根据所述故障告警报文控制对应于所述PDU的故障的虚拟机的迁移之后,还包括:
所述第二管理器向所述服务器发送关机命令,控制所述服务器下电。
结合第一方面的前三种可能的实施方式,在第四种可能的实施方式中,所述第二管理器根据所述故障告警报文控制对应于所述PDU的故障的虚拟机的迁移之后,还包括:
所述第二管理器接收所述第一管理器发送的PDU的恢复告警报文;以及
所述第二管理器根据所述恢复告警报文控制恢复所述工作虚拟机的业务。
结合第一方面的前四种可能的实施方式,在第五种可能的实施方式中,所述第二管理器根据所述恢复告警报文控制恢复所述工作虚拟机的业务,包括:
所述第二管理器向所述服务器发送开机命令,控制所述服务器开启,并将所述服务器设置为可用状态;
所述第二管理器将所述容灾虚拟机的业务迁移回故障恢复后的工作虚拟机;以及
所述第二管理器将所述容灾虚拟机释放。
结合第一方面的前五种可能的实施方式,在第六种可能的实施方式中,
配置有所述第一管理器的IP地址的所述第二管理器接收到的告警报文包括故障告警报文及恢复告警报文,所述告警报文为携带所述第一管理器的IP地址和第二管理器的IP地址的简单网络管理协议(英文:Simple NetworkManagement Protocol,缩写:SNMP)陷阱格式的报文,由配置有所述第二管理器的IP地址的所述第一管理器基于接收到的PDU的告警而生成。
结合第一方面的前六种可能的实施方式,在第七种可能的实施方式中,所述告警报文中还包括告警级别,所述第二管理器根据所述告警级别控制对应于所述PDU的虚拟机的迁移。
为了解决上述技术问题,根据本发明另一实施例,在第二方面,提供一种电源分配单元容灾管理器,包括:
第二管理接口,用于接收第一管理器通过第一管理接口发送的电源分配单元,即PDU的故障告警报文;以及
控制模块,与所述第二管理接口连接,用于根据所述故障告警报文控制对应于所述PDU的故障的虚拟机的迁移。
结合第二方面,在第一种可能的实施方式中,还包括:
划分模块,与所述控制模块连接,用于将虚拟机划分为工作虚拟机和容灾虚拟机;
其中,所述工作虚拟机用于运行业务;所述容灾虚拟机用于在所述工作虚拟机出现故障时,接管所述出现故障的工作虚拟机的业务。
结合第二方面,在第二种可能的实施方式中,所述控制模块具体包括:
查询单元,用于查询所述故障PDU所属的服务器,以及查询所述服务器上分配的工作虚拟机;
设置单元,与所述查询单元连接,用于将所述服务器设置为维护状态;
迁移单元,与所述查询单元连接,用于将所查询到的工作虚拟机迁移到所述容灾虚拟机;以及
管理单元,与所述迁移单元连接,用于控制所述容灾虚拟机接管所述工作虚拟机的业务。
结合第二方面的前二种可能的实施方式,在第三种可能的实施方式中,所述控制模块,还包括:
发送单元,与所述设置单元连接,用于向所述服务器发送关机命令,控制所述服务器下电。
结合第二方面的前三种可能的实施方式,在第四种可能的实施方式中,
所述第二管理接口,还用于接收所述第一管理接口发送的恢复告警报文;以及
所述控制模块,还用于根据所述恢复告警报文控制恢复所述工作虚拟机的业务。
结合第二方面的前四种可能的实施方式,在第五种可能的实施方式中,
所述发送单元,还用于向所述服务器发送开机命令,控制所述服务器开启;
所述设置单元,还用于将所述服务器设置为可用状态;
所述迁移单元,还用于将所述容灾虚拟机的业务迁移回故障恢复后的工作虚拟机;以及
所述管理单元,还用于将所述容灾虚拟机释放。
结合第二方面的前五种可能的实施方式,在第六种可能的实施方式中,所述第二管理接口,通过在所述第二管理器上配置所述第一管理器的IP地址,实现与所述第一管理器的第一管理接口通信。
为了解决上述技术问题,根据本发明另一实施例,在第三方面,提供一种电源分配单元容灾系统,包括:权利要求9-15任一项所述的电源分配单元管理器作为第二管理器,以及第一管理器,所述第一管理器包括:
接收模块,用于接收电源分配单元,即PDU的告警;
第一管理接口,与所述第二管理器的第二管理接口连接,用于向所述第二管理器发送PDU的告警报文,所述告警报文包括故障告警报文及恢复告警报文;以及
转换模块,用于根据所述PDU告警,生成携带所述第一管理器的IP地址和第二管理器的IP地址的简单网络管理协议SNMP陷阱格式的报文,所述报文包括所述故障告警报文及所述恢复告警报文。
结合第三方面,在第一种可能的实施方式中,所述第一管理接口,具体通过在所述第一管理器上配置所述第二管理器的IP地址,实现与所述第二管理器的第二管理接口通信。
有益效果
本发明实施例的PDU容灾方法、管理器及系统,通过第一管理器和第二管理器的联动,在PDU故障时,由第一管理器将PDU故障的信息通知给第二管理器,第二管理器自动迁移虚拟机,能够不影响用户业务,使用户感知不到数据中心内部发生了故障,从而达到数据中心云化之后,自动运维的效果,减少了数据中心运维的人力需求,节省了成本。本发明实施例的电源分配单元容灾方法、管理器及系统,能够解决现有技术中需要人工分别登陆两个管理器进行操作,运维效率低下,同时需要人工监测,成本高,无法实现数据中心机房自动运维的问题。
根据下面参考附图对示例性实施例的详细说明,本发明的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本发明的示例性实施例、特征和方面,并且用于解释本发明的原理。
图1示出本发明一实施例提供的电源分配单元容灾方法的流程图;
图2示出本发明另一实施例提供的电源分配单元容灾方法的流程图;
图3示出本发明另一实施例提供的电源分配单元容灾方法的流程图;
图4示出根据本发明一实施例提供的电源分配单元容灾管理器的结构示意图;
图5示出根据本发明另一实施例提供的电源分配单元容灾管理器的结构示意图;
图6示出根据本发明一实施例提供的电源分配单元容灾系统的结构示意图;
图7示出根据本发明一实施例提供的网络设备结构框图。
具体实施方式
以下将参考附图详细说明本发明的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本发明,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有这些具体细节,本发明同样可以实施。在另外一些实例中,对于大家熟知的方法、手段、元件和电路未作详细描述,以便于凸显本发明的主旨。
实施例1
图1示出根据本发明一实施例的电源分配单元容灾方法的流程图。如图1所示,该方法主要包括:
步骤S1、第二管理器通过第二管理接口接收第一管理器通过第一管理接口发送的PDU的故障告警报文。
步骤S2、第二管理器根据该故障告警报文控制对应于PDU的故障的虚拟机的迁移。
实施例2
图2示出根据本发明另一实施例的电源分配单元容灾方法的流程图。如图2所示,该方法主要包括:
步骤S101、在第一管理器上建立第一管理接口,在第二管理器上建立第二管理接口。
第一管理接口和第二管理接口用于第一管理器向第二管理器发送报文。
具体而言,在第一管理器上配置第二管理器的IP地址,作为第一管理器上报SNMP陷阱格式报文的地址。SNMP陷阱格式报文是根据SNMP协议,由管理器(代理)上报的陷阱报文,用于表明设备发生故障或变更的主动通知。
在第二管理器上配置第一管理器的IP地址,后续第二管理器只接收第一管理器上报的SNMP陷阱格式报文,以防止恶意伪造的SNMP陷阱格式报文。
步骤S102、PDU产生故障告警,并将该告警上报给第一管理器。
该故障告警中可以包括告警级别、告警类型。告警级别可以分为严重与不严重。严重告警表示影响PDU的正常运行;不严重告警表示不影响PDU的正常运行。
PDU产生并上报给第一管理器的告警的类别可以包括:故障告警、恢复告警,还可以包括事件告警、确认告警、反确认告警及变更告警。本步骤中的告警属于故障告警。
该告警还可以包括:告警产生时间、告警的网元名称、产生告警的网元的类型、产生告警的网元标识、告警的设备流水号以及告警ID。
告警级别可以为:表示紧急、表示重要、表示次要、表示提示、表示不确定以及表示清除。本步骤中,可以规定表示紧急及表示重要的告警为严重告警,表示该故障会影响PDU的正常运行,需要执行虚拟机迁移。其余级别的告警为不严重告警,不影响PDU的正常运行,第一管理器可以将该不严重告警的报文进行存储以作为运维分析数据。
该告警还可以携带影响业务标志,包括:影响、不影响以及未知。
步骤S103、第一管理器将该PDU故障告警转换为故障告警报文,并向第二管理器上报PDU的故障告警报文。
该故障告警报文为携带有第一管理器的IP地址和第二管理器的IP地址的SNMP陷阱格式的报文。
步骤S104、第二管理器根据接收到的故障告警报文判断相应的告警是否严重。
第二管理器接收到第一管理器上报的告警报文之后,分析告警的严重程度,如果告警级别为严重,表示故障会影响PDU的正常运行,需要启动虚拟机迁移,于是执行步骤S105,否则流程结束(图中未示出)。
步骤S105、第二管理器根据该故障告警报文控制对应于PDU故障的虚拟机的迁移。
第二管理器将虚拟机划分为工作虚拟机和容灾虚拟机;
其中,工作虚拟机用于运行业务;容灾虚拟机用于在工作虚拟机出现故障时,接管出现故障的工作虚拟机的业务。
本步骤具体可以包括:
步骤S1051、第二管理器查询故障PDU所属的服务器,并将其设置为维护状态。
第二管理器从数据库中查询故障PDU所属的机架,从数据库中查询机架上部署的服务器,并把这些服务器设置为维护状态。
步骤S1052、第二管理器查询服务器上分配的工作虚拟机。
步骤S1053、第二管理器将所查询到的工作虚拟机迁移到容灾虚拟机,由容灾虚拟机接管工作虚拟机的业务。
第二管理器控制发生故障的工作虚拟机迁移到容灾虚拟机上来,并从容灾虚拟机中选择与发生故障的工作虚拟机配置相近的虚拟机,接管工作虚拟机的业务。
迁移任务开始之前,虚拟机可以发出提示信息提示用户:电源插座故障,虚拟机即将迁移。
步骤S106、第二管理器向服务器发送关机命令,控制服务器下电。
迁移任务完成后,第二管理器向故障PDU所属的服务器发送关机命令,控制这些服务器下电,以保护这些服务器不受断电的冲击。
虚拟机迁移之后,用户的业务由新的虚拟机,即工作虚拟机迁移到的容灾虚拟机提供,不影响用户的使用,用户感知不到内部发生的迁移动作,从而达到不影响用户业务的目的。
如图3所示,本实施例所述的电源分配单元容灾方法,还可以进一步包括以下恢复步骤。
步骤S107、第一管理器将恢复告警报文上报给第二管理器。
PDU故障修复之后,PDU将恢复告警上报给第一管理器,第一管理器将该恢复告警,转换为携带第一管理器IP地址及第二管理器IP地址的恢复告警报文,并将该恢复告警报文通过第一管理接口和第二管理接口上报给第二管理器。
恢复告警可以包括:告警恢复时间、产生告警的可能原因、告警恢复建议、产生告警的详细原因以及告警恢复类型。
其中,告警恢复类型的取值范围包括:正常恢复、复位恢复、手动恢复、配置恢复以及相关性恢复。
步骤S108、第二管理器根据该恢复告警报文控制恢复所述工作虚拟机的业务。
具体步骤为:
步骤S1081、第二管理器控制原故障PDU机架的服务器开机,并将其设置为可用状态。
步骤S1082、第二管理器把之前迁出的虚拟机迁移回来,释放容灾虚拟机,以备下次PDU出现故障时使用。
释放容灾虚拟机包括两个动作:一个动作是把容灾虚拟机恢复到初始状态,例如,利用诺顿克隆精灵Norton Ghost等技术恢复到刚安装完操作系统的状态;另一个动作第二管理器把该虚拟机标记为空闲,以备后续迁移使用。
实施例3
图4示出根据本发明一实施例的一种电源分配单元容灾管理器的结构示意图。如图4所述,该电源分配单元容灾管理器20,即上述实施例中所述的第二管理器,包括:第二管理接口201和控制模块202。
其中,第二管理接口201与第一管理器10的第一管理接口101连接,用于接收该第一管理接口101发送的PDU的故障告警报文。该第二管理接口201,通过在第二管理器20上配置第一管理器10的IP地址,实现与第一管理器10的第一管理接口101之间的通信。
控制模块202,与第二管理接口201连接,用于根据故障告警报文控制对应于PDU的故障的虚拟机的迁移。
实施例4
图5示出根据本发明另一实施例的一种电源分配单元容灾管理器的结构示意图。如图5所述,在一种优选的实施方式中,该电源分配单元容灾管理器20,即上述实施例中所述的第二管理器,还包括:划分模块203,与控制模块202连接,用于将虚拟机划分为工作虚拟机和容灾虚拟机,其中,工作虚拟机用于运行业务;容灾虚拟机用于在所述工作虚拟机出现故障时,接管所述出现故障的工作虚拟机的业务。
如图5所示,控制模块202具体包括:查询单元2021、设置单元2022、迁移单元2023、管理单元2024和发送单元2025。
其中,查询单元2021用于查询故障PDU所属的服务器,以及查询该服务器上分配的工作虚拟机;设置单元2022与查询单元2021连接,用于将故障PDU所属的服务器设置为维护状态;迁移单元2023与查询单元2021连接,用于将查询单元2021所查询到的工作虚拟机迁移到容灾虚拟机;管理单元2024与迁移单元2023连接,用于控制容灾虚拟机接管工作虚拟机的业务;发送单元2025与设置单元2022连接,用于向所述服务器发送关机命令,控制故障PDU所属的服务器下电。
在一种可能的实施方式中,第二管理接口201还用于接收第一管理接口101发送的恢复告警报文,控制模块202还用于根据恢复告警报文控制恢复工作虚拟机的业务。具体为:
发送单元2025还用于向原故障PDU机架的服务器发送开机命令,控制该服务器开启;设置单元2022还用于将该服务器设置为可用状态;迁移单元2023,还用于将容灾虚拟机的业务迁移回故障恢复后的工作虚拟机;以及管理单元2024,还用于将容灾虚拟机释放。
实施例5
图6示出根据本发明一实施例提供的电源分配单元容灾系统的结构示意图。如图6所述,该电源分配单元容灾系统包括:第一管理器10及实施例3-4所述的管理器20,本实施例中称之为第二管理器。
第一管理器10包括:
接收模块102,与转换模块103连接,用于接收PDU告警。
第一管理接口101,与转换模块103连接,还与第二管理器的第二管理接口201连接,用于向第二管理器发送PDU的告警报文,该告警报文包括故障告警报文及恢复告警报文。该第一管理接口101,具体通过在第一管理器10上配置第二管理器20的IP地址,实现与第二管理器20的第二管理接口201之间的通信。
转换模块103,用于根据PDU告警,生成携带第一管理器的IP地址和第二管理器的IP地址的SNMP陷阱格式的报文。
实施例6
图7示出了本发明的另一个实施例的一种网络设备的结构框图。所述网络设备1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对计算节点的具体实现做限定。
所述网络设备1100包括处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory array)1130和总线1140。其中,处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。
通信接口1120用于与网元通信,其中网元包括例如虚拟机管理中心、共享存储等。
处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU,或者是专用集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器1130用于存放文件。存储器1130可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块,并且所述块可按一定的规则组合成虚拟卷。
在一种可能的实施方式中,上述程序可为包括计算机操作指令的程序代码。该程序具体可用于:
第一方面,提供了一种电源分配单元容灾方法,包括:
第二管理器通过第二管理接口接收第一管理器通过第一管理接口发送的电源分配单元,即PDU的故障告警报文;以及
所述第二管理器根据所述故障告警报文控制对应于所述PDU的故障的虚拟机的迁移。
结合第一方面,在第一种可能的实施方式中,所述第二管理器根据所述故障告警报文控制对应于所述PDU的故障的虚拟机的迁移之前,还包括:
所述第二管理器将虚拟机划分为工作虚拟机和容灾虚拟机;
其中,所述工作虚拟机用于运行业务;所述容灾虚拟机用于在所述工作虚拟机出现故障时,接管所述出现故障的工作虚拟机的业务。
结合第一方面和第一方面的第一种可能的实施方式,在第二种可能的实施方式中,所述第二管理器根据所述故障告警报文控制对应于所述PDU的故障的虚拟机的迁移,具体包括:
所述第二管理器查询出现故障的所述PDU所属的服务器,并将所述服务器设置为维护状态;
所述第二管理器查询所述服务器上分配的工作虚拟机;
所述第二管理器将所查询到的工作虚拟机迁移到所述容灾虚拟机;以及
所述第二管理器控制所述容灾虚拟机接管所述工作虚拟机的业务。
结合第一方面的前二种可能的实施方式,在第三种可能的实施方式中,所述第二管理器根据所述故障告警报文控制对应于所述PDU的故障的虚拟机的迁移之后,还包括:
所述第二管理器向所述服务器发送关机命令,控制所述服务器下电。
结合第一方面的前三种可能的实施方式,在第四种可能的实施方式中,所述第二管理器根据所述故障告警报文控制对应于所述PDU的故障的虚拟机的迁移之后,还包括:
所述第二管理器接收所述第一管理器发送的PDU的恢复告警报文;以及
所述第二管理器根据所述恢复告警报文控制恢复所述工作虚拟机的业务。
结合第一方面的前四种可能的实施方式,在第五种可能的实施方式中,所述第二管理器根据所述恢复告警报文控制恢复所述工作虚拟机的业务,包括:
所述第二管理器向所述服务器发送开机命令,控制所述服务器开启,并将所述服务器设置为可用状态;
所述第二管理器将所述容灾虚拟机的业务迁移回故障恢复后的工作虚拟机;以及
所述第二管理器将所述容灾虚拟机释放。
结合第一方面的前五种可能的实施方式,在第六种可能的实施方式中,
配置有所述第一管理器的IP地址的所述第二管理器接收到的告警报文包括故障告警报文及恢复告警报文,所述告警报文为携带所述第一管理器的IP地址和第二管理器的IP地址的简单网络管理协议SNMP陷阱格式的报文,由配置有所述第二管理器的IP地址的所述第一管理器基于接收到的PDU的告警而生成。
结合第一方面的前六种可能的实施方式,在第七种可能的实施方式中,所述告警报文中还包括告警级别,所述第二管理器根据所述告警级别控制对应于所述PDU的虚拟机的迁移。
为了解决上述技术问题,根据本发明另一实施例,在第二方面,提供一种电源分配单元容灾管理器,包括:
第二管理接口,用于接收第一管理器通过第一管理接口发送的PDU的故障告警报文;以及
控制模块,与所述第二管理接口连接,用于根据所述故障告警报文控制对应于所述PDU的故障的虚拟机的迁移。
本领域普通技术人员可以意识到,本文所描述的实施例中的各示例性单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件形式来实现,取决于技术方案的特定应用和设计约束条件。专业技术人员可以针对特定的应用选择不同的方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
如果以计算机软件的形式来实现所述功能并作为独立的产品销售或使用时,则在一定程度上可认为本发明的技术方案的全部或部分(例如对现有技术做出贡献的部分)是以计算机软件产品的形式体现的。该计算机软件产品通常存储在计算机可读取的存储介质中,包括若干指令用以使得计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各实施例方法的全部或部分步骤。而前述的存储介质包括U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (17)

1.一种电源分配单元容灾方法,其特征在于,包括:
第二管理器通过第二管理接口接收第一管理器通过第一管理接口发送的电源分配单元,即PDU的故障告警报文;以及
所述第二管理器根据所述故障告警报文控制对应于所述PDU的故障的虚拟机的迁移;
其中,所述第一管理器为所述PDU的管理器,所述第二管理器为所述虚拟机的管理器,所述PDU与所述虚拟机为数据中心内的不同设备。
2.根据权利要求1所述的电源分配单元容灾方法,其特征在于,所述第二管理器根据所述故障告警报文控制对应于所述PDU的故障的虚拟机的迁移之前,还包括:
所述第二管理器将虚拟机划分为工作虚拟机和容灾虚拟机;
其中,所述工作虚拟机用于运行业务;所述容灾虚拟机用于在所述工作虚拟机出现故障时,接管所述出现故障的工作虚拟机的业务。
3.根据权利要求2所述的电源分配单元容灾方法,其特征在于,所述第二管理器根据所述故障告警报文控制对应于所述PDU的故障的虚拟机的迁移,具体包括:
所述第二管理器查询出现故障的所述PDU所属的服务器,并将所述服务器设置为维护状态;
所述第二管理器查询所述服务器上分配的工作虚拟机;
所述第二管理器将所查询到的工作虚拟机迁移到所述容灾虚拟机;以及
所述第二管理器控制所述容灾虚拟机接管所述工作虚拟机的业务。
4.根据权利要求3所述的电源分配单元容灾方法,其特征在于,所述第二管理器根据所述故障告警报文控制对应于所述PDU的故障的虚拟机的迁移之后,还包括:
所述第二管理器向所述服务器发送关机命令,控制所述服务器下电。
5.根据权利要求4所述的电源分配单元容灾方法,其特征在于,所述第二管理器根据所述故障告警报文控制对应于所述PDU的故障的虚拟机的迁移之后,还包括:
所述第二管理器接收所述第一管理器发送的PDU的恢复告警报文;以及
所述第二管理器根据所述恢复告警报文控制恢复所述工作虚拟机的业务。
6.根据权利要求5所述的电源分配单元容灾方法,其特征在于,所述第二管理器根据所述恢复告警报文控制恢复所述工作虚拟机的业务,包括:
所述第二管理器向所述服务器发送开机命令,控制所述服务器开启,并将所述服务器设置为可用状态;
所述第二管理器将所述容灾虚拟机的业务迁移回故障恢复后的工作虚拟机;以及
所述第二管理器将所述容灾虚拟机释放。
7.根据权利要求5所述的电源分配单元容灾方法,其特征在于:
配置有所述第一管理器的IP地址的所述第二管理器接收到的告警报文包括故障告警报文及恢复告警报文,所述告警报文为携带所述第一管理器的IP地址和第二管理器的IP地址的简单网络管理协议SNMP陷阱格式的报文,由配置有所述第二管理器的IP地址的所述第一管理器基于接收到的PDU的告警而生成。
8.根据权利要求7所述的电源分配单元容灾方法,其特征在于:
所述告警报文中还包括告警级别,所述第二管理器根据所述告警级别控制对应于所述PDU的虚拟机的迁移。
9.一种电源分配单元容灾管理器,其特征在于,包括:
第二管理接口,用于接收第一管理器通过第一管理接口发送的电源分配单元,即PDU的故障告警报文;以及
控制模块,与所述第二管理接口连接,用于根据所述故障告警报文控制对应于所述PDU的故障的虚拟机的迁移;
其中,所述第一管理器为所述PDU的管理器,所述电源分配单元容灾管理器为所述虚拟机的管理器,所述PDU与所述虚拟机为数据中心内的不同设备。
10.根据权利要求9所述的电源分配单元容灾管理器,其特征在于,还包括:
划分模块,与所述控制模块连接,用于将虚拟机划分为工作虚拟机和容灾虚拟机;
其中,所述工作虚拟机用于运行业务;所述容灾虚拟机用于在所述工作虚拟机出现故障时,接管所述出现故障的工作虚拟机的业务。
11.根据权利要求10所述的电源分配单元容灾管理器,其特征在于,所述控制模块具体包括:
查询单元,用于查询故障PDU所属的服务器,以及查询所述服务器上分配的工作虚拟机;
设置单元,与所述查询单元连接,用于将所述服务器设置为维护状态;
迁移单元,与所述查询单元连接,用于将所查询到的工作虚拟机迁移到所述容灾虚拟机;以及
管理单元,与所述迁移单元连接,用于控制所述容灾虚拟机接管所述工作虚拟机的业务。
12.根据权利要求11所述的电源分配单元容灾管理器,其特征在于,所述控制模块,还包括:
发送单元,与所述设置单元连接,用于向所述服务器发送关机命令,控制所述服务器下电。
13.根据权利要求12所述的电源分配单元容灾管理器,其特征在于:
所述第二管理接口,还用于接收所述第一管理接口发送的恢复告警报文;以及
所述控制模块,还用于根据所述恢复告警报文控制恢复所述工作虚拟机的业务。
14.根据权利要求12所述的电源分配单元容灾管理器,其特征在于:
所述发送单元,还用于向所述服务器发送开机命令,控制所述服务器开启;
所述设置单元,还用于将所述服务器设置为可用状态;
所述迁移单元,还用于将所述容灾虚拟机的业务迁移回故障恢复后的工作虚拟机;以及
所述管理单元,还用于将所述容灾虚拟机释放。
15.根据权利要求9-14任一项所述的电源分配单元容灾管理器,其特征在于:所述第二管理接口,通过在所述第二管理器上配置所述第一管理器的IP地址,实现与所述第一管理器的第一管理接口通信。
16.一种电源分配单元容灾系统,其特征在于,包括:权利要求9-15任一项所述的电源分配单元容灾管理器作为第二管理器,以及第一管理器,所述第一管理器包括:
接收模块,用于接收电源分配单元,即PDU的告警;
第一管理接口,与所述第二管理器的第二管理接口连接,用于向所述第二管理器发送PDU的告警报文,所述告警报文包括故障告警报文及恢复告警报文;以及
转换模块,用于根据所述PDU告警,生成携带所述第一管理器的IP地址和第二管理器的IP地址的SNMP陷阱格式的报文,所述报文包括所述故障告警报文及所述恢复告警报文。
17.根据权利要求16所述的电源分配单元容灾系统,其特征在于:所述第一管理接口,具体通过在所述第一管理器上配置所述第二管理器的IP地址,实现与所述第二管理器的第二管理接口通信。
CN201310400314.6A 2013-09-05 2013-09-05 电源分配单元容灾方法、管理器及系统 Active CN103457777B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310400314.6A CN103457777B (zh) 2013-09-05 2013-09-05 电源分配单元容灾方法、管理器及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310400314.6A CN103457777B (zh) 2013-09-05 2013-09-05 电源分配单元容灾方法、管理器及系统

Publications (2)

Publication Number Publication Date
CN103457777A CN103457777A (zh) 2013-12-18
CN103457777B true CN103457777B (zh) 2016-09-28

Family

ID=49739764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310400314.6A Active CN103457777B (zh) 2013-09-05 2013-09-05 电源分配单元容灾方法、管理器及系统

Country Status (1)

Country Link
CN (1) CN103457777B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106789318B (zh) * 2017-01-03 2020-05-01 深圳市克莱沃电子有限公司 网络电源安全管理系统
CN111176790A (zh) * 2019-12-30 2020-05-19 北京浪潮数据技术有限公司 云平台物理主机的主动维护方法、装置及可读存储介质
CN112583637A (zh) * 2020-11-25 2021-03-30 北京浪潮数据技术有限公司 一种分布式云集群部署方法、装置及相关设备
CN112738231B (zh) * 2020-12-29 2022-10-04 成都商汤科技有限公司 布控方法及装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101938368A (zh) * 2009-06-30 2011-01-05 国际商业机器公司 刀片服务器系统中的虚拟机管理器和虚拟机处理方法
CN202115450U (zh) * 2011-06-16 2012-01-18 广东铁将军防盗设备有限公司 无钥系统电源备份逻辑控制电路
CN103178986A (zh) * 2011-12-26 2013-06-26 英业达股份有限公司 服务器机柜及其管理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8028193B2 (en) * 2007-12-13 2011-09-27 International Business Machines Corporation Failover of blade servers in a data center

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101938368A (zh) * 2009-06-30 2011-01-05 国际商业机器公司 刀片服务器系统中的虚拟机管理器和虚拟机处理方法
CN202115450U (zh) * 2011-06-16 2012-01-18 广东铁将军防盗设备有限公司 无钥系统电源备份逻辑控制电路
CN103178986A (zh) * 2011-12-26 2013-06-26 英业达股份有限公司 服务器机柜及其管理方法

Also Published As

Publication number Publication date
CN103457777A (zh) 2013-12-18

Similar Documents

Publication Publication Date Title
CN101027873B (zh) 网络管理的系统和方法
CN103220173B (zh) 一种报警监控方法及监控系统
CN105187249B (zh) 一种故障恢复方法及装置
CN104202179A (zh) 一种自助设备的故障管理系统及后台服务器
CN103457777B (zh) 电源分配单元容灾方法、管理器及系统
EP3326068B1 (en) System and method for monitoring and managing objects across data centers
CN106789323A (zh) 一种通信网络管理方法及其装置
CN105335273A (zh) 一种面向私有云的云管理平台
CN104980293B (zh) 一种oam报文快速发送和检测处理的方法及装置
CN103069752B (zh) 收集信息的代理的方法和存储管理系统
CN106330575A (zh) 一种安全服务平台及安全服务部署方法
CN104468504B (zh) 虚拟化网络动态信息安全的监控方法及系统
CN106294073A (zh) 服务调用方法及装置
CN109714206A (zh) 电力监控系统网络拓扑图生成方法、总线式网络拓扑图
CN104243196A (zh) 一种sdn架构下的虚拟网络映射保护方法及系统
CN105915426A (zh) 环形网络的故障恢复方法及装置
CN102664757B (zh) 一种存储设备的级联方法及装置
CN102143011B (zh) 一种实现网络保护的装置及方法
CN107656847A (zh) 基于分布式集群的节点管理方法、系统、装置及存储介质
CN102136957B (zh) 一种标签交换路径监控的实现方法、装置和系统
CN105217389A (zh) 电梯备件远程管理的方法及系统
CN100426756C (zh) 实现应用软件系统与主机资源综合监管的网管系统和方法
CN109672618A (zh) 冗余接口处理方法、装置、服务器及存储介质
CN106878096A (zh) Vnf状态检测通告方法、装置以及系统
CN107015622A (zh) 一种spark集群断电自保护及来电自启动的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220222

Address after: 550025 Huawei cloud data center, jiaoxinggong Road, Qianzhong Avenue, Gui'an New District, Guiyang City, Guizhou Province

Patentee after: Huawei Cloud Computing Technology Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.