CN110794943B - 服务器电源防护方法 - Google Patents

服务器电源防护方法 Download PDF

Info

Publication number
CN110794943B
CN110794943B CN201910762406.6A CN201910762406A CN110794943B CN 110794943 B CN110794943 B CN 110794943B CN 201910762406 A CN201910762406 A CN 201910762406A CN 110794943 B CN110794943 B CN 110794943B
Authority
CN
China
Prior art keywords
server
host
guard
power
power module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910762406.6A
Other languages
English (en)
Other versions
CN110794943A (zh
Inventor
余文杰
张倬
王兆丽
施小辉
孙妍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Enterprise Solutions Singapore Pte Ltd
Original Assignee
Lenovo Enterprise Solutions Singapore Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Enterprise Solutions Singapore Pte Ltd filed Critical Lenovo Enterprise Solutions Singapore Pte Ltd
Priority to CN201910762406.6A priority Critical patent/CN110794943B/zh
Publication of CN110794943A publication Critical patent/CN110794943A/zh
Application granted granted Critical
Publication of CN110794943B publication Critical patent/CN110794943B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/28Supervision thereof, e.g. detecting power-supply failure by out of limits supervision
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/263Arrangements for using multiple switchable power supplies, e.g. battery and AC
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/54Systems for transmission via power distribution lines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Power Engineering (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Power Sources (AREA)

Abstract

本发明公开了服务器(102,104)包括两个电源模块(114,116,128,130),电源模块包括彼此有数据可通信关系的电源(138,142)和防护控制器(120,122),防护控制器适于经由电力线通信(PLC)接收和/或发出防护指令,并且在接收到防护指令时,防护控制器适于向电源发出指令以关闭电源。

Description

服务器电源防护方法
技术领域
本发明涉及服务器电源防护方法,以及适合(但不限于)用于执行这种方法的电源模块和服务器。
背景技术
在其中许多节点(服务器)可能正在处理若干重要生产数据的高可用集群中,可能发生“裂脑”。一般而言,“裂脑”是指源自维持具有重叠范围的两个单独数据集的数据或可用性不一致的问题,例如,由于服务器无法通信并且彼此同步其数据。可以通过建立“防护”策略来减轻由错误的集群节点(服务器)引起的这种问题。“防护”是将节点(服务器)隔离或保护共享资源(例如共享磁盘)与群集内的故障节点隔离的过程。
广泛地说,有两种防护方法:资源防护和节点防护,它们都在图1中示出。资源防护方法不允许故障节点(服务器)访问共享资源而不关闭节点。这可能包括:
-持久保留防护,它使用SCSI3持久保留来阻止对共享资源的访问,
-光纤信道防护,其禁用光纤信道端口,和
-全局网络块设备(GNBD)防护,其禁用对GNBD服务器的访问。
作为示例,图1示出了在具有五个节点(A到E)的集群中,节点A中的电源防护代理可以运行防护程序,来控制光纤信道交换机,以禁用光纤信道交换机中的光纤信道端口,以便不允许故障节点(例如节点C)访问共享存储器。
节点防护方法也称为“STONITH”,其代表“射击另一个节点的头部”,意味着怀疑节点被禁用或关闭。具有通过STONITH的节点防护的集群可以配置有许多支持防护设备,包括:
-不间断电源(UPS);
-PDU(配电单元);
-进刀电源控制设备;
-无人值守设备(例如Lenovo XCC/IMM、HP iLO、Dell DRAC)。
例如,再次如图1所示,具有五个节点(A到E)的集群包括功率控制器,该功率控制器可以被操作以关闭故障节点(例如节点C)。
已知这种现有的防护布置具有以下缺点:
(a)如果节点宣布彼此故障并相互重新启动,则可能发生相互防护困境。无人值守设备和其他电源防护设备无法完全避免这种困境。
(b)外部防护设备(例如UPS或PDU)通常很昂贵。
(c)所有当前的STONITH设备都需要额外的网络连接(以太网或串行总线)来发送防护指令。如果该网络出现故障,则无法防止群集出现裂脑现象。
(d)防护设备和网络的配置可能相对复杂。
(e)防护的替代方案(例如仲裁或SCSI保留)至少需要一个额外的节点或更多的外部依赖。
具体参考共同防护或“相互防护”,并且以具有两个服务器(即主机A和主机B)的群集为例,并且参考图2,这在主机A的操作软件(OS)发送用于防护主机B的“关闭B”指令时发生。这个“关闭B”指令由主机B的基板管理控制器(BMC)接收,该控制器作用于指令并关闭电源。但是,在关闭主机B之前,主机B的操作软件(OS)发送“关闭A”指令,用于防护主机A。主机A的基板管理控制器(BMC)收到此“关闭A”指令,并对其采取行动让关闭其自身。因此,主机A和主机B都关闭,两者都被防护,这导致网络故障,需要人为干预。
因此,本发明的一个目的是提供一种服务器电源防护方法、电源模块和服务器,其中减轻了上述缺点,或者至少为业界和公众提供了有用的替代方案。
发明内容
根据本发明的第一方面,提供了一种电源模块,其至少包括彼此有数据可通信关系的至少一个电源和至少一个防护控制器,其中,所述防护控制器适于经由电力线通信(PLC)接收和/或发出防护指令,其中,在接收到所述防护指令时,所述防护控制器适于向所述电源发出指令,以关闭所述电源。
根据本发明的第二方面,提供了一种服务器,其至少包括电源模块,所述电源模块至少包括彼此有数据可通信关系的至少一个电源和至少一个防护控制器,其中,所述防护控制器适于经由电力线通信(PLC)接收和/或出布防护指令,其中,在接收到所述防护指令时,所述防护控制器适于向所述电源发出指令,以关闭所述电源。
根据本发明的第三方面,提供了一种服务器电源防护方法,包括以下步骤:为第一服务器提供至少第一电源模块,所述第一电源模块具有彼此数据可通信关系的至少第一电源和至少第一防护控制器,所述第一防护控制器经由电力线通信(PLC)接收防护指令,所述第一防护控制器向所述第一电源发出指令,以关闭所述第一电源。
附图说明
现在将参考附图,仅通过示例的方式描述根据本发明的服务器电源防护方法、电源模块和服务器的示例,附图中:
图1是由五个传统节点/服务器组成的传统集群的示意图;
图2示出了在相互防护的情况下,由两个传统节点/服务器形成的集群所采取的传统步骤;
图3是根据本发明实施例的由多个互连节点/服务器组成的集群的示意图;
图4更详细地示出了图3中所示的集群;
图5更详细地示出了图3中所示的电源模块;
图6示出了由根据本发明的两个节点/服务器形成的集群所采取的防护步骤;和
图7示出了根据本发明由两个节点/服务器形成的集群在相互防护期间所采取的步骤。
具体实施例
图3示出了根据本发明的由多个互连节点/服务器(下文中简称为“服务器”)形成的通常标记为100的集群,其中示出了两个服务器102、104。虽然两个服务器102、104基本上相同地构造,但是在图3中更详细地示出了服务器102,并且将进一步讨论。服务器102包括存储有操作软件(OS)108和应用软件110的存储器106(例如,硬盘)。服务器102还包括基板管理控制器(BMC)112。BMC 112经由内部集成电路(I2C)串行总线118与两个电源模块114、116并联连接。该I2C串行总线118是同步的、多主的、多从的、分组交换的单端的串行计算机总线。两个电源模块114、116还经由I2C串行总线118彼此连接。
电源模块114、116中的每一个包括相应的防护控制器120、122,每个防护控制器具有相应的数据适配器124、126。防护控制器120与电源模块114的电源(图3中未示出)处于数据可通信关系。类似地,防护控制器122与电源模块116的电源(未示出)处于数据可通信关系。此外,服务器102的防护控制器120、122经由电力线通信(PLC)技术,通过电缆线131、133与服务器104的电源模块128、130处于电力可传输关系和数据可通信关系。服务器104的电源模块128、130与电源模块114相同地构造和布置。服务器102、104由一个或多个配电单元(PDU)132、134经由电缆线131、133供电。如图3所示的布置,服务器102的电源模块114和服务器104的电源模块128都由PDU 132经由电缆线131供电,而服务器104的电源模块130通过PDU 134经由电缆线133供电。如上所述,电缆线131、133还允许经由PLC技术,在服务器102的电源模块114、116与服务器104的电源模块128、130之间进行数据通信。
现在转到图4,可以看出服务器102的BMC 112具有防护接口136,其经由I2C串行总线118将BMC 112与两个电源模块114、116连接,以进行数据通信。电源模块114具有与防护控制器120连接的电源138,用于数据通信。电源138包括电力线通信(PLC)适配器140。类似地,电源模块116具有与防护控制器122连接的电源142,用于数据通信。电源142包括电力线通信(PLC)适配器144。存储器106经由第一以太网端口148与Buz网络146连接,并且BMC 112经由第二以太网端口152与BMC网络150连接。可以看出,服务器104与服务器102相同地构造和布置。
如图5中更详细地所示,并且以电源模块128为例,电源电路138(也称为“电源138”)与AC电源154电连接,以用于接收AC电力。由此接收的AC电力由电源电路138转换成DC电力用于输出。电源模块128的防护控制器120的电力线通信(PLC)调制解调器144(也称为“PLC适配器144”)也与AC电源154电连接,用于从AC电源154接收电力和数据。PLC调制解调器144与微控制器156处于双向数据可通信关系,微控制器156控制防护控制器120的操作。微控制器156与电源电路138处于数据可通信关系,这样,控制信号可以由微控制器156发送到电源电路138。具体地,微控制器156可以向电源电路138发出关闭指令以关闭电源电路138,从而关闭服务器102。此外,服务器102的OS 108还可以经由PLC技术、通过PLC调制解调器144向与服务器102经由电缆线连接(从而形成一个集群)的其他服务器(例如服务器104)发出防护指令。
微控制器156与DRAM 158和闪存160连接。微控制器经由I2C串行总线118与服务器102的BMC 112(其安装在服务器102的服务器主板162上)连接,以进行数据通信。
通过上述布置,由于服务器电源模块114、116、128、130设置有相应的防护控制器120、122,因此使用PLC技术,在电力电缆上建立网络连接。每个电源模块114、116、128、130中的相应防护控制器120、122允许相应的服务器102、104在相同的电源域中发出彼此的防护指令。服务器中的冗余电源模块内的两个防护控制器120、122可以经由I2C串行总线118彼此通信,以同步防护状态。如果电源138、142是冗余的,则电源模块102也是冗余的。BMC112使用相同的I2C串行总线118来连接两个防护控制器120、122。服务器OS 108可以经由BMC 112向防护控制器120、122发送指令,以向其他服务器发出防护指令。每个防护控制器120、122在启动时启用因特网协议版本6(IPv6)本地链路地址(具有前缀FE80::/10)。防护控制器120、122将封装在用户数据报协议(UDP)分组中的防护指令发送到IPv6全节点多播地址(FF02:0:0:0:0:0:0:1)上的特定端口。每个防护指令将在防护控制器120、122上的交易过程中提交,以避免相互防护困境,其方式将在下面讨论。
为了避免相互防护困境,群集中的每个服务器102、104将被分配不同的优先级。优先级可以通过以下方式确定:
1)机器UUID
例如,A:dd288aa4-224d-44a3-870c-90e0b2904f20
B:7f055ab9-11c7-4931-b40e-7fe7976928d4
比较优先级(A,B)=>A>B.
2)用户定义的权重
例如,A:20,B:10
比较优先级(A,B)=>A>B.
图6示出了由两个服务器102、104形成的集群所采取的步骤,其中用于防护目的,服务器102(图6中称为“主机A”)将关闭服务器104(图6中称为“主机B”)。出于防护目的,主机A的OS 108首先触发“关闭B”(202),于是BMC 112将指令发送(204)到服务器102的电源模块114的防护控制器120。然后,防护控制器120启动防护事务(206),获取与主机B(208)的排他锁,然后经由PLC将封装在UDP数据分组中的防护指令发送(210)到主机B.
主机B在经由PLC(212)从主机A接收到封装在UDP分组中的防护指令时,主机B的电源模块的防护控制器检查主机B是否与A排他(214)。如果是,则主机B的电源模块的防护控制器检查主机B是否优先于主机A(216)。如果主机B优先于主机A,则主机B的电源模块的防护控制器向服务器102(主机A)的电源模块114的防护控制器120返回(218)“已拒绝”消息。主机A的电源模块114的防护控制器120在接收到来自主机B(220)的响应时,释放(222)与主机B的排他锁,完成(224)防护事务。然后,主机A的BMC112返回(226)结果,并且主机A的OS108结束防护事务。
如果在主机B的电源模块的防护控制器检查主机B是否与A排他(214)时,发现不是这种情况,主机B的电源模块的防护控制器返回(228)确认消息给主机A,然后主机B的电源模块的防护控制器向主机B的电源模块中的电源发出指令,以强制其关闭(230)。类似地,主机A的电源模块114的防护控制器120在接收到来自主机B(220)的响应时,释放(222)与主机B的排他锁,完成(224)防护事务。然后,主机A的BMC 112返回(226)结果,并且主机A的OS108结束防护事务。
如果在主机B的电源模块的防护控制器上检查主机B是否与A排他(214)时,发现是这种情况,但是在主机B的电源模块的防护控制器上检查主机B是否优先于主机A(216)时,发现不是这种情况,主机B的电源模块的防护控制器向主机A返回(228)确认消息,然后主机B的电源模块的防护控制器向主机B的电源模块中的电源发出指令,以强制其关闭(230)。类似地,主机A的电源模块114的防护控制器120在接收到来自主机B(220)的响应时,释放(222)与主机B的排他锁,完成(224)防护事务。然后,主机A的BMC 112返回(226)结果,并且主机A的OS 108结束防护事务。
如图7所示,在由服务器102(在图7中称为“主机A”)和服务器104(在图7中称为“主机B”)形成的集群中,服务器102及服务器104通过PLC网络彼此连接以进行数据通信,如果主机A的操作软件(OS)108针对主机B请求防护动作(302),主机A的BMC 112开始针对B进行防护动作(304)。于是,主机A的防护控制器120获取与主机B的排他锁(306),并将封装在用户数据报协议(UDP)分组中的防护指令发送(308)到主机B的防护控制器。
假设基本上同时地,主机B的操作软件(OS)也请求对主机A的防护动作(310),主机B的BMC开始针对A进行防护动作(312)。于是,主机B的防护控制器获得与主机A的排他锁(314),并将封装在用户数据报协议(UDP)分组中的防护指令发送(316)到主机A的防护控制器120。
主机A的防护控制器120在从主机B接收到防护指令时,然后检查(318)并找到“冲突”情况(320)。然后,它根据主机A和主机B中的每一个的预定优先级,来比较(322)主机A和主机B之间的优先级。假设主机A具有比主机B更高的优先级,主机A的防护控制器120然后将拒绝(324)来自主机B的防护指令。
对于主机B,在从主机A接收到防护指令时,主机B的防护控制器然后检查(332)并且也找到“冲突”情况(334)。然后,它根据主机A和主机B中每个的预定优先级,比较(336)主机A和主机B之间的优先级,并发现(如上所假设)主机A具有比主机B更高的优先级。然后,主机B的防护控制器释放与主机A(342)的排他锁,并向主机A的防护控制器120发送(338)确认消息。然后主机B的防护控制器向主机B的电源发送指令,以强制关闭(340)主机B,从而完成主机B的电源防护。
在从主机B接收到确认消息,并且在主机B的电力防护完成时,主机A的防护控制器120将释放(326)与主机B的排他锁,然后通知(328)主机A的BMC 112对主机B的防护动作“已完成”,并且BMC 112将通知(330)OS 108主机B被“防护”。
应当理解,以上仅示出了可以执行本发明的示例,并且可以在不脱离本发明的精神的情况下对其进行各种修改和/或改变。
还应该理解,为了清楚起见,在单独的实施方案的上下文中描述的本发明的某些特征可以在单个实施方案中组合提供。相反,为简洁起见,在单个实施例的上下文中描述的本发明的各种特征也可以单独提供或以任何适当的子组合提供。

Claims (4)

1.一种服务器电源防护方法,包括以下步骤:
为第一服务器提供至少第一电源模块,所述第一电源模块具有至少一第一电源和至少一第一防护控制器,
其中所述第一电源和所述第一防护控制器有彼此数据可通信的关系,
其中所述第一防护控制器经由电力线通信(PLC)接收及发出防护指令,
为第二服务器提供至少第二电源模块,所述第二电源模块具有至少一第二电源和至少一第二防护控制器,
其中所述第二电源和所述第二防护控制器有彼此数据可通信的关系,
其中所述第一服务器的所述电源模块的所述第一防护控制器向所述第二服务器发出防护指令,以关闭所述第二服务器的所述第二电源模块的所述第二电源,
连接所述第一服务器和所述第二服务器以形成集群,
向所述第一服务器和所述第二服务器中的一个分配较高优先级,
向所述第一服务器和所述第二服务器中的另一个分配较低优先级,
在所述第一服务器和所述第二服务器之间相互防护的情况下,比较所述第一服务器的优先级和所述第二服务器的优先级,以及
关闭具有较低优先级的服务器。
2.根据权利要求1所述的方法,其中,所述第一服务器包括经由串行总线与所述第一电源模块有数据可通信关系的第三电源模块。
3.根据权利要求1所述的方法,包括将用户数据报协议(UDP)分组中的所述防护指令封装到IPv6全节点多播地址上的特定端口。
4.根据权利要求3所述的方法,包括所述第一服务器经由电力线通信(PLC),将所述UDP分组发送到所述第二服务器。
CN201910762406.6A 2019-08-19 2019-08-19 服务器电源防护方法 Active CN110794943B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910762406.6A CN110794943B (zh) 2019-08-19 2019-08-19 服务器电源防护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910762406.6A CN110794943B (zh) 2019-08-19 2019-08-19 服务器电源防护方法

Publications (2)

Publication Number Publication Date
CN110794943A CN110794943A (zh) 2020-02-14
CN110794943B true CN110794943B (zh) 2024-04-26

Family

ID=69427464

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910762406.6A Active CN110794943B (zh) 2019-08-19 2019-08-19 服务器电源防护方法

Country Status (1)

Country Link
CN (1) CN110794943B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111864721B (zh) * 2020-07-15 2021-11-16 苏州浪潮智能科技有限公司 一种多输出组合的模块化服务器电源
CN113131613B (zh) * 2021-04-07 2023-04-07 山东英信计算机技术有限公司 一种电源管理装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN200987194Y (zh) * 2006-12-21 2007-12-05 深圳市同洲电子股份有限公司 双向plc适配器及具有此适配器的数字电视信号回传系统
CN201008155Y (zh) * 2007-02-14 2008-01-16 华为技术有限公司 一种电力线通信适配器及电力线通信系统
CN101877640A (zh) * 2009-11-30 2010-11-03 英业达股份有限公司 服务器的电源控制系统
CN101907913A (zh) * 2009-06-05 2010-12-08 英业达股份有限公司 服务器
CN105429676A (zh) * 2014-09-12 2016-03-23 耀群科技股份有限公司 电力线通信适配器
CN105786146A (zh) * 2016-03-02 2016-07-20 惠州Tcl移动通信有限公司 一种防止电源交叉短路的移动终端及其方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1696867A (zh) * 2004-05-15 2005-11-16 鸿富锦精密工业(深圳)有限公司 通过网络控制主机板电源的系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN200987194Y (zh) * 2006-12-21 2007-12-05 深圳市同洲电子股份有限公司 双向plc适配器及具有此适配器的数字电视信号回传系统
CN201008155Y (zh) * 2007-02-14 2008-01-16 华为技术有限公司 一种电力线通信适配器及电力线通信系统
CN101907913A (zh) * 2009-06-05 2010-12-08 英业达股份有限公司 服务器
CN101877640A (zh) * 2009-11-30 2010-11-03 英业达股份有限公司 服务器的电源控制系统
CN105429676A (zh) * 2014-09-12 2016-03-23 耀群科技股份有限公司 电力线通信适配器
CN105786146A (zh) * 2016-03-02 2016-07-20 惠州Tcl移动通信有限公司 一种防止电源交叉短路的移动终端及其方法

Also Published As

Publication number Publication date
CN110794943A (zh) 2020-02-14

Similar Documents

Publication Publication Date Title
US9934183B2 (en) Server comprising a plurality of modules
US11354336B2 (en) Fault-tolerant key management system
US20200042410A1 (en) Role designation in a high availability node
US8990632B2 (en) System for monitoring state information in a multiplex system
US20080263544A1 (en) Computer system and communication control method
US9910472B1 (en) Power system configuration monitoring
CN110794943B (zh) 服务器电源防护方法
CN103731485A (zh) 一种网络设备、集群存储系统及分布式锁管理方法
CN111585835B (zh) 一种带外管理系统的控制方法、装置和存储介质
WO2020088351A1 (zh) 设备信息发送的方法、计算机设备和分布式计算机设备系统
CN111651320A (zh) 一种高并发连接方法和系统
CN109995597B (zh) 一种网络设备故障处理方法及装置
CN114296995B (zh) 一种服务器自主修复bmc的方法、系统、设备及存储介质
JP2002136000A (ja) 無停電電源システム
CN114840495A (zh) 一种数据库集群防脑裂的方法、存储介质与设备
CN114518739A (zh) 容错背板槽位分配
CN113535471A (zh) 集群服务器
TW201408885A (zh) 風扇共用控制系統及方法
US10909002B2 (en) Fault tolerance method and system for virtual machine group
US9083618B2 (en) Centralized backup system and backup method for an homogeneous real-time system at different locations
US20160366024A1 (en) Method and associated apparatus for managing a storage system
White et al. Data communications issues for power system management
US20150154083A1 (en) Information processing device and recovery management method
CN112948179B (zh) 一种区块链节点的数据恢复方法、装置及电子设备
US20220215001A1 (en) Replacing dedicated witness node in a stretched cluster with distributed management controllers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant