CN109857614A - 一种机架服务器的容灾装置和方法 - Google Patents

一种机架服务器的容灾装置和方法 Download PDF

Info

Publication number
CN109857614A
CN109857614A CN201811627900.3A CN201811627900A CN109857614A CN 109857614 A CN109857614 A CN 109857614A CN 201811627900 A CN201811627900 A CN 201811627900A CN 109857614 A CN109857614 A CN 109857614A
Authority
CN
China
Prior art keywords
cpld
bmc
mould group
revolving speed
fan mould
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811627900.3A
Other languages
English (en)
Inventor
夏嵩
胡远明
田洪元
秦晓宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Beijing Co Ltd
Original Assignee
Dawning Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN201811627900.3A priority Critical patent/CN109857614A/zh
Publication of CN109857614A publication Critical patent/CN109857614A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Programmable Controllers (AREA)

Abstract

本发明公开了一种机架服务器的容灾装置,包括:电源模块,由多个直流电源组组成;CPLD,连接至电源模块,用于控制电源模块并监控电源模块的状态信息;风扇模组,用于对机架服务器散热,并且连接至CPLD,CPLD控制并读取风扇模组的转速;BMC,与CPLD互连,并且CPLD监控BMC是否正常工作,当BMC正常工作时,CPLD和BMC互通针对风扇模组的转速控制和转速读取信息,当BMC故障时,由CPLD控制风扇模组的转速。本发明将BMC和CPLD互连,当BMC发生故障时,不会引起风扇模组停止工作进而导致整个系统崩溃。另一方面,还公开了一种机架服务器的容灾方法。

Description

一种机架服务器的容灾装置和方法
技术领域
本发明涉及计算机服务器领域,具体来说,涉及一种机架服务器的容灾装置和方法。
背景技术
随着互联网、云计算以及大数据等技术的兴起,服务器已经成为战略性基础设施。其应用场景通常为企业核心网、高性能计算及仿真、数据存储、数据处理及网络传输等,而其部署方式也通常具备大规模集群化的特性,这就对服务器设备的可管理性、可维护性、稳定性都提出了更高的要求。
当前的机架式服务器系统通常通过门电路的组合来实现系统的上下电逻辑,而通过BMC(Baseboard Management Controller的简称,即基板管理控制器)芯片来实现系统的监控和管理工作,二者之间没有太多相互联系。这样的做法虽然也能让系统正常上电和运行,但也存在不少问题:第一,BMC无法知道系统当前的上电状态,无法远程定位系统的上下电故障;第二,当BMC发生故障时,无容灾方案可能会导致整个系统无法正常运行;第三,采用门电路实现上下电逻辑需要更多的主板空间,在出现故障时无法快速定位故障点。
针对相关技术中上述问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中BMC发生故障时没有容灾方案的问题,本发明提出一种机架服务器的容灾装置,能够在BMC发生故障时仍能保证系统正常运行。
本发明的技术方案是这样实现的:
根据本发明的一个方面,提供了一种机架服务器的容灾装置,包括:
电源模块,由多个直流电源组组成;
CPLD(复杂可编程逻辑器件),连接至所述电源模块,用于控制所述电源模块并监控所述电源模块的状态信息;
风扇模组,用于对所述机架服务器散热,并且连接至所述CPLD,所述CPLD控制并读取所述风扇模组的转速;
BMC(基板管理控制器),与所述CPLD互连,并且所述CPLD监控所述BMC是否正常工作,当所述BMC正常工作时,所述CPLD和所述BMC互通针对所述风扇模组的转速控制和转速读取信息,当所述BMC故障时,由所述CPLD控制所述风扇模组的转速。
在一些实施例中,所述CPLD通过所述BMC的心跳监控来判断所述BMC是否正常工作。
在一些实施例中,当所述BMC故障时,所述CPLD将所述风扇模组的转速设置为最高值。
在一些实施例中,所述BMC将所述风扇模组的转速控制信号发送至所述CPLD,并且有所述CPLD控制所述风扇模组的转速。
在一些实施例中,所述CPLD读取所述风扇模组的转速并且将所述风扇模组的转速发送至所述BMC。
在一些实施例中,所述CPLD通过逻辑代码控制所述电源模块中的所述多个直流电源组的启动或关闭。
在一些实施例中,所述容灾装置还包括指示灯,所述指示灯与所述CPLD连接,并且实时显示所述所述电源模块的状态信息。
在一些实施例中,所述容灾装置还包括网络模块,所述网络模块与所述BMC连接,外部网络通过所述网络模块访问所述BMC,从而控制所述BMC并且获取所述BMC的状态信息。
根据本发明的另一方面,提供了一种机架服务器的容灾方法,应用上述的容灾装置,使得所述BMC和所述CPLD互连,以协同控制所述风扇模组的转速。
本发明将BMC和CPLD互连,以协同控制风扇模组的运行。当BMC发生故障时,由CPLD控制风扇模组的运行,从而保证不会由于BMC故障而引起风扇模组停止工作,进而导致整个系统崩溃。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种机架服务器的容灾装置的模块结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
服务器的发热量较大,需要风扇模组12来协助散热,一般通过BMC13对系统内各关键位置的温度进行侦测并根据调速策略来控制风扇模组12的运转实现散热。当BMC13发生故障时,风扇模组12无法正常运行,会导致机器过热而引起宕机等不可预料的后果。不同于仅由BMC13互连控制风扇模组12,本发明将BMC13和CPLD11进行互联,协同控制风扇模组12的运行,实现了系统的容灾设计。
如图1所示,根据本发明的实施例,提供了一种机架服务器的容灾装置,包括:
电源模块10,由多个直流电源组成;
CPLD(Complex Programmable Logic Device的简称,即复杂可编程逻辑器件)11,连接至电源模块10,用于控制电源模块10并监控电源模块10的状态信息;
风扇模组12,用于对机架服务器散热,并且连接至CPLD11,CPLD11控制并读取风扇模组12的转速;
BMC(基板管理控制器)13,与CPLD11互连,并且CPLD11监控BMC13是否正常工作,当BMC13正常工作时,CPLD11和BMC13互通针对风扇模组12的转速控制和转速读取信息,当BMC13故障时,由CPLD11控制风扇模组12的转速。
基于以上实施例,本发明将BMC13和CPLD11互连,以协同控制风扇模组12的运行。当BMC13发生故障时,由CPLD11控制风扇模组12的运行,从而保证不会由于BMC13故障而引起风扇模组12停止工作,进而导致整个系统崩溃。
在优选实施例中,CPLD11通过BMC13的心跳监控来判断BMC13是否正常工作。当BMC13故障时,CPLD11将风扇模组12的转速设置为最高值,从而使得不会由于BMC13故障而引起风扇模组12停止工作。
在优选实施例中,BMC13将风扇模组12的转速控制信号发送至CPLD11,并且有CPLD11控制风扇模组12的转速。CPLD11读取风扇模组12的转速并且将风扇模组12的转速发送至BMC13。从而实现了CPLD11和BMC13之间互通风扇模组12转速的信息。
在优选实施例中,CPLD11通过逻辑代码控制电源模块10中的多个直流电源组的启动或关闭。容灾装置还包括指示灯14,指示灯14与CPLD11连接,并且实时显示电源模块10的状态信息。在一些实施例中,电源模块10由多组直流电源组成,主要为CPU、内存等多个模块供电。系统上下电时,各个直流电源组需要遵循一定的顺序来启动或关闭,CPLD11通过逻辑代码来控制直流电源组的启动或关闭,并通过对各电源组状态信息的实时监控来实现故障诊断,并且通过指示灯14显示。通过指示灯14实时显示电源状态信息,从而提高了电源故障的诊断效率。
在优选实施例中,容灾装置还包括网络模块15,网络模块15与BMC13连接,外部网络通过网络模块15访问BMC13,从而控制BMC13并且获取BMC13的状态信息。
因此,基于以上实施例,通过CPLD11模块的逻辑设计可以实现系统上下电的控制和电源模块10故障的快速定位、快速实时故障诊断和远程监控。并且通过CPLD11与BMC13的互联和通信,可以提升机架式服务器的容灾能力,在BMC13发生故障时保障系统的正常工作,提高系统运行的稳定性。
此外,根据本发明的实施例,还提供了一种机架服务器的容灾方法,应用上述的容灾装置,使得BMC13和CPLD11互连,以协同控制风扇模组12的转速。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种机架服务器的容灾装置,其特征在于,包括:
电源模块,由多个直流电源组组成;
CPLD(复杂可编程逻辑器件),连接至所述电源模块,用于控制所述电源模块并监控所述电源模块的状态信息;
风扇模组,用于对所述机架服务器散热,并且连接至所述CPLD,所述CPLD控制并读取所述风扇模组的转速;
BMC(基板管理控制器),与所述CPLD互连,并且所述CPLD监控所述BMC是否正常工作,当所述BMC正常工作时,所述CPLD和所述BMC互通针对所述风扇模组的转速控制和转速读取信息,当所述BMC故障时,由所述CPLD控制所述风扇模组的转速。
2.根据权利要求1所述的机架服务器的容灾装置,其特征在于,所述CPLD通过所述BMC的心跳监控来判断所述BMC是否正常工作。
3.根据权利要求2所述的机架服务器的容灾装置,其特征在于,当所述BMC故障时,所述CPLD将所述风扇模组的转速设置为最高值。
4.根据权利要求1所述的机架服务器的容灾装置,其特征在于,所述BMC将所述风扇模组的转速控制信号发送至所述CPLD,并且有所述CPLD控制所述风扇模组的转速。
5.根据权利要求4述的机架服务器的容灾装置,其特征在于,所述CPLD读取所述风扇模组的转速并且将所述风扇模组的转速发送至所述BMC。
6.根据权利要求1所述的机架服务器的容灾装置,其特征在于,所述CPLD通过逻辑代码控制所述电源模块中的所述多个直流电源组的启动或关闭。
7.根据权利要求1所述的机架服务器的容灾装置,其特征在于,所述容灾装置还包括指示灯,所述指示灯与所述CPLD连接,并且实时显示所述所述电源模块的状态信息。
8.根据权利要求1所述的机架服务器的容灾装置,其特征在于,所述容灾装置还包括网络模块,所述网络模块与所述BMC连接,外部网络通过所述网络模块访问所述BMC,从而控制所述BMC并且获取所述BMC的状态信息。
9.一种机架服务器的容灾方法,其特征在于,应用权利要求1-8任一项所述的装置,使得所述BMC和所述CPLD互连,以协同控制所述风扇模组的转速。
CN201811627900.3A 2018-12-28 2018-12-28 一种机架服务器的容灾装置和方法 Pending CN109857614A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811627900.3A CN109857614A (zh) 2018-12-28 2018-12-28 一种机架服务器的容灾装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811627900.3A CN109857614A (zh) 2018-12-28 2018-12-28 一种机架服务器的容灾装置和方法

Publications (1)

Publication Number Publication Date
CN109857614A true CN109857614A (zh) 2019-06-07

Family

ID=66893089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811627900.3A Pending CN109857614A (zh) 2018-12-28 2018-12-28 一种机架服务器的容灾装置和方法

Country Status (1)

Country Link
CN (1) CN109857614A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362175A (zh) * 2019-06-29 2019-10-22 苏州浪潮智能科技有限公司 一种风扇控制方法及装置
CN111258405A (zh) * 2020-01-18 2020-06-09 苏州浪潮智能科技有限公司 一种服务器主板防烧系统及方法
CN111966559A (zh) * 2020-07-14 2020-11-20 中国长城科技集团股份有限公司 一种故障恢复方法、装置、电子设备和存储介质
CN112068991A (zh) * 2020-08-05 2020-12-11 苏州浪潮智能科技有限公司 一种基于主从同步的高可靠的双管理系统
CN113721747A (zh) * 2021-07-29 2021-11-30 苏州浪潮智能科技有限公司 一种服务器及其防烧板电路和方法
CN114911332A (zh) * 2022-04-29 2022-08-16 苏州浪潮智能科技有限公司 服务器风扇调控方法、系统、电子设备及存储介质
WO2022183877A1 (zh) * 2021-03-03 2022-09-09 山东英信计算机技术有限公司 一种gpu服务器的电源冗余控制系统、方法及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140142764A1 (en) * 2012-11-20 2014-05-22 Inventec Corporation Fan rotational speed control system and method for controlling rotational speed of fan
CN107588030A (zh) * 2017-09-14 2018-01-16 郑州云海信息技术有限公司 一种散热风扇调速方法、装置及系统
CN107797050A (zh) * 2017-10-20 2018-03-13 郑州云海信息技术有限公司 一种定位服务器主板上电时序状态异常的方法
CN107939718A (zh) * 2017-12-21 2018-04-20 郑州云海信息技术有限公司 一种基于cpld‑fpga的服务器风扇旋转控制方法
CN107943623A (zh) * 2017-12-13 2018-04-20 郑州云海信息技术有限公司 一种存储系统
CN108457888A (zh) * 2018-03-01 2018-08-28 郑州云海信息技术有限公司 一种服务器风扇故障检测方法、装置及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140142764A1 (en) * 2012-11-20 2014-05-22 Inventec Corporation Fan rotational speed control system and method for controlling rotational speed of fan
CN107588030A (zh) * 2017-09-14 2018-01-16 郑州云海信息技术有限公司 一种散热风扇调速方法、装置及系统
CN107797050A (zh) * 2017-10-20 2018-03-13 郑州云海信息技术有限公司 一种定位服务器主板上电时序状态异常的方法
CN107943623A (zh) * 2017-12-13 2018-04-20 郑州云海信息技术有限公司 一种存储系统
CN107939718A (zh) * 2017-12-21 2018-04-20 郑州云海信息技术有限公司 一种基于cpld‑fpga的服务器风扇旋转控制方法
CN108457888A (zh) * 2018-03-01 2018-08-28 郑州云海信息技术有限公司 一种服务器风扇故障检测方法、装置及系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362175A (zh) * 2019-06-29 2019-10-22 苏州浪潮智能科技有限公司 一种风扇控制方法及装置
CN111258405A (zh) * 2020-01-18 2020-06-09 苏州浪潮智能科技有限公司 一种服务器主板防烧系统及方法
CN111258405B (zh) * 2020-01-18 2021-11-23 腾讯科技(深圳)有限公司 一种服务器主板防烧系统及方法
CN111966559A (zh) * 2020-07-14 2020-11-20 中国长城科技集团股份有限公司 一种故障恢复方法、装置、电子设备和存储介质
CN111966559B (zh) * 2020-07-14 2023-12-15 中国长城科技集团股份有限公司 一种故障恢复方法、装置、电子设备和存储介质
CN112068991A (zh) * 2020-08-05 2020-12-11 苏州浪潮智能科技有限公司 一种基于主从同步的高可靠的双管理系统
WO2022183877A1 (zh) * 2021-03-03 2022-09-09 山东英信计算机技术有限公司 一种gpu服务器的电源冗余控制系统、方法及介质
CN113721747A (zh) * 2021-07-29 2021-11-30 苏州浪潮智能科技有限公司 一种服务器及其防烧板电路和方法
CN113721747B (zh) * 2021-07-29 2023-08-29 苏州浪潮智能科技有限公司 一种服务器及其防烧板电路和方法
CN114911332A (zh) * 2022-04-29 2022-08-16 苏州浪潮智能科技有限公司 服务器风扇调控方法、系统、电子设备及存储介质
CN114911332B (zh) * 2022-04-29 2023-08-04 苏州浪潮智能科技有限公司 服务器风扇调控方法、系统、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109857614A (zh) 一种机架服务器的容灾装置和方法
US8656003B2 (en) Method for controlling rack system using RMC to determine type of node based on FRU's message when status of chassis is changed
US10042583B2 (en) Device management method, device, and device management controller
US20080043769A1 (en) Clustering system and system management architecture thereof
CN104035831A (zh) 一种高端容错计算机管理系统及方法
CN105721546A (zh) 一种基于工业物联通讯的多数据集成服务平台
US20120136502A1 (en) Fan speed control system and fan speed reading method thereof
US20050080887A1 (en) Redundant management control arbitration system
TW201445936A (zh) 可動態切換主節點的伺服器系統及動態切換主節點的方法
CN103135732B (zh) 服务器机柜系统
CN103139248B (zh) 机架系统
US20170024353A1 (en) Dedicated lan interface per ipmi instance on a multiple baseboard management controller (bmc) system with single physical network interface
CN205139890U (zh) 一种基于x86架构的双控双活存储系统
CN105549696B (zh) 具有机箱管理功能的机架式服务器系统
CN111209241A (zh) 整机柜服务器的管理系统
CN109162953A (zh) 一种风扇控制装置及服务器
US8959376B2 (en) Sharing power between two or more power sharing servers
US10405455B2 (en) Fan speed-adjustment policy for entire machine cabinet by placing fan table on node BMC
JP2008090354A (ja) 電源障害監視方法及びその装置
CN110985426B (zh) 一种PCIE Switch产品的风扇控制系统及方法
US11733762B2 (en) Method to allow for higher usable power capacity in a redundant power configuration
CN111324503B (zh) 机框管理装置、方法和计算机可读存储介质
CN203554493U (zh) 一种服务器用远程管理接口系统
CN109936532A (zh) 一种数据总线传输安全防护系统
CN117041184B (zh) Io拓展装置及io交换机

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190607

RJ01 Rejection of invention patent application after publication