CN107797880A - 一种提高服务器主板bmc可靠性的方法 - Google Patents

一种提高服务器主板bmc可靠性的方法 Download PDF

Info

Publication number
CN107797880A
CN107797880A CN201711225132.4A CN201711225132A CN107797880A CN 107797880 A CN107797880 A CN 107797880A CN 201711225132 A CN201711225132 A CN 201711225132A CN 107797880 A CN107797880 A CN 107797880A
Authority
CN
China
Prior art keywords
bmc
cpld
logic device
server
programmable logic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711225132.4A
Other languages
English (en)
Inventor
刘强
张军
于治楼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Inspur Hi Tech Investment and Development Co Ltd
Original Assignee
Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Inspur Hi Tech Investment and Development Co Ltd filed Critical Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority to CN201711225132.4A priority Critical patent/CN107797880A/zh
Publication of CN107797880A publication Critical patent/CN107797880A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/24Resetting means

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种提高服务器主板BMC可靠性的方法,基于带BMC芯片的服务器,其实现过程为:首先将可编程逻辑器件CPLD与BMC芯片通信连接;然后进行心跳通信,并根据心跳情况判断BMC是否已经死机;当BMC出现死机时,通过可编程逻辑器件CPLD发送控制BMC芯片的复位信号给BMC芯片重新复位,完成服务器BMC复位过程。本发明的一种提高服务器主板BMC可靠性的方法与现有技术相比,不需要人到服务器前去复位服务器BMC,方便了客户的使用,增强用户体验,有效解决现有BMC芯片操作系统的死机问题,实用性强,适用范围广泛,易于推广。

Description

一种提高服务器主板BMC可靠性的方法
技术领域
本发明涉及服务器技术领域,具体地说是一种提高服务器主板BMC可靠性的方法。
背景技术
目前服务器主板都设计有BMC芯片,一方面提供显卡功能,另外可以运行操作系统提供远程管理功能,随着BMC芯片在服务器产品中的广泛应用,对BMC的可靠性要求越来越高,因主流BMC芯片都是运行操作系统的,这就存在一定几率的死机问题,一旦出现BMC死机,它的远程管理功能将失效,而远程操控人员将不得不到服务器前去复位服务器主板,给使用人员带来不便性,给客户带来很多麻烦。
为了解决这个问题,本专利提供一种一旦出现BMC死机问题时,实现BMC自动重启的方法。
发明内容
本发明的技术任务是针对以上不足之处,提供一种提高服务器主板BMC可靠性的方法。
一种提高服务器主板BMC可靠性的方法,基于带BMC芯片的服务器,其实现过程为:
一、首先将可编程逻辑器件CPLD与BMC芯片通信连接;
二、然后进行心跳通信,并根据心跳情况判断BMC是否已经死机;
三、当BMC出现死机时,通过可编程逻辑器件CPLD发送控制BMC芯片的复位信号给BMC芯片重新复位,完成服务器BMC复位过程。
所述可编程逻辑器件CPLD和BMC芯片的供电都是采用的Standby电源供电,该Standby电源是指:在服务器的供电电源,即ATX电源每次连接220V时,就会产生Standy电源输出。
所述步骤一中,可编程逻辑器件CPLD与BMC芯片通过I2C总线进行连接并心跳通信,且可编程逻辑器件CPLD作为I2C主设备,BMC芯片作为I2C从设备。
在步骤二中,可编程逻辑器件CPLD与BMC芯片进行心跳前,可编程逻辑器件CPLD延时一分钟通信,即让BMC芯片操作系统启动完成。
所述步骤二中进行心跳通信的过程为:可编程逻辑器件CPLD向BMC芯片定时发送心跳数据,BMC芯片收到可编程逻辑器件CPLD发送的数据后,返回回复数据表示BMC运行正常,当出现可编程逻辑器件CPLD连续发送通信命令后,BMC都没有响应时,则认为BMC已经死机。
BMC死机是指可编程逻辑器件CPLD连续发送至少三次通信命令都得不到BMC的响应时,确定为BMC死机。
所述步骤三中,可编程逻辑器件CPLD通过控制发送BMC芯片的复位信号去让BMC复位重启,工作人员重新登陆BMC管理界面继续对服务器进行管理控制即可完成服务器BMC复位过程。
本发明的一种提高服务器主板BMC可靠性的方法和现有技术相比,具有以下有益效果:
本发明的一种提高服务器主板BMC可靠性的方法,不需要人到服务器前去复位服务器BMC,方便了客户的使用,增强用户体验,有效解决现有BMC芯片操作系统的死机问题,实用性强,适用范围广泛,易于推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
附图1是本发明的实现流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明的方案,下面结合具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如附图1所示,一种提高服务器主板BMC可靠性的方法,本专利采用一种服务器主板设计中通用的可编程逻辑器件与BMC芯片通过I2C总线进行心跳的方法来判断BMC是否已经死机,一旦出现BMC死机了,就通过可编程逻辑器件去控制BMC芯片的复位信号给BMC芯片重新复位,这样只需要重新登录一下远程管理界面就可以继续通过BMC进行服务器的管理,而不需要人到服务器前去复位服务器BMC,方便了客户的使用。
为了解决服务器产品中BMC芯片运行的操作系统死机后,无法继续进行远程对服务器操控的问题,本发明基于带BMC芯片的服务器,其实现过程为:
一、首先将可编程逻辑器件CPLD与BMC芯片通信连接;
二、然后进行心跳通信,并根据心跳情况判断BMC是否已经死机;
三、当BMC出现死机时,通过可编程逻辑器件CPLD发送控制BMC芯片的复位信号给BMC芯片重新复位,完成服务器BMC复位过程。
所述可编程逻辑器件CPLD和BMC芯片的供电都是采用的Standby电源供电,该Standby电源是指:在服务器的供电电源,即ATX电源每次连接220V时,就会产生Standy电源输出。
所述步骤一中,可编程逻辑器件CPLD与BMC芯片通过I2C总线进行连接并心跳通信,且可编程逻辑器件CPLD作为I2C主设备,BMC芯片作为I2C从设备,这里的心跳通信为定时心跳,因CPLD的可靠性远远高于运行操作系统的BMC芯片,所以可以定时给BMC发送心跳信息。
在步骤二中,可编程逻辑器件CPLD与BMC芯片进行心跳前,可编程逻辑器件CPLD延时一分钟通信,即让BMC芯片操作系统启动完成。
所述步骤二中进行心跳通信的过程为:可编程逻辑器件CPLD向BMC芯片定时发送心跳数据,BMC芯片收到可编程逻辑器件CPLD发送的数据后,返回回复数据表示BMC运行正常,当出现可编程逻辑器件CPLD连续发送通信命令后,BMC都没有响应时,则认为BMC已经死机。
BMC死机是指可编程逻辑器件CPLD连续发送至少三次通信命令都得不到BMC的响应时,确定为BMC死机。
所述步骤三中,可编程逻辑器件CPLD通过控制发送BMC芯片的复位信号去让BMC复位重启,工作人员重新登陆BMC管理界面继续对服务器进行管理控制即可完成服务器BMC复位过程,而不需要认为去到服务器前去控制服务器BMC的重启。
在实际操作中,可采用EPM570 CPLD芯片和AST2400 BMC芯片设计的服务器主板。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (7)

1.一种提高服务器主板BMC可靠性的方法,其特征在于,基于带BMC芯片的服务器,其实现过程为:
一、首先将可编程逻辑器件CPLD与BMC芯片通信连接;
二、然后进行心跳通信,并根据心跳情况判断BMC是否已经死机;
三、当BMC出现死机时,通过可编程逻辑器件CPLD发送控制BMC芯片的复位信号给BMC芯片重新复位,完成服务器BMC复位过程。
2.根据权利要求1所述的一种提高服务器主板BMC可靠性的方法,其特征在于,所述可编程逻辑器件CPLD和BMC芯片的供电都是采用的Standby电源供电,该Standby电源是指:在服务器的供电电源,即ATX电源每次连接220V时,就会产生Standy电源输出。
3.根据权利要求1或2所述的一种提高服务器主板BMC可靠性的方法,其特征在于,所述步骤一中,可编程逻辑器件CPLD与BMC芯片通过I2C总线进行连接并心跳通信,且可编程逻辑器件CPLD作为I2C主设备,BMC芯片作为I2C从设备。
4.根据权利要求1或2所述的一种提高服务器主板BMC可靠性的方法,其特征在于,在步骤二中,可编程逻辑器件CPLD与BMC芯片进行心跳前,可编程逻辑器件CPLD延时一分钟通信,即让BMC芯片操作系统启动完成。
5.根据权利要求4所述的一种提高服务器主板BMC可靠性的方法,其特征在于,所述步骤二中进行心跳通信的过程为:可编程逻辑器件CPLD向BMC芯片定时发送心跳数据,BMC芯片收到可编程逻辑器件CPLD发送的数据后,返回回复数据表示BMC运行正常,当出现可编程逻辑器件CPLD连续发送通信命令后,BMC都没有响应时,则认为BMC已经死机。
6.根据权利要求5所述的一种提高服务器主板BMC可靠性的方法,其特征在于,BMC死机是指可编程逻辑器件CPLD连续发送至少三次通信命令都得不到BMC的响应时,确定为BMC死机。
7.根据权利要求1或2所述的一种提高服务器主板BMC可靠性的方法,其特征在于,所述步骤三中,可编程逻辑器件CPLD通过控制发送BMC芯片的复位信号去让BMC复位重启,工作人员重新登陆BMC管理界面继续对服务器进行管理控制即可完成服务器BMC复位过程。
CN201711225132.4A 2017-11-29 2017-11-29 一种提高服务器主板bmc可靠性的方法 Pending CN107797880A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711225132.4A CN107797880A (zh) 2017-11-29 2017-11-29 一种提高服务器主板bmc可靠性的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711225132.4A CN107797880A (zh) 2017-11-29 2017-11-29 一种提高服务器主板bmc可靠性的方法

Publications (1)

Publication Number Publication Date
CN107797880A true CN107797880A (zh) 2018-03-13

Family

ID=61537910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711225132.4A Pending CN107797880A (zh) 2017-11-29 2017-11-29 一种提高服务器主板bmc可靠性的方法

Country Status (1)

Country Link
CN (1) CN107797880A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109143954A (zh) * 2018-07-26 2019-01-04 郑州云海信息技术有限公司 一种实现控制器复位的系统及方法
CN109826822A (zh) * 2019-04-11 2019-05-31 苏州浪潮智能科技有限公司 一种风扇控制方法及相关装置
CN109882440A (zh) * 2019-04-16 2019-06-14 苏州浪潮智能科技有限公司 一种风扇转速控制装置及控制方法
CN110209258A (zh) * 2019-04-28 2019-09-06 北京达佳互联信息技术有限公司 复位方法、装置、服务器集群、电子设备及存储介质
CN111158944A (zh) * 2019-12-30 2020-05-15 联想(北京)有限公司 一种信息处理方法、电源系统及电子设备系统
CN111367700A (zh) * 2020-02-28 2020-07-03 苏州浪潮智能科技有限公司 一种bmc宕住后的强制恢复方法、系统及相关组件
CN111413948A (zh) * 2020-03-26 2020-07-14 大唐环境产业集团股份有限公司 用于判断plc与dcs通讯是否正常的装置和方法
TWI700583B (zh) * 2018-12-18 2020-08-01 英業達股份有限公司 伺服方法、系統、主板及電腦可讀取儲存媒介
CN113032026A (zh) * 2021-03-19 2021-06-25 山东英信计算机技术有限公司 一种服务器主板的固件管理方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615506A (zh) * 2015-02-13 2015-05-13 浪潮电子信息产业股份有限公司 一种基于逻辑控制的bios和bmc备份方法
US20160239370A1 (en) * 2015-02-12 2016-08-18 Aic Inc. Rack having automatic recovery function and automatic recovery method for the same
CN107133119A (zh) * 2017-05-02 2017-09-05 郑州云海信息技术有限公司 一种通过cpld实现硬件看门狗功能的方法
CN107145428A (zh) * 2017-05-26 2017-09-08 郑州云海信息技术有限公司 一种服务器及服务器监控方法
CN107193708A (zh) * 2017-05-17 2017-09-22 郑州云海信息技术有限公司 一种状态检测方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160239370A1 (en) * 2015-02-12 2016-08-18 Aic Inc. Rack having automatic recovery function and automatic recovery method for the same
CN104615506A (zh) * 2015-02-13 2015-05-13 浪潮电子信息产业股份有限公司 一种基于逻辑控制的bios和bmc备份方法
CN107133119A (zh) * 2017-05-02 2017-09-05 郑州云海信息技术有限公司 一种通过cpld实现硬件看门狗功能的方法
CN107193708A (zh) * 2017-05-17 2017-09-22 郑州云海信息技术有限公司 一种状态检测方法及系统
CN107145428A (zh) * 2017-05-26 2017-09-08 郑州云海信息技术有限公司 一种服务器及服务器监控方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109143954A (zh) * 2018-07-26 2019-01-04 郑州云海信息技术有限公司 一种实现控制器复位的系统及方法
CN109143954B (zh) * 2018-07-26 2021-09-17 郑州云海信息技术有限公司 一种实现控制器复位的系统及方法
TWI700583B (zh) * 2018-12-18 2020-08-01 英業達股份有限公司 伺服方法、系統、主板及電腦可讀取儲存媒介
CN109826822A (zh) * 2019-04-11 2019-05-31 苏州浪潮智能科技有限公司 一种风扇控制方法及相关装置
CN109882440A (zh) * 2019-04-16 2019-06-14 苏州浪潮智能科技有限公司 一种风扇转速控制装置及控制方法
CN110209258A (zh) * 2019-04-28 2019-09-06 北京达佳互联信息技术有限公司 复位方法、装置、服务器集群、电子设备及存储介质
CN111158944A (zh) * 2019-12-30 2020-05-15 联想(北京)有限公司 一种信息处理方法、电源系统及电子设备系统
CN111158944B (zh) * 2019-12-30 2022-10-25 联想(北京)有限公司 一种信息处理方法、电源系统及电子设备系统
CN111367700A (zh) * 2020-02-28 2020-07-03 苏州浪潮智能科技有限公司 一种bmc宕住后的强制恢复方法、系统及相关组件
CN111413948A (zh) * 2020-03-26 2020-07-14 大唐环境产业集团股份有限公司 用于判断plc与dcs通讯是否正常的装置和方法
CN111413948B (zh) * 2020-03-26 2021-01-26 大唐环境产业集团股份有限公司 用于判断plc与dcs通讯是否正常的装置和方法
CN113032026A (zh) * 2021-03-19 2021-06-25 山东英信计算机技术有限公司 一种服务器主板的固件管理方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN107797880A (zh) 一种提高服务器主板bmc可靠性的方法
US20110307639A1 (en) Virtual serial port management system and method
CN107634855A (zh) 一种嵌入式系统的双机热备方法
CN105426275A (zh) 双活集群系统中容灾的方法及装置
CN105159851A (zh) 多控存储系统
CN105897471A (zh) 一种带外管理系统及方法
CN105471653A (zh) 一种机载双通道无缝切换方法及系统
CN103595768A (zh) 一种实现虚拟化设备间配置同步的方法
CN102840992A (zh) 一种基于星上网的星载自测试方法
CN103885860A (zh) 一种应用ipmi命令实现bmc双管理热冗余的方法
CN107870662A (zh) 一种多CPU系统中CPU复位的方法及PCIe接口卡
CN104424680A (zh) 一种门禁冗余控制系统
CN212031962U (zh) 一种轨道交通安全计算机联锁系统
US20090077275A1 (en) Multiple I/O interfacing system for a storage device and communicating method for the same
CN105306352A (zh) 一种工业现场总线协议网关装置
CN101741532B (zh) 一种用于冗余服务器切换的双机切换装置
CN106201971A (zh) 一种基于总线同步校验的铁路信号安全计算机平台
CN203455884U (zh) 一种门禁冗余控制系统
CN103067034A (zh) 一种可监控led发布系统的3g模块
CN103885421A (zh) 一种标准总线控制器
CN103472746B (zh) 双主控设备及双主控设备的冗余控制方法
CN103957266A (zh) 一种通信系统的设备集中控制方法
CN100541464C (zh) 双总线无缝式自切换的方法
CN203930813U (zh) 一种基于龙芯平台的can总线冗余通信系统
CN110119113A (zh) 一种嵌入式短波天线交换开关控制系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180313

RJ01 Rejection of invention patent application after publication