CN103425545A - 一种多处理器服务器的系统容错方法 - Google Patents

一种多处理器服务器的系统容错方法 Download PDF

Info

Publication number
CN103425545A
CN103425545A CN2013103635596A CN201310363559A CN103425545A CN 103425545 A CN103425545 A CN 103425545A CN 2013103635596 A CN2013103635596 A CN 2013103635596A CN 201310363559 A CN201310363559 A CN 201310363559A CN 103425545 A CN103425545 A CN 103425545A
Authority
CN
China
Prior art keywords
fault
cpu
tolerance method
multiprocessor
fault tolerance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013103635596A
Other languages
English (en)
Inventor
李博乐
林楷智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN2013103635596A priority Critical patent/CN103425545A/zh
Publication of CN103425545A publication Critical patent/CN103425545A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种多处理器服务器的系统容错方法,其具体过程为:系统侦测处理器故障,并上报给监控管理单元;监控管理单元对故障进行分析判断,达到一定的故障级别后,向系统发出中断请求;系统接收中断后,根据事先制定的容错策略进行配置降级,上述步骤针对的是多处理器服务器。该一种多处理器服务器的系统容错方法和现有技术相比,以降低配置为代价,提升系统可靠性,实用性强,易于推广。

Description

一种多处理器服务器的系统容错方法
 
技术领域
    本发明涉及计算机技术领域,具体的说是一种多处理器服务器的系统容错方法。
背景技术
随着服务器事业的飞速发展,多处理器服务器早已成为市场上的主流,目前4路服务器,8路服务器,甚至通过节点控制器扩展的16路及32服务器也已经屡见不鲜;不过单机互联的处理器数量越多,可能导致的问题就越多,以4路服务器为例,假设单CPU故障率为0.01%,那么4路整机CPU故障率则为0.04%;如果8路服务器使用相同品质的CPU,则整机CPU故障率则提升至0.08%;可以这样说,系统越复杂,出现故障的概率就越高。
面对多处理器服务器这样构造如此复杂的产品,有的厂商采取部件冗余的办法,如采用CPU冗余,采用n个CPU做备份,正常状态下只有N-n个CPU在工作,极大的浪费了系统配置资源。
发明内容
本发明的技术任务是解决现有技术的不足,提供一种多处理器服务器的系统容错方法。
本发明的技术方案是按以下方式实现的,该一种多处理器服务器的系统容错方法,其具体过程为:
步骤一、系统侦测处理器故障,并上报给监控管理单元;
步骤二、监控管理单元对故障进行分析判断,达到一定的故障级别后,向系统发出中断请求;
步骤三、系统接收中断后,根据事先制定的容错策略进行配置降级,
上述步骤针对的是多处理器服务器。
作为优选,所述步骤一中的系统侦测是指在多处理器服务器工作时,由BIOS负责底层故障监控。进而有效避免由局部问题发展成全局问题。
进一步的,所述步骤二种的故障级别是指CPU发出的警报信号持续三十秒有效,这里的警报信号是指CPU在温度过高时主动释放的。
作为优选,所述步骤三中的配置降级是指系统停止与故障CPU通信,并将故障CPU从系统中安全卸载。
本发明与现有技术相比所产生的有益效果是:
本发明的一种多处理器服务器的系统容错方法针对多路服务器,在正常状态下CPU全部工作,只有在系统遭遇处理器故障时,才根据故障状况,降级配置;这样即不会浪费配置资源,同时也可以保证整机的可靠性,实用性强,易于推广。
附图说明
附图1是本发明的实现流程图。
附图2是实施例降级前的8路拓扑图。
附图3是实施例降级后的6路拓扑图。
附图4是实施例降级后的4路拓扑图。
具体实施方式
下面对本发明的一种多处理器服务器的系统容错方法作详细说明。
如附图1所示,现提供一种多处理器服务器的系统容错方法,当多处理器服务器遭遇个别处理器故障,并达到一定程度时,系统主动降级进行容错。系统停止与故障CPU通信,并将故障CPU从系统中安全卸载,避免由局部问题发展成全局问题。这种容错设计是以降低配置为代价,提升系统可靠性。其具体过程为:
步骤一、系统侦测处理器故障,并上报给监控管理单元。
步骤二、监控管理单元对故障进行分析判断,达到一定的故障级别后,向系统发出中断请求。
根据CPU自身特性,CPU在温度过高时会释放thermal alert信号,同时降频降压,以降低自身温度,但CPU在thermal alert过程中会不断发出中断,系统在不停处理此类中断信息,导致系统变慢。故这里制定的策略是如在thermal alert持续30秒有效,则需要触发降级机制。
步骤三、系统接收中断后,根据事先制定的容错策略进行配置降级,上述步骤针对的是多处理器服务器。
具体降级实施例如附图2、图3、图4所示,图2为降级前的拓扑,包括八路拓扑,图3、图4为降级后的拓扑,分别表示六路拓扑和四路拓扑。
CPU发生严重错误时,会触发Error1信号,如果不能及时修正,系统会自动重启,这里制定的策略是一旦发现Error1信号有效,立即触发降级机制,隔离故障CPU。
此外在CPU访存出现错误,并超过255错误寄存器上限时,无论是CPU本身故障还是本NUMA域中内存故障,这里的策略都要进行降级,以确保系统不会停机。
多处理器服务器正常工作,BIOS负责底层故障监控,一旦发现处理器故障,将故障信息发送给BMC;BMC根据事先制定好的策略对故障信息进行判断;如达到降级条件,则参照降级拓扑结构,将降级命令发送给BIOS,BIOS接到指令,调用CPU热移除模块,执行CPU热移除事件。CPU被热移除,系统实现容错目的,保证不停机稳定工作。
除说明书所述的技术特征外,均为本专业技术人员的公知技术。

Claims (4)

1.一种多处理器服务器的系统容错方法,其特征在于其具体过程为:
步骤一、系统侦测处理器故障,并上报给监控管理单元;
步骤二、监控管理单元对故障进行分析判断,达到一定的故障级别后,向系统发出中断请求;
步骤三、系统接收中断后,根据事先制定的容错策略进行配置降级,
上述步骤针对的是多处理器服务器。
2.根据权利要求1所述的一种多处理器服务器的系统容错方法,其特征在于:所述步骤一中的系统侦测是指在多处理器服务器工作时,由BIOS负责底层故障监控。
3.根据权利要求1所述的一种多处理器服务器的系统容错方法,其特征在于:所述步骤二种的故障级别是指CPU发出的警报信号持续三十秒有效,这里的警报信号是指CPU在温度过高时主动释放的。
4.根据权利要求1所述的一种多处理器服务器的系统容错方法,其特征在于:所述步骤三中的配置降级是指系统停止与故障CPU通信,并将故障CPU从系统中安全卸载。
CN2013103635596A 2013-08-20 2013-08-20 一种多处理器服务器的系统容错方法 Pending CN103425545A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013103635596A CN103425545A (zh) 2013-08-20 2013-08-20 一种多处理器服务器的系统容错方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013103635596A CN103425545A (zh) 2013-08-20 2013-08-20 一种多处理器服务器的系统容错方法

Publications (1)

Publication Number Publication Date
CN103425545A true CN103425545A (zh) 2013-12-04

Family

ID=49650332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013103635596A Pending CN103425545A (zh) 2013-08-20 2013-08-20 一种多处理器服务器的系统容错方法

Country Status (1)

Country Link
CN (1) CN103425545A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970705A (zh) * 2014-04-24 2014-08-06 浪潮电子信息产业股份有限公司 一种采用冗余对称的可热插拔io箱的多路服务器架构设计
CN104021054A (zh) * 2014-06-11 2014-09-03 浪潮(北京)电子信息产业有限公司 服务器故障可视化侦测及处理方法、系统及可编程芯片
CN105306507A (zh) * 2014-07-18 2016-02-03 阿里巴巴集团控股有限公司 分布式架构中的容灾处理方法及容灾处理装置
WO2016106965A1 (zh) * 2014-12-31 2016-07-07 中兴通讯股份有限公司 一种服务器自愈的方法和装置
CN106815108A (zh) * 2017-01-19 2017-06-09 郑州云海信息技术有限公司 一种多路服务器故障定位系统
WO2017118080A1 (zh) * 2016-01-08 2017-07-13 华为技术有限公司 一种中央处理器cpu热移除、热添加方法及装置
CN111813568A (zh) * 2020-05-25 2020-10-23 北京皮尔布莱尼软件有限公司 一种服务管理系统和方法
CN114706703A (zh) * 2022-03-23 2022-07-05 飞腾信息技术有限公司 多路服务器系统故障诊断装置、系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08305673A (ja) * 1995-05-01 1996-11-22 Hitachi Ltd マルチcpu監視方式
CN1808386A (zh) * 2005-01-18 2006-07-26 华为技术有限公司 处理多线程/多任务/多处理器的方法
CN1828573A (zh) * 2005-03-01 2006-09-06 华为技术有限公司 一种多cpu系统及其控制方法
CN101216793A (zh) * 2008-01-18 2008-07-09 华为技术有限公司 一种多处理器系统故障恢复的方法及装置
CN101236515A (zh) * 2007-01-31 2008-08-06 迈普(四川)通信技术有限公司 多核系统单核异常的恢复方法
CN102110040A (zh) * 2011-01-27 2011-06-29 浪潮电子信息产业股份有限公司 Bmc根据不同功率cpu来调整cpu报警温度的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08305673A (ja) * 1995-05-01 1996-11-22 Hitachi Ltd マルチcpu監視方式
CN1808386A (zh) * 2005-01-18 2006-07-26 华为技术有限公司 处理多线程/多任务/多处理器的方法
CN1828573A (zh) * 2005-03-01 2006-09-06 华为技术有限公司 一种多cpu系统及其控制方法
CN101236515A (zh) * 2007-01-31 2008-08-06 迈普(四川)通信技术有限公司 多核系统单核异常的恢复方法
CN101216793A (zh) * 2008-01-18 2008-07-09 华为技术有限公司 一种多处理器系统故障恢复的方法及装置
CN102110040A (zh) * 2011-01-27 2011-06-29 浪潮电子信息产业股份有限公司 Bmc根据不同功率cpu来调整cpu报警温度的方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970705A (zh) * 2014-04-24 2014-08-06 浪潮电子信息产业股份有限公司 一种采用冗余对称的可热插拔io箱的多路服务器架构设计
CN104021054A (zh) * 2014-06-11 2014-09-03 浪潮(北京)电子信息产业有限公司 服务器故障可视化侦测及处理方法、系统及可编程芯片
CN105306507A (zh) * 2014-07-18 2016-02-03 阿里巴巴集团控股有限公司 分布式架构中的容灾处理方法及容灾处理装置
WO2016106965A1 (zh) * 2014-12-31 2016-07-07 中兴通讯股份有限公司 一种服务器自愈的方法和装置
CN105808394A (zh) * 2014-12-31 2016-07-27 中兴通讯股份有限公司 一种服务器自愈的方法和装置
CN105808394B (zh) * 2014-12-31 2020-09-04 南京中兴新软件有限责任公司 一种服务器自愈的方法和装置
WO2017118080A1 (zh) * 2016-01-08 2017-07-13 华为技术有限公司 一种中央处理器cpu热移除、热添加方法及装置
US10846186B2 (en) 2016-01-08 2020-11-24 Huawei Technologies Co., Ltd. Central processing unit CPU hot-remove method and apparatus, and central processing unit CPU hot-add method and apparatus
EP3767470A1 (en) * 2016-01-08 2021-01-20 Huawei Technologies Co. Ltd. Central processing unit cpu hot-remove method and apparatus, and central processing unit cpu hot-add method and apparatus
CN106815108A (zh) * 2017-01-19 2017-06-09 郑州云海信息技术有限公司 一种多路服务器故障定位系统
CN111813568A (zh) * 2020-05-25 2020-10-23 北京皮尔布莱尼软件有限公司 一种服务管理系统和方法
CN111813568B (zh) * 2020-05-25 2024-05-31 北京皮尔布莱尼软件有限公司 一种服务管理系统和方法
CN114706703A (zh) * 2022-03-23 2022-07-05 飞腾信息技术有限公司 多路服务器系统故障诊断装置、系统及方法
CN114706703B (zh) * 2022-03-23 2023-10-20 飞腾信息技术有限公司 多路服务器系统故障诊断装置、系统及方法

Similar Documents

Publication Publication Date Title
CN103425545A (zh) 一种多处理器服务器的系统容错方法
TWI746512B (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
US11119874B2 (en) Memory fault detection
JP6530774B2 (ja) ハードウェア障害回復システム
US11687391B2 (en) Serializing machine check exceptions for predictive failure analysis
US7756048B2 (en) Method and apparatus for customizable surveillance of network interfaces
US20080263407A1 (en) Virtual computer system
US20080256400A1 (en) System and Method for Information Handling System Error Handling
US8212601B2 (en) Method and apparatus for providing system clock failover
TW201631549A (zh) 預測gpu故障的方法和裝置
CN103853622A (zh) 一种互为备份的双余度控制方法
CN112199240B (zh) 一种节点故障时进行节点切换的方法及相关设备
CN107632907B (zh) 一种bmc芯片托管系统及其控制方法
US20150113334A1 (en) Determine when an error log was created
CN105068763A (zh) 一种针对存储故障的虚拟机容错系统和方法
JP4655718B2 (ja) コンピュータシステム及びその制御方法
CN113742165B (zh) 双主控设备及主备控制方法
CN102546250B (zh) 一种基于主备机制的文件发布方法及系统
US20200111539A1 (en) Information processing apparatus for repair management of storage medium
US20130091313A1 (en) Method and apparatus for device dynamic addition processing, and method and apparatus for device dynamic removal processing
JP2008152552A (ja) 計算機システム及び障害情報管理方法
TWI700583B (zh) 伺服方法、系統、主板及電腦可讀取儲存媒介
CN102111300A (zh) 一种监控系统及其保障业务连续性的方法
JP2015106226A (ja) 二重化システム
JP2008003646A (ja) 不良モジュール検出方法および信号処理装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20131204

WD01 Invention patent application deemed withdrawn after publication