CN103425545A - 一种多处理器服务器的系统容错方法 - Google Patents
一种多处理器服务器的系统容错方法 Download PDFInfo
- Publication number
- CN103425545A CN103425545A CN2013103635596A CN201310363559A CN103425545A CN 103425545 A CN103425545 A CN 103425545A CN 2013103635596 A CN2013103635596 A CN 2013103635596A CN 201310363559 A CN201310363559 A CN 201310363559A CN 103425545 A CN103425545 A CN 103425545A
- Authority
- CN
- China
- Prior art keywords
- fault
- cpu
- tolerance method
- multiprocessor
- fault tolerance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Hardware Redundancy (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供一种多处理器服务器的系统容错方法,其具体过程为:系统侦测处理器故障,并上报给监控管理单元;监控管理单元对故障进行分析判断,达到一定的故障级别后,向系统发出中断请求;系统接收中断后,根据事先制定的容错策略进行配置降级,上述步骤针对的是多处理器服务器。该一种多处理器服务器的系统容错方法和现有技术相比,以降低配置为代价,提升系统可靠性,实用性强,易于推广。
Description
技术领域
本发明涉及计算机技术领域,具体的说是一种多处理器服务器的系统容错方法。
背景技术
随着服务器事业的飞速发展,多处理器服务器早已成为市场上的主流,目前4路服务器,8路服务器,甚至通过节点控制器扩展的16路及32服务器也已经屡见不鲜;不过单机互联的处理器数量越多,可能导致的问题就越多,以4路服务器为例,假设单CPU故障率为0.01%,那么4路整机CPU故障率则为0.04%;如果8路服务器使用相同品质的CPU,则整机CPU故障率则提升至0.08%;可以这样说,系统越复杂,出现故障的概率就越高。
面对多处理器服务器这样构造如此复杂的产品,有的厂商采取部件冗余的办法,如采用CPU冗余,采用n个CPU做备份,正常状态下只有N-n个CPU在工作,极大的浪费了系统配置资源。
发明内容
本发明的技术任务是解决现有技术的不足,提供一种多处理器服务器的系统容错方法。
本发明的技术方案是按以下方式实现的,该一种多处理器服务器的系统容错方法,其具体过程为:
步骤一、系统侦测处理器故障,并上报给监控管理单元;
步骤二、监控管理单元对故障进行分析判断,达到一定的故障级别后,向系统发出中断请求;
步骤三、系统接收中断后,根据事先制定的容错策略进行配置降级,
上述步骤针对的是多处理器服务器。
作为优选,所述步骤一中的系统侦测是指在多处理器服务器工作时,由BIOS负责底层故障监控。进而有效避免由局部问题发展成全局问题。
进一步的,所述步骤二种的故障级别是指CPU发出的警报信号持续三十秒有效,这里的警报信号是指CPU在温度过高时主动释放的。
作为优选,所述步骤三中的配置降级是指系统停止与故障CPU通信,并将故障CPU从系统中安全卸载。
本发明与现有技术相比所产生的有益效果是:
本发明的一种多处理器服务器的系统容错方法针对多路服务器,在正常状态下CPU全部工作,只有在系统遭遇处理器故障时,才根据故障状况,降级配置;这样即不会浪费配置资源,同时也可以保证整机的可靠性,实用性强,易于推广。
附图说明
附图1是本发明的实现流程图。
附图2是实施例降级前的8路拓扑图。
附图3是实施例降级后的6路拓扑图。
附图4是实施例降级后的4路拓扑图。
具体实施方式
下面对本发明的一种多处理器服务器的系统容错方法作详细说明。
如附图1所示,现提供一种多处理器服务器的系统容错方法,当多处理器服务器遭遇个别处理器故障,并达到一定程度时,系统主动降级进行容错。系统停止与故障CPU通信,并将故障CPU从系统中安全卸载,避免由局部问题发展成全局问题。这种容错设计是以降低配置为代价,提升系统可靠性。其具体过程为:
步骤一、系统侦测处理器故障,并上报给监控管理单元。
步骤二、监控管理单元对故障进行分析判断,达到一定的故障级别后,向系统发出中断请求。
根据CPU自身特性,CPU在温度过高时会释放thermal alert信号,同时降频降压,以降低自身温度,但CPU在thermal alert过程中会不断发出中断,系统在不停处理此类中断信息,导致系统变慢。故这里制定的策略是如在thermal alert持续30秒有效,则需要触发降级机制。
步骤三、系统接收中断后,根据事先制定的容错策略进行配置降级,上述步骤针对的是多处理器服务器。
具体降级实施例如附图2、图3、图4所示,图2为降级前的拓扑,包括八路拓扑,图3、图4为降级后的拓扑,分别表示六路拓扑和四路拓扑。
CPU发生严重错误时,会触发Error1信号,如果不能及时修正,系统会自动重启,这里制定的策略是一旦发现Error1信号有效,立即触发降级机制,隔离故障CPU。
此外在CPU访存出现错误,并超过255错误寄存器上限时,无论是CPU本身故障还是本NUMA域中内存故障,这里的策略都要进行降级,以确保系统不会停机。
多处理器服务器正常工作,BIOS负责底层故障监控,一旦发现处理器故障,将故障信息发送给BMC;BMC根据事先制定好的策略对故障信息进行判断;如达到降级条件,则参照降级拓扑结构,将降级命令发送给BIOS,BIOS接到指令,调用CPU热移除模块,执行CPU热移除事件。CPU被热移除,系统实现容错目的,保证不停机稳定工作。
除说明书所述的技术特征外,均为本专业技术人员的公知技术。
Claims (4)
1.一种多处理器服务器的系统容错方法,其特征在于其具体过程为:
步骤一、系统侦测处理器故障,并上报给监控管理单元;
步骤二、监控管理单元对故障进行分析判断,达到一定的故障级别后,向系统发出中断请求;
步骤三、系统接收中断后,根据事先制定的容错策略进行配置降级,
上述步骤针对的是多处理器服务器。
2.根据权利要求1所述的一种多处理器服务器的系统容错方法,其特征在于:所述步骤一中的系统侦测是指在多处理器服务器工作时,由BIOS负责底层故障监控。
3.根据权利要求1所述的一种多处理器服务器的系统容错方法,其特征在于:所述步骤二种的故障级别是指CPU发出的警报信号持续三十秒有效,这里的警报信号是指CPU在温度过高时主动释放的。
4.根据权利要求1所述的一种多处理器服务器的系统容错方法,其特征在于:所述步骤三中的配置降级是指系统停止与故障CPU通信,并将故障CPU从系统中安全卸载。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013103635596A CN103425545A (zh) | 2013-08-20 | 2013-08-20 | 一种多处理器服务器的系统容错方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013103635596A CN103425545A (zh) | 2013-08-20 | 2013-08-20 | 一种多处理器服务器的系统容错方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103425545A true CN103425545A (zh) | 2013-12-04 |
Family
ID=49650332
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2013103635596A Pending CN103425545A (zh) | 2013-08-20 | 2013-08-20 | 一种多处理器服务器的系统容错方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103425545A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103970705A (zh) * | 2014-04-24 | 2014-08-06 | 浪潮电子信息产业股份有限公司 | 一种采用冗余对称的可热插拔io箱的多路服务器架构设计 |
CN104021054A (zh) * | 2014-06-11 | 2014-09-03 | 浪潮(北京)电子信息产业有限公司 | 服务器故障可视化侦测及处理方法、系统及可编程芯片 |
CN105306507A (zh) * | 2014-07-18 | 2016-02-03 | 阿里巴巴集团控股有限公司 | 分布式架构中的容灾处理方法及容灾处理装置 |
WO2016106965A1 (zh) * | 2014-12-31 | 2016-07-07 | 中兴通讯股份有限公司 | 一种服务器自愈的方法和装置 |
CN106815108A (zh) * | 2017-01-19 | 2017-06-09 | 郑州云海信息技术有限公司 | 一种多路服务器故障定位系统 |
WO2017118080A1 (zh) * | 2016-01-08 | 2017-07-13 | 华为技术有限公司 | 一种中央处理器cpu热移除、热添加方法及装置 |
CN111813568A (zh) * | 2020-05-25 | 2020-10-23 | 北京皮尔布莱尼软件有限公司 | 一种服务管理系统和方法 |
CN114706703A (zh) * | 2022-03-23 | 2022-07-05 | 飞腾信息技术有限公司 | 多路服务器系统故障诊断装置、系统及方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08305673A (ja) * | 1995-05-01 | 1996-11-22 | Hitachi Ltd | マルチcpu監視方式 |
CN1808386A (zh) * | 2005-01-18 | 2006-07-26 | 华为技术有限公司 | 处理多线程/多任务/多处理器的方法 |
CN1828573A (zh) * | 2005-03-01 | 2006-09-06 | 华为技术有限公司 | 一种多cpu系统及其控制方法 |
CN101216793A (zh) * | 2008-01-18 | 2008-07-09 | 华为技术有限公司 | 一种多处理器系统故障恢复的方法及装置 |
CN101236515A (zh) * | 2007-01-31 | 2008-08-06 | 迈普(四川)通信技术有限公司 | 多核系统单核异常的恢复方法 |
CN102110040A (zh) * | 2011-01-27 | 2011-06-29 | 浪潮电子信息产业股份有限公司 | Bmc根据不同功率cpu来调整cpu报警温度的方法 |
-
2013
- 2013-08-20 CN CN2013103635596A patent/CN103425545A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08305673A (ja) * | 1995-05-01 | 1996-11-22 | Hitachi Ltd | マルチcpu監視方式 |
CN1808386A (zh) * | 2005-01-18 | 2006-07-26 | 华为技术有限公司 | 处理多线程/多任务/多处理器的方法 |
CN1828573A (zh) * | 2005-03-01 | 2006-09-06 | 华为技术有限公司 | 一种多cpu系统及其控制方法 |
CN101236515A (zh) * | 2007-01-31 | 2008-08-06 | 迈普(四川)通信技术有限公司 | 多核系统单核异常的恢复方法 |
CN101216793A (zh) * | 2008-01-18 | 2008-07-09 | 华为技术有限公司 | 一种多处理器系统故障恢复的方法及装置 |
CN102110040A (zh) * | 2011-01-27 | 2011-06-29 | 浪潮电子信息产业股份有限公司 | Bmc根据不同功率cpu来调整cpu报警温度的方法 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103970705A (zh) * | 2014-04-24 | 2014-08-06 | 浪潮电子信息产业股份有限公司 | 一种采用冗余对称的可热插拔io箱的多路服务器架构设计 |
CN104021054A (zh) * | 2014-06-11 | 2014-09-03 | 浪潮(北京)电子信息产业有限公司 | 服务器故障可视化侦测及处理方法、系统及可编程芯片 |
CN105306507A (zh) * | 2014-07-18 | 2016-02-03 | 阿里巴巴集团控股有限公司 | 分布式架构中的容灾处理方法及容灾处理装置 |
WO2016106965A1 (zh) * | 2014-12-31 | 2016-07-07 | 中兴通讯股份有限公司 | 一种服务器自愈的方法和装置 |
CN105808394A (zh) * | 2014-12-31 | 2016-07-27 | 中兴通讯股份有限公司 | 一种服务器自愈的方法和装置 |
CN105808394B (zh) * | 2014-12-31 | 2020-09-04 | 南京中兴新软件有限责任公司 | 一种服务器自愈的方法和装置 |
WO2017118080A1 (zh) * | 2016-01-08 | 2017-07-13 | 华为技术有限公司 | 一种中央处理器cpu热移除、热添加方法及装置 |
US10846186B2 (en) | 2016-01-08 | 2020-11-24 | Huawei Technologies Co., Ltd. | Central processing unit CPU hot-remove method and apparatus, and central processing unit CPU hot-add method and apparatus |
EP3767470A1 (en) * | 2016-01-08 | 2021-01-20 | Huawei Technologies Co. Ltd. | Central processing unit cpu hot-remove method and apparatus, and central processing unit cpu hot-add method and apparatus |
CN106815108A (zh) * | 2017-01-19 | 2017-06-09 | 郑州云海信息技术有限公司 | 一种多路服务器故障定位系统 |
CN111813568A (zh) * | 2020-05-25 | 2020-10-23 | 北京皮尔布莱尼软件有限公司 | 一种服务管理系统和方法 |
CN111813568B (zh) * | 2020-05-25 | 2024-05-31 | 北京皮尔布莱尼软件有限公司 | 一种服务管理系统和方法 |
CN114706703A (zh) * | 2022-03-23 | 2022-07-05 | 飞腾信息技术有限公司 | 多路服务器系统故障诊断装置、系统及方法 |
CN114706703B (zh) * | 2022-03-23 | 2023-10-20 | 飞腾信息技术有限公司 | 多路服务器系统故障诊断装置、系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103425545A (zh) | 一种多处理器服务器的系统容错方法 | |
TWI746512B (zh) | 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統 | |
US11119874B2 (en) | Memory fault detection | |
JP6530774B2 (ja) | ハードウェア障害回復システム | |
US11687391B2 (en) | Serializing machine check exceptions for predictive failure analysis | |
US7756048B2 (en) | Method and apparatus for customizable surveillance of network interfaces | |
US20080263407A1 (en) | Virtual computer system | |
US20080256400A1 (en) | System and Method for Information Handling System Error Handling | |
US8212601B2 (en) | Method and apparatus for providing system clock failover | |
TW201631549A (zh) | 預測gpu故障的方法和裝置 | |
CN103853622A (zh) | 一种互为备份的双余度控制方法 | |
CN112199240B (zh) | 一种节点故障时进行节点切换的方法及相关设备 | |
CN107632907B (zh) | 一种bmc芯片托管系统及其控制方法 | |
US20150113334A1 (en) | Determine when an error log was created | |
CN105068763A (zh) | 一种针对存储故障的虚拟机容错系统和方法 | |
JP4655718B2 (ja) | コンピュータシステム及びその制御方法 | |
CN113742165B (zh) | 双主控设备及主备控制方法 | |
CN102546250B (zh) | 一种基于主备机制的文件发布方法及系统 | |
US20200111539A1 (en) | Information processing apparatus for repair management of storage medium | |
US20130091313A1 (en) | Method and apparatus for device dynamic addition processing, and method and apparatus for device dynamic removal processing | |
JP2008152552A (ja) | 計算機システム及び障害情報管理方法 | |
TWI700583B (zh) | 伺服方法、系統、主板及電腦可讀取儲存媒介 | |
CN102111300A (zh) | 一种监控系统及其保障业务连续性的方法 | |
JP2015106226A (ja) | 二重化システム | |
JP2008003646A (ja) | 不良モジュール検出方法および信号処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20131204 |
|
WD01 | Invention patent application deemed withdrawn after publication |