CN102681909B - 一种基于内存错误的服务器预警方法 - Google Patents

一种基于内存错误的服务器预警方法 Download PDF

Info

Publication number
CN102681909B
CN102681909B CN201210128966.4A CN201210128966A CN102681909B CN 102681909 B CN102681909 B CN 102681909B CN 201210128966 A CN201210128966 A CN 201210128966A CN 102681909 B CN102681909 B CN 102681909B
Authority
CN
China
Prior art keywords
memory
mistake
bios
internal memory
sent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210128966.4A
Other languages
English (en)
Other versions
CN102681909A (zh
Inventor
曹光耀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201210128966.4A priority Critical patent/CN102681909B/zh
Publication of CN102681909A publication Critical patent/CN102681909A/zh
Application granted granted Critical
Publication of CN102681909B publication Critical patent/CN102681909B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Techniques For Improving Reliability Of Storages (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种基于内存错误的服务器预警方法,1)通过系统中断的方式处理错误,在BIOS级别做全部处理,不需要操作系统的参与,精确定位内存出错位置,在系统发生内存错误时利用RAS特性做系统内存低层次的恢复,从而保证了系统的稳定运行,在大型企业级服务器集群上更为重要。2)在系统内存初始化时根据BIOS的设置选项选择CPU在检查到内存ECC校验错误时候是否发出SMI中断。3)在系统运行的过程中,若CPU检查到内存ECC校验错误,则通过中断发送出来。4)BIOS在收到中断后通过判断错误的级别是否需要采取进一步的RAS恢复,以及将错误恢复结果和具体错误内存条信息发送到BMC。5)BMC来解析错误具体信息并且将其发送到管理员邮箱,由系统管理员决定。

Description

一种基于内存错误的服务器预警方法
技术领域
本发明涉及大型服务器管理技术领域,具体地说是一种基于内存错误的服务器预警方法。
背景技术
1、当前的服务器监控系统主要通过带外监控来监控系统的温度,电压和风扇转速等信息控制系统外部环境的稳定。这些带外的方法无法覆盖内存系统内存发生错误,尤其是当今服务器集群系统内存条动则成百上千,一旦出问题很难定位;
2、当前的监控系统主要是基于时间的轮询机制,这种机制虽然在一定程度上较为高效,但是如果系统不稳定发生的时间点正好在两次轮询中间,那么监控系统就无法获取这个错误,在一定程度上漏掉了这个错误,可能导致非常严重的后果。
发明内容
本发明的目的是提供一种基于内存错误的服务器预警方法。
本发明的目的是按以下方式实现的,包括以下步骤:
(1)检查BIOS的设置是否开启了内存预警;
(2)如果开启了内存预警则转步骤3),否则返回;
(3)在服务器初始化阶段设置CPU中断,当其检测到内存错误的时候发出SMI中断;
(4)当CPU检测到ECC校验错误时发出SMI中断;
(5)BIOS的SMIHandler检测BIOS的设置是否开启了RAS,如果开启RAS则转步骤6),否则转步骤8;
(6)检测内存错误数是否达到了启动RAS特性的临界值,若使是,转步骤7),否则转步骤8);
(7)根据RAS设置包括:内存热备,内存镜像,内存双颗粒数据校正,来采取对应的措施,并且通过IPMI命令将对应的事件发送给BMC;
(8)将发生错误的内存条的信息以及当前其总计发生的错误数目发送到BMC;
(9)BMC将BIOS发送的信息以易读的方式实时解析到界面,并且实时的以Mail的方式发送给系统管理员,方便下次停机维护的时候对对应发生错误的内存进行处置。
实时SMI中断来处理内存错误,不需要操作系统有任何参与,在系统没有发生内存错误时候不会有任何额外开销,高效监控。
基于系统运行时内存的稳定预警,区别于传统的只能监控温度,电压等因素的预警,是一种更深层次的预警机制。
本发明的有益效果如下:
1)通过系统中断的方式处理错误,在BIOS级别做全部处理,不需要操作系统的参与,更加实时高效;精确定位内存出错位置,而且不会漏掉任何一个发生的错误,更加安全;在系统发生内存错误时利用RAS特性做系统内存低层次的恢复,从而保证了系统的稳定运行,在大型企业级服务器集群上更为重要;
2)在系统内存初始化时根据BIOS的设置选项选择CPU在检查到内存ECC校验错误时候是否发出SMI中断;
3)在系统运行的过程中,若CPU检查到内存ECC校验错误,则通过中断发送出来;
4)BIOS在收到中断后通过判断错误的级别是否需要采取进一步的RAS恢复,以及将错误恢复结果和具体错误内存条信息发送到BMC;
5)BMC来解析错误具体信息并且将其发送到管理员邮箱,由系统管理员决定。
附图说明
图1是系统部署流程图。
具体实施方式
参照说明书附图对本发明的方法作以下详细地说明。
BIOS将预警功能在Setup界面上做给用户做出选择。具体实现流程:
(1)如果开启了内存预警则转3,否则返回;
(2)在服务器的内存初始化阶段设置CPU对应寄存器,当其检测到内存错误的时候发出SMI中断;
(3)在SMI的Handler里面注册对应此功能的调用函数,在入口处判断是否是自己需要处理的事件;
(4)当CPU检测到ECC校验错误时发出SMI中断时。SMIHandler需要做得事情包括:
①检测BIOS的设置是否开启了RAS,如果开启RAS则转②否则转④;
②检测内存错误数是否达到了启动RAS特性的临界值,若使是,转③,否则转④;
③根据RAS设置(内存热备,内存镜像,内存双颗粒数据校正)来采取对应的措施,并且通过IPMI命令将对应的事件发送给BMC;
④将发生错误的内存条的信息以及当前其总计发生的错误数目发送到BMC。
BMC将BIOS发送的信息以易读的方式实时解析到界面,并且实时的以Mail的方式发送给系统管理员,方便下次停机维护的时候对对应发生错误的内存
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (1)

1.一种基于内存错误的服务器预警方法,其特征在于包括以下步骤:
(1)检查BIOS的设置是否开启了内存预警;
(2)如果开启了内存预警则转步骤3),否则返回;
(3)在服务器初始化阶段设置CPU中断,当其检测到内存错误的时候发出SMI中断;
(4)当CPU检测到ECC校验错误时发出SMI中断;
(5)BIOS的SMIHandler检测BIOS的设置是否开启了RAS,如果开启RAS则转步骤6),否则转步骤8;
(6)检测内存错误数是否达到了启动RAS特性的临界值,若使是,转步骤7),否则转步骤8);
(7)根据RAS设置包括:内存热备,内存镜像,内存双颗粒数据校正,来采取对应的措施,并且通过IPMI命令将对应的事件发送给BMC;
(8)将发生错误的内存条的信息以及当前其总计发生的错误数目发送到BMC;
(9)BMC将BIOS发送的信息以易读的方式实时解析到界面,并且实时的以Mail的方式发送给系统管理员,方便下次停机维护的时候对对应发生错误的内存进行处置。
CN201210128966.4A 2012-04-28 2012-04-28 一种基于内存错误的服务器预警方法 Active CN102681909B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210128966.4A CN102681909B (zh) 2012-04-28 2012-04-28 一种基于内存错误的服务器预警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210128966.4A CN102681909B (zh) 2012-04-28 2012-04-28 一种基于内存错误的服务器预警方法

Publications (2)

Publication Number Publication Date
CN102681909A CN102681909A (zh) 2012-09-19
CN102681909B true CN102681909B (zh) 2016-07-27

Family

ID=46813877

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210128966.4A Active CN102681909B (zh) 2012-04-28 2012-04-28 一种基于内存错误的服务器预警方法

Country Status (1)

Country Link
CN (1) CN102681909B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105283923A (zh) * 2013-07-31 2016-01-27 惠普发展公司,有限责任合伙企业 存储器模块外的ecc辅助存储器系统
CN103645915A (zh) * 2013-11-29 2014-03-19 杭州华为数字技术有限公司 Ras配置的设置方法及装置
CN105808394B (zh) * 2014-12-31 2020-09-04 南京中兴新软件有限责任公司 一种服务器自愈的方法和装置
CN105117301B (zh) * 2015-08-14 2018-08-14 杭州华为数字技术有限公司 一种内存预警的方法及装置
CN105868038B (zh) * 2016-03-28 2020-03-24 联想(北京)有限公司 内存错误处理方法及电子设备
CN109086151A (zh) * 2017-06-13 2018-12-25 中兴通讯股份有限公司 一种服务器上隔离内存故障的方法及装置
CN108268360A (zh) * 2018-01-19 2018-07-10 郑州云海信息技术有限公司 一种bmc获取内存温度的方法、系统、装置及存储介质
CN109117296B (zh) * 2018-07-26 2021-10-22 郑州云海信息技术有限公司 一种定位硬盘容量信息错误的方法及系统
CN109240847A (zh) * 2018-09-27 2019-01-18 郑州云海信息技术有限公司 一种post过程中内存错误上报方法、装置、终端及存储介质
CN110781053A (zh) * 2019-09-29 2020-02-11 苏州浪潮智能科技有限公司 一种检测内存降级错误的方法和装置
CN111625387B (zh) * 2020-05-27 2024-03-29 北京金山云网络技术有限公司 内存错误处理方法、装置及服务器
CN113076213B (zh) * 2021-03-30 2022-05-27 山东英信计算机技术有限公司 一种优化系统管理中断处理硬件错误时间的方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1734424A (zh) * 2004-07-06 2006-02-15 英特尔公司 检测错误和预报潜在故障的系统以及方法
CN101561775A (zh) * 2009-05-12 2009-10-21 华为技术有限公司 内存监控方法和装置
CN101727371A (zh) * 2010-01-04 2010-06-09 浪潮电子信息产业股份有限公司 在bios中加入并运行内存检测工具的方法
CN101876932A (zh) * 2009-11-30 2010-11-03 中国移动通信集团浙江有限公司 内存数据库监控的方法、系统及设备
CN102412998A (zh) * 2011-12-21 2012-04-11 上海会畅通讯科技发展有限公司 运营服务系统及其维护方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6948092B2 (en) * 1998-12-10 2005-09-20 Hewlett-Packard Development Company, L.P. System recovery from errors for processor and associated components
US7865762B2 (en) * 2007-12-04 2011-01-04 Intel Corporation Methods and apparatus for handling errors involving virtual machines

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1734424A (zh) * 2004-07-06 2006-02-15 英特尔公司 检测错误和预报潜在故障的系统以及方法
CN101561775A (zh) * 2009-05-12 2009-10-21 华为技术有限公司 内存监控方法和装置
CN101876932A (zh) * 2009-11-30 2010-11-03 中国移动通信集团浙江有限公司 内存数据库监控的方法、系统及设备
CN101727371A (zh) * 2010-01-04 2010-06-09 浪潮电子信息产业股份有限公司 在bios中加入并运行内存检测工具的方法
CN102412998A (zh) * 2011-12-21 2012-04-11 上海会畅通讯科技发展有限公司 运营服务系统及其维护方法和装置

Also Published As

Publication number Publication date
CN102681909A (zh) 2012-09-19

Similar Documents

Publication Publication Date Title
CN102681909B (zh) 一种基于内存错误的服务器预警方法
TWI746512B (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
CN107995049B (zh) 电力安全区跨区同步故障监测方法、装置和系统
US11010273B2 (en) Software condition evaluation apparatus and methods
CN103117879B (zh) 一种计算机硬件运行参数网络监测系统
CN106775929B (zh) 一种虚拟化平台安全监控方法及系统
CN105512027B (zh) 进程状态监控方法和装置
US20170060671A1 (en) Anomaly recovery method for virtual machine in distributed environment
CN104639380A (zh) 服务器监控方法
US20140189103A1 (en) System for monitoring servers and method thereof
US20120136970A1 (en) Computer system and method for managing computer device
CN110336715B (zh) 状态检测方法、主节点和集群管理系统
CN106936616A (zh) 备份通信方法和装置
WO2021056912A1 (zh) 一种检测内存降级错误的方法和装置
CN108181977A (zh) 一种服务器
CN103580941B (zh) 网络看门狗及其实现方法
WO2019109961A1 (zh) 故障诊断方法及装置
CN103605592A (zh) 一种分布式计算机系统故障检测机制
WO2015188619A1 (zh) 物理主机故障检测方法、装置及虚机管理方法、系统
CN109032867A (zh) 一种故障诊断方法、装置及设备
US20120072742A1 (en) System and method for testing wol funciton of computers
CN105117252A (zh) 一种通过bmc保存服务器启动信息的方法
CN104618461A (zh) 一种基于动码云手机的服务器监控方法
CN116684256A (zh) 节点故障监测方法、装置、系统、电子设备及存储介质
CN116137603A (zh) 链路故障的检测方法和装置、存储介质及电子装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant