CN102681909B - 一种基于内存错误的服务器预警方法 - Google Patents
一种基于内存错误的服务器预警方法 Download PDFInfo
- Publication number
- CN102681909B CN102681909B CN201210128966.4A CN201210128966A CN102681909B CN 102681909 B CN102681909 B CN 102681909B CN 201210128966 A CN201210128966 A CN 201210128966A CN 102681909 B CN102681909 B CN 102681909B
- Authority
- CN
- China
- Prior art keywords
- memory
- mistake
- bios
- internal memory
- sent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000001514 detection method Methods 0.000 claims description 5
- 108010028984 3-isopropylmalate dehydratase Proteins 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 claims description 3
- 239000002245 particle Substances 0.000 claims description 3
- 230000000977 initiatory effect Effects 0.000 claims description 2
- 238000011084 recovery Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
Landscapes
- Techniques For Improving Reliability Of Storages (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供一种基于内存错误的服务器预警方法,1)通过系统中断的方式处理错误,在BIOS级别做全部处理,不需要操作系统的参与,精确定位内存出错位置,在系统发生内存错误时利用RAS特性做系统内存低层次的恢复,从而保证了系统的稳定运行,在大型企业级服务器集群上更为重要。2)在系统内存初始化时根据BIOS的设置选项选择CPU在检查到内存ECC校验错误时候是否发出SMI中断。3)在系统运行的过程中,若CPU检查到内存ECC校验错误,则通过中断发送出来。4)BIOS在收到中断后通过判断错误的级别是否需要采取进一步的RAS恢复,以及将错误恢复结果和具体错误内存条信息发送到BMC。5)BMC来解析错误具体信息并且将其发送到管理员邮箱,由系统管理员决定。
Description
技术领域
本发明涉及大型服务器管理技术领域,具体地说是一种基于内存错误的服务器预警方法。
背景技术
1、当前的服务器监控系统主要通过带外监控来监控系统的温度,电压和风扇转速等信息控制系统外部环境的稳定。这些带外的方法无法覆盖内存系统内存发生错误,尤其是当今服务器集群系统内存条动则成百上千,一旦出问题很难定位;
2、当前的监控系统主要是基于时间的轮询机制,这种机制虽然在一定程度上较为高效,但是如果系统不稳定发生的时间点正好在两次轮询中间,那么监控系统就无法获取这个错误,在一定程度上漏掉了这个错误,可能导致非常严重的后果。
发明内容
本发明的目的是提供一种基于内存错误的服务器预警方法。
本发明的目的是按以下方式实现的,包括以下步骤:
(1)检查BIOS的设置是否开启了内存预警;
(2)如果开启了内存预警则转步骤3),否则返回;
(3)在服务器初始化阶段设置CPU中断,当其检测到内存错误的时候发出SMI中断;
(4)当CPU检测到ECC校验错误时发出SMI中断;
(5)BIOS的SMIHandler检测BIOS的设置是否开启了RAS,如果开启RAS则转步骤6),否则转步骤8;
(6)检测内存错误数是否达到了启动RAS特性的临界值,若使是,转步骤7),否则转步骤8);
(7)根据RAS设置包括:内存热备,内存镜像,内存双颗粒数据校正,来采取对应的措施,并且通过IPMI命令将对应的事件发送给BMC;
(8)将发生错误的内存条的信息以及当前其总计发生的错误数目发送到BMC;
(9)BMC将BIOS发送的信息以易读的方式实时解析到界面,并且实时的以Mail的方式发送给系统管理员,方便下次停机维护的时候对对应发生错误的内存进行处置。
实时SMI中断来处理内存错误,不需要操作系统有任何参与,在系统没有发生内存错误时候不会有任何额外开销,高效监控。
基于系统运行时内存的稳定预警,区别于传统的只能监控温度,电压等因素的预警,是一种更深层次的预警机制。
本发明的有益效果如下:
1)通过系统中断的方式处理错误,在BIOS级别做全部处理,不需要操作系统的参与,更加实时高效;精确定位内存出错位置,而且不会漏掉任何一个发生的错误,更加安全;在系统发生内存错误时利用RAS特性做系统内存低层次的恢复,从而保证了系统的稳定运行,在大型企业级服务器集群上更为重要;
2)在系统内存初始化时根据BIOS的设置选项选择CPU在检查到内存ECC校验错误时候是否发出SMI中断;
3)在系统运行的过程中,若CPU检查到内存ECC校验错误,则通过中断发送出来;
4)BIOS在收到中断后通过判断错误的级别是否需要采取进一步的RAS恢复,以及将错误恢复结果和具体错误内存条信息发送到BMC;
5)BMC来解析错误具体信息并且将其发送到管理员邮箱,由系统管理员决定。
附图说明
图1是系统部署流程图。
具体实施方式
参照说明书附图对本发明的方法作以下详细地说明。
BIOS将预警功能在Setup界面上做给用户做出选择。具体实现流程:
(1)如果开启了内存预警则转3,否则返回;
(2)在服务器的内存初始化阶段设置CPU对应寄存器,当其检测到内存错误的时候发出SMI中断;
(3)在SMI的Handler里面注册对应此功能的调用函数,在入口处判断是否是自己需要处理的事件;
(4)当CPU检测到ECC校验错误时发出SMI中断时。SMIHandler需要做得事情包括:
①检测BIOS的设置是否开启了RAS,如果开启RAS则转②否则转④;
②检测内存错误数是否达到了启动RAS特性的临界值,若使是,转③,否则转④;
③根据RAS设置(内存热备,内存镜像,内存双颗粒数据校正)来采取对应的措施,并且通过IPMI命令将对应的事件发送给BMC;
④将发生错误的内存条的信息以及当前其总计发生的错误数目发送到BMC。
BMC将BIOS发送的信息以易读的方式实时解析到界面,并且实时的以Mail的方式发送给系统管理员,方便下次停机维护的时候对对应发生错误的内存
除说明书所述的技术特征外,均为本专业技术人员的已知技术。
Claims (1)
1.一种基于内存错误的服务器预警方法,其特征在于包括以下步骤:
(1)检查BIOS的设置是否开启了内存预警;
(2)如果开启了内存预警则转步骤3),否则返回;
(3)在服务器初始化阶段设置CPU中断,当其检测到内存错误的时候发出SMI中断;
(4)当CPU检测到ECC校验错误时发出SMI中断;
(5)BIOS的SMIHandler检测BIOS的设置是否开启了RAS,如果开启RAS则转步骤6),否则转步骤8;
(6)检测内存错误数是否达到了启动RAS特性的临界值,若使是,转步骤7),否则转步骤8);
(7)根据RAS设置包括:内存热备,内存镜像,内存双颗粒数据校正,来采取对应的措施,并且通过IPMI命令将对应的事件发送给BMC;
(8)将发生错误的内存条的信息以及当前其总计发生的错误数目发送到BMC;
(9)BMC将BIOS发送的信息以易读的方式实时解析到界面,并且实时的以Mail的方式发送给系统管理员,方便下次停机维护的时候对对应发生错误的内存进行处置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210128966.4A CN102681909B (zh) | 2012-04-28 | 2012-04-28 | 一种基于内存错误的服务器预警方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210128966.4A CN102681909B (zh) | 2012-04-28 | 2012-04-28 | 一种基于内存错误的服务器预警方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102681909A CN102681909A (zh) | 2012-09-19 |
CN102681909B true CN102681909B (zh) | 2016-07-27 |
Family
ID=46813877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210128966.4A Active CN102681909B (zh) | 2012-04-28 | 2012-04-28 | 一种基于内存错误的服务器预警方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102681909B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105283923A (zh) * | 2013-07-31 | 2016-01-27 | 惠普发展公司,有限责任合伙企业 | 存储器模块外的ecc辅助存储器系统 |
CN103645915A (zh) * | 2013-11-29 | 2014-03-19 | 杭州华为数字技术有限公司 | Ras配置的设置方法及装置 |
CN105808394B (zh) * | 2014-12-31 | 2020-09-04 | 南京中兴新软件有限责任公司 | 一种服务器自愈的方法和装置 |
CN105117301B (zh) * | 2015-08-14 | 2018-08-14 | 杭州华为数字技术有限公司 | 一种内存预警的方法及装置 |
CN105868038B (zh) * | 2016-03-28 | 2020-03-24 | 联想(北京)有限公司 | 内存错误处理方法及电子设备 |
CN109086151A (zh) * | 2017-06-13 | 2018-12-25 | 中兴通讯股份有限公司 | 一种服务器上隔离内存故障的方法及装置 |
CN108268360A (zh) * | 2018-01-19 | 2018-07-10 | 郑州云海信息技术有限公司 | 一种bmc获取内存温度的方法、系统、装置及存储介质 |
CN109117296B (zh) * | 2018-07-26 | 2021-10-22 | 郑州云海信息技术有限公司 | 一种定位硬盘容量信息错误的方法及系统 |
CN109240847A (zh) * | 2018-09-27 | 2019-01-18 | 郑州云海信息技术有限公司 | 一种post过程中内存错误上报方法、装置、终端及存储介质 |
CN110781053A (zh) * | 2019-09-29 | 2020-02-11 | 苏州浪潮智能科技有限公司 | 一种检测内存降级错误的方法和装置 |
CN111625387B (zh) * | 2020-05-27 | 2024-03-29 | 北京金山云网络技术有限公司 | 内存错误处理方法、装置及服务器 |
CN113076213B (zh) * | 2021-03-30 | 2022-05-27 | 山东英信计算机技术有限公司 | 一种优化系统管理中断处理硬件错误时间的方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1734424A (zh) * | 2004-07-06 | 2006-02-15 | 英特尔公司 | 检测错误和预报潜在故障的系统以及方法 |
CN101561775A (zh) * | 2009-05-12 | 2009-10-21 | 华为技术有限公司 | 内存监控方法和装置 |
CN101727371A (zh) * | 2010-01-04 | 2010-06-09 | 浪潮电子信息产业股份有限公司 | 在bios中加入并运行内存检测工具的方法 |
CN101876932A (zh) * | 2009-11-30 | 2010-11-03 | 中国移动通信集团浙江有限公司 | 内存数据库监控的方法、系统及设备 |
CN102412998A (zh) * | 2011-12-21 | 2012-04-11 | 上海会畅通讯科技发展有限公司 | 运营服务系统及其维护方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6948092B2 (en) * | 1998-12-10 | 2005-09-20 | Hewlett-Packard Development Company, L.P. | System recovery from errors for processor and associated components |
US7865762B2 (en) * | 2007-12-04 | 2011-01-04 | Intel Corporation | Methods and apparatus for handling errors involving virtual machines |
-
2012
- 2012-04-28 CN CN201210128966.4A patent/CN102681909B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1734424A (zh) * | 2004-07-06 | 2006-02-15 | 英特尔公司 | 检测错误和预报潜在故障的系统以及方法 |
CN101561775A (zh) * | 2009-05-12 | 2009-10-21 | 华为技术有限公司 | 内存监控方法和装置 |
CN101876932A (zh) * | 2009-11-30 | 2010-11-03 | 中国移动通信集团浙江有限公司 | 内存数据库监控的方法、系统及设备 |
CN101727371A (zh) * | 2010-01-04 | 2010-06-09 | 浪潮电子信息产业股份有限公司 | 在bios中加入并运行内存检测工具的方法 |
CN102412998A (zh) * | 2011-12-21 | 2012-04-11 | 上海会畅通讯科技发展有限公司 | 运营服务系统及其维护方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN102681909A (zh) | 2012-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102681909B (zh) | 一种基于内存错误的服务器预警方法 | |
TWI746512B (zh) | 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統 | |
CN107995049B (zh) | 电力安全区跨区同步故障监测方法、装置和系统 | |
US11010273B2 (en) | Software condition evaluation apparatus and methods | |
CN103117879B (zh) | 一种计算机硬件运行参数网络监测系统 | |
CN106775929B (zh) | 一种虚拟化平台安全监控方法及系统 | |
CN105512027B (zh) | 进程状态监控方法和装置 | |
US20170060671A1 (en) | Anomaly recovery method for virtual machine in distributed environment | |
CN104639380A (zh) | 服务器监控方法 | |
US20140189103A1 (en) | System for monitoring servers and method thereof | |
US20120136970A1 (en) | Computer system and method for managing computer device | |
CN110336715B (zh) | 状态检测方法、主节点和集群管理系统 | |
CN106936616A (zh) | 备份通信方法和装置 | |
WO2021056912A1 (zh) | 一种检测内存降级错误的方法和装置 | |
CN108181977A (zh) | 一种服务器 | |
CN103580941B (zh) | 网络看门狗及其实现方法 | |
WO2019109961A1 (zh) | 故障诊断方法及装置 | |
CN103605592A (zh) | 一种分布式计算机系统故障检测机制 | |
WO2015188619A1 (zh) | 物理主机故障检测方法、装置及虚机管理方法、系统 | |
CN109032867A (zh) | 一种故障诊断方法、装置及设备 | |
US20120072742A1 (en) | System and method for testing wol funciton of computers | |
CN105117252A (zh) | 一种通过bmc保存服务器启动信息的方法 | |
CN104618461A (zh) | 一种基于动码云手机的服务器监控方法 | |
CN116684256A (zh) | 节点故障监测方法、装置、系统、电子设备及存储介质 | |
CN116137603A (zh) | 链路故障的检测方法和装置、存储介质及电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |