CN102681909A - 一种基于内存错误的服务器预警方法 - Google Patents
一种基于内存错误的服务器预警方法 Download PDFInfo
- Publication number
- CN102681909A CN102681909A CN2012101289664A CN201210128966A CN102681909A CN 102681909 A CN102681909 A CN 102681909A CN 2012101289664 A CN2012101289664 A CN 2012101289664A CN 201210128966 A CN201210128966 A CN 201210128966A CN 102681909 A CN102681909 A CN 102681909A
- Authority
- CN
- China
- Prior art keywords
- memory
- errors
- early warning
- bios
- error
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Techniques For Improving Reliability Of Storages (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供一种基于内存错误的服务器预警方法,1)通过系统中断的方式处理错误,在BIOS级别做全部处理,不需要操作系统的参与,精确定位内存出错位置,在系统发生内存错误时利用RAS特性做系统内存低层次的恢复,从而保证了系统的稳定运行,在大型企业级服务器集群上更为重要。2)在系统内存初始化时根据BIOS的设置选项选择CPU在检查到内存ECC校验错误时候是否发出SMI中断。3)在系统运行的过程中,若CPU检查到内存ECC校验错误,则通过中断发送出来。4)BIOS在收到中断后通过判断错误的级别是否需要采取进一步的RAS恢复,以及将错误恢复结果和具体错误内存条信息发送到BMC。5)BMC来解析错误具体信息并且将其发送到管理员邮箱,由系统管理员决定。
Description
技术领域
本发明涉及大型服务器管理技术领域, 具体地说是一种基于内存错误的服务器预警方法。
背景技术
1、当前的服务器监控系统主要通过带外监控来监控系统的温度,电压和风扇转速等信息控制系统外部环境的稳定。这些带外的方法无法覆盖内存系统内存发生错误,尤其是当今服务器集群系统内存条动则成百上千,一旦出问题很难定位;
2、当前的监控系统主要是基于时间的轮询机制,这种机制虽然在一定程度上较为高效,但是如果系统不稳定发生的时间点正好在两次轮询中间,那么监控系统就无法获取这个错误,在一定程度上漏掉了这个错误,可能导致非常严重的后果。
发明内容
本发明的目的是提供一种基于内存错误的服务器预警方法。
本发明的目的是按以下方式实现的,包括以下步骤:
(1)检查BIOS的设置是否开启了内存预警;
(2) 如果开启了内存预警则转步骤3),否则返回;
(3) 在服务器初始化阶段设置CPU中断,当其检测到内存错误的时候发出SMI中断;
(4) 当CPU检测到ECC校验错误时发出SMI中断;
(5) BIOS的SMI Handler检测BIOS的设置是否开启了RAS,如果开启RAS则转步骤6),否则转步骤8;
(6) 检测内存错误数是否达到了启动RAS特性的临界值,若使是,转步骤7),否则转步骤8);
(7) 根据RAS设置包括:内存热备,内存镜像,内存双颗粒数据校正,来采取对应的措施,并且通过IPMI命令将对应的事件发送给BMC;
(8) 将发生错误的内存条的信息以及当前其总计发生的错误数目发送到BMC;
(9) BMC将BIOS发送的信息以易读的方式实时解析到界面,并且实时的以Mail的方式发送给系统管理员,方便下次停机维护的时候对对应发生错误的内存进行处置。
实时SMI中断来处理内存错误,不需要操作系统有任何参与,在系统没有发生内存错误时候不会有任何额外开销,高效监控。
基于系统运行时内存的稳定预警,区别于传统的只能监控温度,电压等因素的预警,是一种更深层次的预警机制。
本发明的有益效果如下:
1)通过系统中断的方式处理错误,在BIOS级别做全部处理,不需要操作系统的参与,更加实时高效;精确定位内存出错位置,而且不会漏掉任何一个发生的错误,更加安全;在系统发生内存错误时利用RAS特性做系统内存低层次的恢复,从而保证了系统的稳定运行,在大型企业级服务器集群上更为重要;
2)在系统内存初始化时根据BIOS的设置选项选择CPU在检查到内存ECC校验错误时候是否发出SMI中断;
3)在系统运行的过程中,若CPU检查到内存ECC校验错误,则通过中断发送出来;
4)BIOS在收到中断后通过判断错误的级别是否需要采取进一步的RAS恢复,以及将错误恢复结果和具体错误内存条信息发送到BMC;
5)BMC来解析错误具体信息并且将其发送到管理员邮箱,由系统管理员决定。
附图说明
图1是系统部署流程图。
具体实施方式
参照说明书附图对本发明的方法作以下详细地说明。
BIOS将预警功能在Setup界面上做给用户做出选择。具体实现流程:
(1) 如果开启了内存预警则转3,否则返回;
(2) 在服务器的内存初始化阶段设置CPU对应寄存器,当其检测到内存错误的时候发出SMI中断;
(3) 在SMI的Handler里面注册对应此功能的调用函数,在入口处判断是否是自己需要处理的事件;
(4) 当CPU检测到ECC校验错误时发出SMI中断时。SMI Handler需要做得事情包括:
① 检测BIOS的设置是否开启了RAS,如果开启RAS则转②否则转④;
② 检测内存错误数是否达到了启动RAS特性的临界值,若使是,转③,否则转④;
③ 根据RAS设置(内存热备,内存镜像,内存双颗粒数据校正)来采取对应的措施,并且通过IPMI命令将对应的事件发送给BMC;
④ 将发生错误的内存条的信息以及当前其总计发生的错误数目发送到BMC。
BMC将BIOS发送的信息以易读的方式实时解析到界面,并且实时的以Mail的方式发送给系统管理员,方便下次停机维护的时候对对应发生错误的内存
除说明书所述的技术特征外,均为本专业技术人员的已知技术。
Claims (3)
1.一种基于内存错误的服务器预警方法, 其特征在于包括以下步骤:
(1)检查BIOS的设置是否开启了内存预警;
(2)如果开启了内存预警则转步骤(3),否则返回;
(3)在服务器初始化阶段设置CPU中断,当其检测到内存错误的时候发出SMI中断;
(4)当CPU检测到ECC校验错误时发出SMI中断;
(5)BIOS的SMI Handler检测BIOS的设置是否开启了RAS,如果开启RAS则转步骤(6),否则转步骤8;
(6)检测内存错误数是否达到了启动RAS特性的临界值,若使是,转步骤(7),否则转步骤(8);
(7)根据RAS设置包括:内存热备,内存镜像,内存双颗粒数据校正,来采取对应的措施,并且通过IPMI命令将对应的事件发送给BMC;
(8)将发生错误的内存条的信息以及当前其总计发生的错误数目发送到BMC;
(9)BMC将BIOS发送的信息以易读的方式实时解析到界面,并且实时的以Mail的方式发送给系统管理员,方便下次停机维护的时候对对应发生错误的内存进行处置。
2.根据权利要求1所述的服务器预警方法,其特征在于实时SMI中断来处理内存错误,不需要操作系统有任何参与,在系统没有发生内存错误时候不会有任何额外开销,高效监控。
3.根据权利要求1所述的服务器预警方法,其特征在于基于系统运行时内存的稳定预警,区别于传统的只能监控温度,电压等因素的预警,是一种更深层次的预警机制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210128966.4A CN102681909B (zh) | 2012-04-28 | 2012-04-28 | 一种基于内存错误的服务器预警方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210128966.4A CN102681909B (zh) | 2012-04-28 | 2012-04-28 | 一种基于内存错误的服务器预警方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102681909A true CN102681909A (zh) | 2012-09-19 |
CN102681909B CN102681909B (zh) | 2016-07-27 |
Family
ID=46813877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210128966.4A Active CN102681909B (zh) | 2012-04-28 | 2012-04-28 | 一种基于内存错误的服务器预警方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102681909B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103645915A (zh) * | 2013-11-29 | 2014-03-19 | 杭州华为数字技术有限公司 | Ras配置的设置方法及装置 |
CN105117301A (zh) * | 2015-08-14 | 2015-12-02 | 杭州华为数字技术有限公司 | 一种内存预警的方法及装置 |
CN105283923A (zh) * | 2013-07-31 | 2016-01-27 | 惠普发展公司,有限责任合伙企业 | 存储器模块外的ecc辅助存储器系统 |
WO2016106965A1 (zh) * | 2014-12-31 | 2016-07-07 | 中兴通讯股份有限公司 | 一种服务器自愈的方法和装置 |
CN105868038A (zh) * | 2016-03-28 | 2016-08-17 | 联想(北京)有限公司 | 内存错误处理方法及电子设备 |
CN108268360A (zh) * | 2018-01-19 | 2018-07-10 | 郑州云海信息技术有限公司 | 一种bmc获取内存温度的方法、系统、装置及存储介质 |
CN109086151A (zh) * | 2017-06-13 | 2018-12-25 | 中兴通讯股份有限公司 | 一种服务器上隔离内存故障的方法及装置 |
CN109117296A (zh) * | 2018-07-26 | 2019-01-01 | 郑州云海信息技术有限公司 | 一种定位硬盘容量信息错误的方法及系统 |
CN109240847A (zh) * | 2018-09-27 | 2019-01-18 | 郑州云海信息技术有限公司 | 一种post过程中内存错误上报方法、装置、终端及存储介质 |
CN110781053A (zh) * | 2019-09-29 | 2020-02-11 | 苏州浪潮智能科技有限公司 | 一种检测内存降级错误的方法和装置 |
CN111625387A (zh) * | 2020-05-27 | 2020-09-04 | 北京金山云网络技术有限公司 | 内存错误处理方法、装置及服务器 |
CN113076213A (zh) * | 2021-03-30 | 2021-07-06 | 山东英信计算机技术有限公司 | 一种优化系统管理中断处理硬件错误时间的方法及系统 |
CN115913895A (zh) * | 2022-11-08 | 2023-04-04 | 苏州浪潮智能科技有限公司 | 一种服务器故障诊断告警的方法、装置、设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020144177A1 (en) * | 1998-12-10 | 2002-10-03 | Kondo Thomas J. | System recovery from errors for processor and associated components |
CN1734424A (zh) * | 2004-07-06 | 2006-02-15 | 英特尔公司 | 检测错误和预报潜在故障的系统以及方法 |
US20090144579A1 (en) * | 2007-12-04 | 2009-06-04 | Swanson Robert C | Methods and Apparatus for Handling Errors Involving Virtual Machines |
CN101561775A (zh) * | 2009-05-12 | 2009-10-21 | 华为技术有限公司 | 内存监控方法和装置 |
CN101727371A (zh) * | 2010-01-04 | 2010-06-09 | 浪潮电子信息产业股份有限公司 | 在bios中加入并运行内存检测工具的方法 |
CN101876932A (zh) * | 2009-11-30 | 2010-11-03 | 中国移动通信集团浙江有限公司 | 内存数据库监控的方法、系统及设备 |
CN102412998A (zh) * | 2011-12-21 | 2012-04-11 | 上海会畅通讯科技发展有限公司 | 运营服务系统及其维护方法和装置 |
-
2012
- 2012-04-28 CN CN201210128966.4A patent/CN102681909B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020144177A1 (en) * | 1998-12-10 | 2002-10-03 | Kondo Thomas J. | System recovery from errors for processor and associated components |
CN1734424A (zh) * | 2004-07-06 | 2006-02-15 | 英特尔公司 | 检测错误和预报潜在故障的系统以及方法 |
US20090144579A1 (en) * | 2007-12-04 | 2009-06-04 | Swanson Robert C | Methods and Apparatus for Handling Errors Involving Virtual Machines |
CN101561775A (zh) * | 2009-05-12 | 2009-10-21 | 华为技术有限公司 | 内存监控方法和装置 |
CN101876932A (zh) * | 2009-11-30 | 2010-11-03 | 中国移动通信集团浙江有限公司 | 内存数据库监控的方法、系统及设备 |
CN101727371A (zh) * | 2010-01-04 | 2010-06-09 | 浪潮电子信息产业股份有限公司 | 在bios中加入并运行内存检测工具的方法 |
CN102412998A (zh) * | 2011-12-21 | 2012-04-11 | 上海会畅通讯科技发展有限公司 | 运营服务系统及其维护方法和装置 |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105283923A (zh) * | 2013-07-31 | 2016-01-27 | 惠普发展公司,有限责任合伙企业 | 存储器模块外的ecc辅助存储器系统 |
US9921911B2 (en) | 2013-07-31 | 2018-03-20 | Hewlett Packard Enterprise Development Lp | Off-memory-module ECC-supplemental memory system |
CN103645915A (zh) * | 2013-11-29 | 2014-03-19 | 杭州华为数字技术有限公司 | Ras配置的设置方法及装置 |
WO2016106965A1 (zh) * | 2014-12-31 | 2016-07-07 | 中兴通讯股份有限公司 | 一种服务器自愈的方法和装置 |
CN105117301A (zh) * | 2015-08-14 | 2015-12-02 | 杭州华为数字技术有限公司 | 一种内存预警的方法及装置 |
CN105117301B (zh) * | 2015-08-14 | 2018-08-14 | 杭州华为数字技术有限公司 | 一种内存预警的方法及装置 |
CN105868038B (zh) * | 2016-03-28 | 2020-03-24 | 联想(北京)有限公司 | 内存错误处理方法及电子设备 |
CN105868038A (zh) * | 2016-03-28 | 2016-08-17 | 联想(北京)有限公司 | 内存错误处理方法及电子设备 |
CN109086151A (zh) * | 2017-06-13 | 2018-12-25 | 中兴通讯股份有限公司 | 一种服务器上隔离内存故障的方法及装置 |
CN108268360A (zh) * | 2018-01-19 | 2018-07-10 | 郑州云海信息技术有限公司 | 一种bmc获取内存温度的方法、系统、装置及存储介质 |
CN109117296B (zh) * | 2018-07-26 | 2021-10-22 | 郑州云海信息技术有限公司 | 一种定位硬盘容量信息错误的方法及系统 |
CN109117296A (zh) * | 2018-07-26 | 2019-01-01 | 郑州云海信息技术有限公司 | 一种定位硬盘容量信息错误的方法及系统 |
CN109240847A (zh) * | 2018-09-27 | 2019-01-18 | 郑州云海信息技术有限公司 | 一种post过程中内存错误上报方法、装置、终端及存储介质 |
CN110781053A (zh) * | 2019-09-29 | 2020-02-11 | 苏州浪潮智能科技有限公司 | 一种检测内存降级错误的方法和装置 |
US11853150B2 (en) | 2019-09-29 | 2023-12-26 | Inspur Suzhou Intelligent Technology Co., Ltd. | Method and device for detecting memory downgrade error |
CN111625387A (zh) * | 2020-05-27 | 2020-09-04 | 北京金山云网络技术有限公司 | 内存错误处理方法、装置及服务器 |
CN111625387B (zh) * | 2020-05-27 | 2024-03-29 | 北京金山云网络技术有限公司 | 内存错误处理方法、装置及服务器 |
CN113076213A (zh) * | 2021-03-30 | 2021-07-06 | 山东英信计算机技术有限公司 | 一种优化系统管理中断处理硬件错误时间的方法及系统 |
CN113076213B (zh) * | 2021-03-30 | 2022-05-27 | 山东英信计算机技术有限公司 | 一种优化系统管理中断处理硬件错误时间的方法及系统 |
CN115913895A (zh) * | 2022-11-08 | 2023-04-04 | 苏州浪潮智能科技有限公司 | 一种服务器故障诊断告警的方法、装置、设备及介质 |
CN115913895B (zh) * | 2022-11-08 | 2024-10-15 | 苏州浪潮智能科技有限公司 | 一种服务器故障诊断告警的方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN102681909B (zh) | 2016-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102681909A (zh) | 一种基于内存错误的服务器预警方法 | |
US11010273B2 (en) | Software condition evaluation apparatus and methods | |
CN103117879B (zh) | 一种计算机硬件运行参数网络监测系统 | |
TWI618380B (zh) | 管理方法、服務控制器裝置以及非暫態電腦可讀取媒體 | |
CN103200050B (zh) | 服务器的硬件状态监控方法和系统 | |
US20150127814A1 (en) | Monitoring Server Method | |
WO2015039598A1 (zh) | 故障定位方法及装置 | |
CN112732477B (zh) | 一种带外自检故障隔离的方法 | |
US8949676B2 (en) | Real-time event storm detection in a cloud environment | |
CN114328102B (zh) | 设备状态监控方法、装置、设备及计算机可读存储介质 | |
US10848839B2 (en) | Out-of-band telemetry data collection | |
WO2015196365A1 (zh) | 一种故障处理方法、相关装置及计算机 | |
US20120136970A1 (en) | Computer system and method for managing computer device | |
US20190050279A1 (en) | Functional safety error reporting and handling infrastructure | |
CN103580941B (zh) | 网络看门狗及其实现方法 | |
US20190171507A1 (en) | Techniques of monitoring and updating system component health status | |
US9798625B2 (en) | Agentless and/or pre-boot support, and field replaceable unit (FRU) isolation | |
US20150032229A1 (en) | Process control apparatus and system, and method for determining normality thereof | |
WO2016197737A1 (zh) | 自检处理方法、装置及系统 | |
CN112631866A (zh) | 服务器硬件状态监控方法、装置、电子设备及介质 | |
CN113536306A (zh) | 处理健康信息以确定是否发生异常 | |
JP2024050522A (ja) | マルチベンダーを支援するサーバ管理システム | |
CN105912414A (zh) | 一种服务器管理的方法及系统 | |
CN109032867A (zh) | 一种故障诊断方法、装置及设备 | |
US20080285461A1 (en) | Method for remotely monitoring system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |