CN102681909A - 一种基于内存错误的服务器预警方法 - Google Patents

一种基于内存错误的服务器预警方法 Download PDF

Info

Publication number
CN102681909A
CN102681909A CN2012101289664A CN201210128966A CN102681909A CN 102681909 A CN102681909 A CN 102681909A CN 2012101289664 A CN2012101289664 A CN 2012101289664A CN 201210128966 A CN201210128966 A CN 201210128966A CN 102681909 A CN102681909 A CN 102681909A
Authority
CN
China
Prior art keywords
memory
errors
early warning
bios
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101289664A
Other languages
English (en)
Other versions
CN102681909B (zh
Inventor
曹光耀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201210128966.4A priority Critical patent/CN102681909B/zh
Publication of CN102681909A publication Critical patent/CN102681909A/zh
Application granted granted Critical
Publication of CN102681909B publication Critical patent/CN102681909B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Techniques For Improving Reliability Of Storages (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种基于内存错误的服务器预警方法,1)通过系统中断的方式处理错误,在BIOS级别做全部处理,不需要操作系统的参与,精确定位内存出错位置,在系统发生内存错误时利用RAS特性做系统内存低层次的恢复,从而保证了系统的稳定运行,在大型企业级服务器集群上更为重要。2)在系统内存初始化时根据BIOS的设置选项选择CPU在检查到内存ECC校验错误时候是否发出SMI中断。3)在系统运行的过程中,若CPU检查到内存ECC校验错误,则通过中断发送出来。4)BIOS在收到中断后通过判断错误的级别是否需要采取进一步的RAS恢复,以及将错误恢复结果和具体错误内存条信息发送到BMC。5)BMC来解析错误具体信息并且将其发送到管理员邮箱,由系统管理员决定。

Description

一种基于内存错误的服务器预警方法
技术领域
本发明涉及大型服务器管理技术领域, 具体地说是一种基于内存错误的服务器预警方法。
背景技术
1、当前的服务器监控系统主要通过带外监控来监控系统的温度,电压和风扇转速等信息控制系统外部环境的稳定。这些带外的方法无法覆盖内存系统内存发生错误,尤其是当今服务器集群系统内存条动则成百上千,一旦出问题很难定位;
2、当前的监控系统主要是基于时间的轮询机制,这种机制虽然在一定程度上较为高效,但是如果系统不稳定发生的时间点正好在两次轮询中间,那么监控系统就无法获取这个错误,在一定程度上漏掉了这个错误,可能导致非常严重的后果。
发明内容
本发明的目的是提供一种基于内存错误的服务器预警方法。
本发明的目的是按以下方式实现的,包括以下步骤:
(1)检查BIOS的设置是否开启了内存预警;
(2) 如果开启了内存预警则转步骤3),否则返回;
(3) 在服务器初始化阶段设置CPU中断,当其检测到内存错误的时候发出SMI中断;
(4) 当CPU检测到ECC校验错误时发出SMI中断;
(5)  BIOS的SMI Handler检测BIOS的设置是否开启了RAS,如果开启RAS则转步骤6),否则转步骤8;
(6) 检测内存错误数是否达到了启动RAS特性的临界值,若使是,转步骤7),否则转步骤8);
(7) 根据RAS设置包括:内存热备,内存镜像,内存双颗粒数据校正,来采取对应的措施,并且通过IPMI命令将对应的事件发送给BMC;
(8) 将发生错误的内存条的信息以及当前其总计发生的错误数目发送到BMC;
(9) BMC将BIOS发送的信息以易读的方式实时解析到界面,并且实时的以Mail的方式发送给系统管理员,方便下次停机维护的时候对对应发生错误的内存进行处置。
实时SMI中断来处理内存错误,不需要操作系统有任何参与,在系统没有发生内存错误时候不会有任何额外开销,高效监控。
基于系统运行时内存的稳定预警,区别于传统的只能监控温度,电压等因素的预警,是一种更深层次的预警机制。
本发明的有益效果如下: 
1)通过系统中断的方式处理错误,在BIOS级别做全部处理,不需要操作系统的参与,更加实时高效;精确定位内存出错位置,而且不会漏掉任何一个发生的错误,更加安全;在系统发生内存错误时利用RAS特性做系统内存低层次的恢复,从而保证了系统的稳定运行,在大型企业级服务器集群上更为重要;
2)在系统内存初始化时根据BIOS的设置选项选择CPU在检查到内存ECC校验错误时候是否发出SMI中断;
3)在系统运行的过程中,若CPU检查到内存ECC校验错误,则通过中断发送出来;
4)BIOS在收到中断后通过判断错误的级别是否需要采取进一步的RAS恢复,以及将错误恢复结果和具体错误内存条信息发送到BMC;
5)BMC来解析错误具体信息并且将其发送到管理员邮箱,由系统管理员决定。
附图说明
图1是系统部署流程图。
具体实施方式
参照说明书附图对本发明的方法作以下详细地说明。
BIOS将预警功能在Setup界面上做给用户做出选择。具体实现流程:
(1) 如果开启了内存预警则转3,否则返回;
(2) 在服务器的内存初始化阶段设置CPU对应寄存器,当其检测到内存错误的时候发出SMI中断;
(3) 在SMI的Handler里面注册对应此功能的调用函数,在入口处判断是否是自己需要处理的事件;
(4) 当CPU检测到ECC校验错误时发出SMI中断时。SMI Handler需要做得事情包括:
① 检测BIOS的设置是否开启了RAS,如果开启RAS则转②否则转④;
② 检测内存错误数是否达到了启动RAS特性的临界值,若使是,转③,否则转④;
③ 根据RAS设置(内存热备,内存镜像,内存双颗粒数据校正)来采取对应的措施,并且通过IPMI命令将对应的事件发送给BMC;
④ 将发生错误的内存条的信息以及当前其总计发生的错误数目发送到BMC。
BMC将BIOS发送的信息以易读的方式实时解析到界面,并且实时的以Mail的方式发送给系统管理员,方便下次停机维护的时候对对应发生错误的内存
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (3)

1.一种基于内存错误的服务器预警方法, 其特征在于包括以下步骤:
(1)检查BIOS的设置是否开启了内存预警;
(2)如果开启了内存预警则转步骤(3),否则返回;
(3)在服务器初始化阶段设置CPU中断,当其检测到内存错误的时候发出SMI中断;
(4)当CPU检测到ECC校验错误时发出SMI中断;
(5)BIOS的SMI Handler检测BIOS的设置是否开启了RAS,如果开启RAS则转步骤(6),否则转步骤8;
(6)检测内存错误数是否达到了启动RAS特性的临界值,若使是,转步骤(7),否则转步骤(8);
(7)根据RAS设置包括:内存热备,内存镜像,内存双颗粒数据校正,来采取对应的措施,并且通过IPMI命令将对应的事件发送给BMC;
(8)将发生错误的内存条的信息以及当前其总计发生的错误数目发送到BMC;
(9)BMC将BIOS发送的信息以易读的方式实时解析到界面,并且实时的以Mail的方式发送给系统管理员,方便下次停机维护的时候对对应发生错误的内存进行处置。
2.根据权利要求1所述的服务器预警方法,其特征在于实时SMI中断来处理内存错误,不需要操作系统有任何参与,在系统没有发生内存错误时候不会有任何额外开销,高效监控。
3.根据权利要求1所述的服务器预警方法,其特征在于基于系统运行时内存的稳定预警,区别于传统的只能监控温度,电压等因素的预警,是一种更深层次的预警机制。
CN201210128966.4A 2012-04-28 2012-04-28 一种基于内存错误的服务器预警方法 Active CN102681909B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210128966.4A CN102681909B (zh) 2012-04-28 2012-04-28 一种基于内存错误的服务器预警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210128966.4A CN102681909B (zh) 2012-04-28 2012-04-28 一种基于内存错误的服务器预警方法

Publications (2)

Publication Number Publication Date
CN102681909A true CN102681909A (zh) 2012-09-19
CN102681909B CN102681909B (zh) 2016-07-27

Family

ID=46813877

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210128966.4A Active CN102681909B (zh) 2012-04-28 2012-04-28 一种基于内存错误的服务器预警方法

Country Status (1)

Country Link
CN (1) CN102681909B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103645915A (zh) * 2013-11-29 2014-03-19 杭州华为数字技术有限公司 Ras配置的设置方法及装置
CN105117301A (zh) * 2015-08-14 2015-12-02 杭州华为数字技术有限公司 一种内存预警的方法及装置
CN105283923A (zh) * 2013-07-31 2016-01-27 惠普发展公司,有限责任合伙企业 存储器模块外的ecc辅助存储器系统
WO2016106965A1 (zh) * 2014-12-31 2016-07-07 中兴通讯股份有限公司 一种服务器自愈的方法和装置
CN105868038A (zh) * 2016-03-28 2016-08-17 联想(北京)有限公司 内存错误处理方法及电子设备
CN108268360A (zh) * 2018-01-19 2018-07-10 郑州云海信息技术有限公司 一种bmc获取内存温度的方法、系统、装置及存储介质
CN109086151A (zh) * 2017-06-13 2018-12-25 中兴通讯股份有限公司 一种服务器上隔离内存故障的方法及装置
CN109117296A (zh) * 2018-07-26 2019-01-01 郑州云海信息技术有限公司 一种定位硬盘容量信息错误的方法及系统
CN109240847A (zh) * 2018-09-27 2019-01-18 郑州云海信息技术有限公司 一种post过程中内存错误上报方法、装置、终端及存储介质
CN110781053A (zh) * 2019-09-29 2020-02-11 苏州浪潮智能科技有限公司 一种检测内存降级错误的方法和装置
CN111625387A (zh) * 2020-05-27 2020-09-04 北京金山云网络技术有限公司 内存错误处理方法、装置及服务器
CN113076213A (zh) * 2021-03-30 2021-07-06 山东英信计算机技术有限公司 一种优化系统管理中断处理硬件错误时间的方法及系统
CN115913895A (zh) * 2022-11-08 2023-04-04 苏州浪潮智能科技有限公司 一种服务器故障诊断告警的方法、装置、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020144177A1 (en) * 1998-12-10 2002-10-03 Kondo Thomas J. System recovery from errors for processor and associated components
CN1734424A (zh) * 2004-07-06 2006-02-15 英特尔公司 检测错误和预报潜在故障的系统以及方法
US20090144579A1 (en) * 2007-12-04 2009-06-04 Swanson Robert C Methods and Apparatus for Handling Errors Involving Virtual Machines
CN101561775A (zh) * 2009-05-12 2009-10-21 华为技术有限公司 内存监控方法和装置
CN101727371A (zh) * 2010-01-04 2010-06-09 浪潮电子信息产业股份有限公司 在bios中加入并运行内存检测工具的方法
CN101876932A (zh) * 2009-11-30 2010-11-03 中国移动通信集团浙江有限公司 内存数据库监控的方法、系统及设备
CN102412998A (zh) * 2011-12-21 2012-04-11 上海会畅通讯科技发展有限公司 运营服务系统及其维护方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020144177A1 (en) * 1998-12-10 2002-10-03 Kondo Thomas J. System recovery from errors for processor and associated components
CN1734424A (zh) * 2004-07-06 2006-02-15 英特尔公司 检测错误和预报潜在故障的系统以及方法
US20090144579A1 (en) * 2007-12-04 2009-06-04 Swanson Robert C Methods and Apparatus for Handling Errors Involving Virtual Machines
CN101561775A (zh) * 2009-05-12 2009-10-21 华为技术有限公司 内存监控方法和装置
CN101876932A (zh) * 2009-11-30 2010-11-03 中国移动通信集团浙江有限公司 内存数据库监控的方法、系统及设备
CN101727371A (zh) * 2010-01-04 2010-06-09 浪潮电子信息产业股份有限公司 在bios中加入并运行内存检测工具的方法
CN102412998A (zh) * 2011-12-21 2012-04-11 上海会畅通讯科技发展有限公司 运营服务系统及其维护方法和装置

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105283923A (zh) * 2013-07-31 2016-01-27 惠普发展公司,有限责任合伙企业 存储器模块外的ecc辅助存储器系统
US9921911B2 (en) 2013-07-31 2018-03-20 Hewlett Packard Enterprise Development Lp Off-memory-module ECC-supplemental memory system
CN103645915A (zh) * 2013-11-29 2014-03-19 杭州华为数字技术有限公司 Ras配置的设置方法及装置
WO2016106965A1 (zh) * 2014-12-31 2016-07-07 中兴通讯股份有限公司 一种服务器自愈的方法和装置
CN105117301A (zh) * 2015-08-14 2015-12-02 杭州华为数字技术有限公司 一种内存预警的方法及装置
CN105117301B (zh) * 2015-08-14 2018-08-14 杭州华为数字技术有限公司 一种内存预警的方法及装置
CN105868038B (zh) * 2016-03-28 2020-03-24 联想(北京)有限公司 内存错误处理方法及电子设备
CN105868038A (zh) * 2016-03-28 2016-08-17 联想(北京)有限公司 内存错误处理方法及电子设备
CN109086151A (zh) * 2017-06-13 2018-12-25 中兴通讯股份有限公司 一种服务器上隔离内存故障的方法及装置
CN108268360A (zh) * 2018-01-19 2018-07-10 郑州云海信息技术有限公司 一种bmc获取内存温度的方法、系统、装置及存储介质
CN109117296B (zh) * 2018-07-26 2021-10-22 郑州云海信息技术有限公司 一种定位硬盘容量信息错误的方法及系统
CN109117296A (zh) * 2018-07-26 2019-01-01 郑州云海信息技术有限公司 一种定位硬盘容量信息错误的方法及系统
CN109240847A (zh) * 2018-09-27 2019-01-18 郑州云海信息技术有限公司 一种post过程中内存错误上报方法、装置、终端及存储介质
CN110781053A (zh) * 2019-09-29 2020-02-11 苏州浪潮智能科技有限公司 一种检测内存降级错误的方法和装置
US11853150B2 (en) 2019-09-29 2023-12-26 Inspur Suzhou Intelligent Technology Co., Ltd. Method and device for detecting memory downgrade error
CN111625387A (zh) * 2020-05-27 2020-09-04 北京金山云网络技术有限公司 内存错误处理方法、装置及服务器
CN111625387B (zh) * 2020-05-27 2024-03-29 北京金山云网络技术有限公司 内存错误处理方法、装置及服务器
CN113076213A (zh) * 2021-03-30 2021-07-06 山东英信计算机技术有限公司 一种优化系统管理中断处理硬件错误时间的方法及系统
CN113076213B (zh) * 2021-03-30 2022-05-27 山东英信计算机技术有限公司 一种优化系统管理中断处理硬件错误时间的方法及系统
CN115913895A (zh) * 2022-11-08 2023-04-04 苏州浪潮智能科技有限公司 一种服务器故障诊断告警的方法、装置、设备及介质
CN115913895B (zh) * 2022-11-08 2024-10-15 苏州浪潮智能科技有限公司 一种服务器故障诊断告警的方法、装置、设备及介质

Also Published As

Publication number Publication date
CN102681909B (zh) 2016-07-27

Similar Documents

Publication Publication Date Title
CN102681909A (zh) 一种基于内存错误的服务器预警方法
US11010273B2 (en) Software condition evaluation apparatus and methods
CN103117879B (zh) 一种计算机硬件运行参数网络监测系统
TWI618380B (zh) 管理方法、服務控制器裝置以及非暫態電腦可讀取媒體
CN103200050B (zh) 服务器的硬件状态监控方法和系统
US20150127814A1 (en) Monitoring Server Method
WO2015039598A1 (zh) 故障定位方法及装置
CN112732477B (zh) 一种带外自检故障隔离的方法
US8949676B2 (en) Real-time event storm detection in a cloud environment
CN114328102B (zh) 设备状态监控方法、装置、设备及计算机可读存储介质
US10848839B2 (en) Out-of-band telemetry data collection
WO2015196365A1 (zh) 一种故障处理方法、相关装置及计算机
US20120136970A1 (en) Computer system and method for managing computer device
US20190050279A1 (en) Functional safety error reporting and handling infrastructure
CN103580941B (zh) 网络看门狗及其实现方法
US20190171507A1 (en) Techniques of monitoring and updating system component health status
US9798625B2 (en) Agentless and/or pre-boot support, and field replaceable unit (FRU) isolation
US20150032229A1 (en) Process control apparatus and system, and method for determining normality thereof
WO2016197737A1 (zh) 自检处理方法、装置及系统
CN112631866A (zh) 服务器硬件状态监控方法、装置、电子设备及介质
CN113536306A (zh) 处理健康信息以确定是否发生异常
JP2024050522A (ja) マルチベンダーを支援するサーバ管理システム
CN105912414A (zh) 一种服务器管理的方法及系统
CN109032867A (zh) 一种故障诊断方法、装置及设备
US20080285461A1 (en) Method for remotely monitoring system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant