CN105589789A - 一种动态调整内存监控阀值的方法 - Google Patents
一种动态调整内存监控阀值的方法 Download PDFInfo
- Publication number
- CN105589789A CN105589789A CN201510984888.1A CN201510984888A CN105589789A CN 105589789 A CN105589789 A CN 105589789A CN 201510984888 A CN201510984888 A CN 201510984888A CN 105589789 A CN105589789 A CN 105589789A
- Authority
- CN
- China
- Prior art keywords
- threshold values
- internal memory
- monitoring
- monitoring threshold
- ecc
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015654 memory Effects 0.000 title claims abstract description 44
- 238000012544 monitoring process Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 title claims abstract description 21
- 101150039033 Eci2 gene Proteins 0.000 claims description 3
- 102100021823 Enoyl-CoA delta isomerase 2 Human genes 0.000 claims description 3
- 238000007726 management method Methods 0.000 claims description 3
- 238000013024 troubleshooting Methods 0.000 claims description 3
- 230000002411 adverse Effects 0.000 abstract 1
- 230000000694 effects Effects 0.000 abstract 1
- 230000009931 harmful effect Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3034—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
Landscapes
- Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Techniques For Improving Reliability Of Storages (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供一种动态调整内存监控阀值的方法,通过BMC(Baseboard?Management?Controller)基板管理控制器,获取CPU记录的内存可纠正ECC(Error-Correcting?Code)错误的数量;根据业务对内存可纠正ECC错误的要求,设定监控阀值,当监控到内存可纠正ECC错误的数量超过阀值时,自动触发报警,并提示系统管理员采取相应措施。本方法可以通过BMC带外来获取实时的可纠正ECC错误数量,根据设定的阀值触发报警,提示系统管理员采取相应措施,以便其及时将有隐患内存更换,避免对业务产生不良影响。
Description
技术领域
本发明涉及服务器内存监控,具体涉及一种动态调整内存监控阀值的方法。
背景技术
随着各内存厂家的颗粒制程的减小,电容储存电荷的能力变小,影响和干扰变大,MOS管控制力弱,漏电流容易发生。尤其是单内存颗粒容量的不断增加,颗粒中的CELL电容电平判断更易受到扰动,近年来ECC问题显现越来越明显。
少量的可纠正ECC错误不会影响系统的稳定运行,不会引起系统宕机。但是当发生频繁的可纠正ECC错误时,如果不根据监控阀值将其更换,就会影响系统的稳定运行。
当发生ECC错误时,需要CPU进行纠正,可能会带来一定的性能损失。对于一般的应用场景而言,可以适当提高内存ECC监控阀值,减少停机次数和维护成本。但是对于一些高性能等应用,就要降低阀值,以保证运算性能。
内存ECC监控阀值一般是写入BIOS中,或者通过BIOSsetup选项来调整,不方便灵活地根据业务场景来调整。
发明内容
本发明的技术任务是针对现有技术的不足,提供一种动态调整内存监控阀值的方法。本方法可以通过BMC带外来获取实时的可纠正ECC错误数量,根据设定的阀值触发报警,提示系统管理员采取相应措施。
本发明解决其技术问题所采用的技术方案是:
一种动态调整内存监控阀值的方法,通过BMC(BaseboardManagementController)基板管理控制器,获取CPU记录的内存可纠正ECC(Error-CorrectingCode)错误的数量;根据业务对内存可纠正ECC错误的要求,设定监控阀值,当监控到内存可纠正ECC错误的数量超过阀值时,自动触发报警,并提示系统管理员采取相应措施;其实施步骤为:1)、设定参数;2)、执行脚本;3)、开始监控;4)、判断是否超过阀值;5)、故障处理。
进一步的,该方法通过PECI(PlatformEnvironmentControlInterface)接口,获取CPU记录的内存可纠正ECC错误的数量。
根据实际的网络环境,修改IP为被监控服务器BMC的管理IP。
根据业务要求,修改threshold为监控阀值,修改interval为监控周期。
设定参数时,将MemoryMonitor.sh拷贝至系统/opt目录下,并赋予执行权限。
执行脚本对服务器内存进行监控,当发现内存可纠正ECC错误数量超过阀值时,自动发邮件报警。
本发明的一种动态调整内存监控阀值的方法与现有技术相比,所产生的有益效果是,本发明可以通过BMC带外来获取实时的可纠正ECC错误数量,根据设定的阀值触发报警,提示系统管理员采取相应措施。以便其及时将有隐患内存更换,避免对业务产生不良影响。
附图说明
附图1是本发明一种动态调整内存监控阀值的方法流程图。
具体实施方式
下面结合附图对本发明的一种动态调整内存监控阀值的方法作以下详细地说明。
一种动态调整内存监控阀值的方法,通过BMC(BaseboardManagementController)基板管理控制器,获取CPU记录的内存可纠正ECC(Error-CorrectingCode)错误的数量;根据业务对内存可纠正ECC错误的要求,设定监控阀值,当监控到内存可纠正ECC错误的数量超过阀值时,自动触发报警,并提示系统管理员采取相应措施;其实施步骤为:1)、设定参数;2)、执行脚本;3)、开始监控;4)、判断是否超过阀值;5)、故障处理。
进一步的,该方法通过PECI(PlatformEnvironmentControlInterface)接口,获取CPU记录的内存可纠正ECC错误的数量。
根据实际的网络环境,修改IP为被监控服务器BMC的管理IP。
根据业务要求,修改threshold为监控阀值,修改interval为监控周期。
设定参数时,将MemoryMonitor.sh拷贝至系统/opt目录下,并赋予执行权限。
执行脚本对服务器内存进行监控,当发现内存可纠正ECC错误数量超过阀值时,自动发邮件报警。
本发明包含一个shell脚本MemoryMonitor.sh,内容如下:
#!/bin/bash
threshold=1024
interval=3600
IP=192.168.100.100
whiletrue
do
ecc_count=`ipmitool-Ilanplus-H$IP-U"admin"-P"admin"-t0x2c-b0x0raw0x2e0x400x570x010x000x300x060x050x610x00x040x210xf80x03`
if["$ecc_count"-gt"$threshold"]
then
echo"Memoryon$IPhastoomanyECCerrors!"|mail-s"ECCerrorwarningdetectedon$IP"adminxxx.com
fi
sleep$interval
done
本发明通过BMC带外来获取实时的可纠正ECC错误数量,根据设定的阀值触发报警,提示系统管理员采取相应措施,以便其及时将有隐患内存更换,避免对业务产生不良影响。
Claims (6)
1.一种动态调整内存监控阀值的方法,其特征在于通过BMC(BaseboardManagementController)基板管理控制器,获取CPU记录的内存可纠正ECC(Error-CorrectingCode)错误的数量;根据业务对内存可纠正ECC错误的要求,设定监控阀值,当监控到内存可纠正ECC错误的数量超过阀值时,自动触发报警,并提示系统管理员采取相应措施;其实施步骤为:1)、设定参数;2)、执行脚本;3)、开始监控;4)、判断是否超过阀值;5)、故障处理。
2.根据权利要求1所述的一种动态调整内存监控阀值的方法,其特征在于通过PECI(PlatformEnvironmentControlInterface)接口,获取CPU记录的内存可纠正ECC错误的数量。
3.根据权利要求1所述的一种动态调整内存监控阀值的方法,其特征在于根据实际的网络环境,修改IP为被监控服务器BMC的管理IP。
4.根据权利要求1所述的一种动态调整内存监控阀值的方法,其特征在于设定参数,根据业务要求,修改threshold为监控阀值,修改interval为监控周期。
5.根据权利要求1所述的一种动态调整内存监控阀值的方法,其特征在于设定参数时,将MemoryMonitor.sh拷贝至系统/opt目录下,并赋予执行权限。
6.根据权利要求1所述的一种动态调整内存监控阀值的方法,其特征在于执行脚本对服务器内存进行监控,当发现内存可纠正ECC错误数量超过阀值时,自动发邮件报警。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510984888.1A CN105589789A (zh) | 2015-12-25 | 2015-12-25 | 一种动态调整内存监控阀值的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510984888.1A CN105589789A (zh) | 2015-12-25 | 2015-12-25 | 一种动态调整内存监控阀值的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105589789A true CN105589789A (zh) | 2016-05-18 |
Family
ID=55929388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510984888.1A Pending CN105589789A (zh) | 2015-12-25 | 2015-12-25 | 一种动态调整内存监控阀值的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105589789A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106100938A (zh) * | 2016-08-19 | 2016-11-09 | 浪潮(北京)电子信息产业有限公司 | 一种分布式集群系统的监控和告警方法及系统 |
CN107391337A (zh) * | 2017-07-18 | 2017-11-24 | 郑州云海信息技术有限公司 | 一种数据监控方法及装置 |
CN108958965A (zh) * | 2018-06-28 | 2018-12-07 | 郑州云海信息技术有限公司 | 一种bmc监控可恢复ecc错误的方法、装置及设备 |
CN109766247A (zh) * | 2018-12-19 | 2019-05-17 | 平安科技(深圳)有限公司 | 基于系统数据监控的报警设置方法及系统 |
CN110008056A (zh) * | 2019-03-28 | 2019-07-12 | 联想(北京)有限公司 | 内存管理方法、装置、电子设备及计算机可读存储介质 |
CN113297038A (zh) * | 2020-04-07 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 监控与数据处理方法、装置、设备及监控系统、数据中心 |
CN116820828A (zh) * | 2023-08-29 | 2023-09-29 | 苏州浪潮智能科技有限公司 | 可纠正错误阈值设定方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070233455A1 (en) * | 2006-03-28 | 2007-10-04 | Zimmer Vincent J | Techniques for unified management communication for virtualization systems |
CN201515381U (zh) * | 2009-10-28 | 2010-06-23 | 浪潮电子信息产业股份有限公司 | 新型服务器管理监控系统 |
CN102467440A (zh) * | 2010-11-09 | 2012-05-23 | 鸿富锦精密工业(深圳)有限公司 | 内存错误检测系统及方法 |
CN103092739A (zh) * | 2013-01-18 | 2013-05-08 | 浪潮电子信息产业股份有限公司 | 一种内存ecc报错报警机制 |
CN103926994A (zh) * | 2014-04-04 | 2014-07-16 | 浪潮电子信息产业股份有限公司 | 一种基于me的服务器动态能耗管理及修正方法 |
CN104486100A (zh) * | 2014-11-28 | 2015-04-01 | 华为技术有限公司 | 故障处理装置及方法 |
-
2015
- 2015-12-25 CN CN201510984888.1A patent/CN105589789A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070233455A1 (en) * | 2006-03-28 | 2007-10-04 | Zimmer Vincent J | Techniques for unified management communication for virtualization systems |
CN201515381U (zh) * | 2009-10-28 | 2010-06-23 | 浪潮电子信息产业股份有限公司 | 新型服务器管理监控系统 |
CN102467440A (zh) * | 2010-11-09 | 2012-05-23 | 鸿富锦精密工业(深圳)有限公司 | 内存错误检测系统及方法 |
CN103092739A (zh) * | 2013-01-18 | 2013-05-08 | 浪潮电子信息产业股份有限公司 | 一种内存ecc报错报警机制 |
CN103926994A (zh) * | 2014-04-04 | 2014-07-16 | 浪潮电子信息产业股份有限公司 | 一种基于me的服务器动态能耗管理及修正方法 |
CN104486100A (zh) * | 2014-11-28 | 2015-04-01 | 华为技术有限公司 | 故障处理装置及方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106100938A (zh) * | 2016-08-19 | 2016-11-09 | 浪潮(北京)电子信息产业有限公司 | 一种分布式集群系统的监控和告警方法及系统 |
CN107391337A (zh) * | 2017-07-18 | 2017-11-24 | 郑州云海信息技术有限公司 | 一种数据监控方法及装置 |
CN108958965A (zh) * | 2018-06-28 | 2018-12-07 | 郑州云海信息技术有限公司 | 一种bmc监控可恢复ecc错误的方法、装置及设备 |
CN108958965B (zh) * | 2018-06-28 | 2021-03-02 | 苏州浪潮智能科技有限公司 | 一种bmc监控可恢复ecc错误的方法、装置及设备 |
CN109766247A (zh) * | 2018-12-19 | 2019-05-17 | 平安科技(深圳)有限公司 | 基于系统数据监控的报警设置方法及系统 |
CN109766247B (zh) * | 2018-12-19 | 2022-09-13 | 平安科技(深圳)有限公司 | 基于系统数据监控的报警设置方法及系统 |
CN110008056A (zh) * | 2019-03-28 | 2019-07-12 | 联想(北京)有限公司 | 内存管理方法、装置、电子设备及计算机可读存储介质 |
CN113297038A (zh) * | 2020-04-07 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 监控与数据处理方法、装置、设备及监控系统、数据中心 |
CN113297038B (zh) * | 2020-04-07 | 2022-07-19 | 阿里巴巴集团控股有限公司 | 监控与数据处理方法、装置、设备及监控系统、数据中心 |
CN116820828A (zh) * | 2023-08-29 | 2023-09-29 | 苏州浪潮智能科技有限公司 | 可纠正错误阈值设定方法、装置、电子设备及存储介质 |
CN116820828B (zh) * | 2023-08-29 | 2024-01-09 | 苏州浪潮智能科技有限公司 | 可纠正错误阈值设定方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105589789A (zh) | 一种动态调整内存监控阀值的方法 | |
CN102681909B (zh) | 一种基于内存错误的服务器预警方法 | |
US20140189335A1 (en) | Firmware upgrade error detection and automatic rollback | |
CN103092739A (zh) | 一种内存ecc报错报警机制 | |
US20150242623A1 (en) | Real-time recording and monitoring of mobile applications | |
CN105490870A (zh) | 一种批量监控Linux服务器运行状态的方法 | |
CN104378262A (zh) | 一种云计算下智能监控分析方法及系统 | |
US8549277B2 (en) | Server system including diplexer | |
EP3591790A3 (en) | Supplemental techniques for characterizing power quality events in an electrical system | |
CN101436146B (zh) | 动态调节远程设备管理进程的优先级的方法及系统 | |
CN102571909B (zh) | 基于服务器文件夹访问量动态调整带宽的方法及装置 | |
CN106454539A (zh) | 一种视频直播网站的弹幕封禁系统及方法 | |
US7266729B2 (en) | Managing a wireless platform | |
XU et al. | Price transmission in China's swine industry with an application of MCM | |
CN108415817A (zh) | Bmc获取时间的方法、装置、设备及可存储介质 | |
CN105141478A (zh) | 一种linux服务器sas卡硬盘状态的监控方法 | |
WO2016119389A1 (zh) | 一种系统对接的管理方法、装置和系统 | |
CN104820628A (zh) | 一种基于bash的监控系统负载和系统资源使用情况的方法 | |
WO2016197819A1 (zh) | 反向供电线路检测处理方法及装置 | |
CN105224805B (zh) | 基于流式计算的资源管理方法及装置 | |
US20200089562A1 (en) | Error Detection Within An Integrated Circuit Chip | |
JP6707646B2 (ja) | ユーティリティシステムにおける供給停止に対処するためのシステムおよび方法 | |
CN110990223A (zh) | 一种基于系统日志的监控告警方法及装置 | |
TWI644228B (zh) | 伺服器及其監控方法 | |
US20070245016A1 (en) | System and method of single-channel account reporting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160518 |
|
RJ01 | Rejection of invention patent application after publication |