CN105589789A - 一种动态调整内存监控阀值的方法 - Google Patents

一种动态调整内存监控阀值的方法 Download PDF

Info

Publication number
CN105589789A
CN105589789A CN201510984888.1A CN201510984888A CN105589789A CN 105589789 A CN105589789 A CN 105589789A CN 201510984888 A CN201510984888 A CN 201510984888A CN 105589789 A CN105589789 A CN 105589789A
Authority
CN
China
Prior art keywords
threshold values
internal memory
monitoring
monitoring threshold
ecc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510984888.1A
Other languages
English (en)
Inventor
李双星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201510984888.1A priority Critical patent/CN105589789A/zh
Publication of CN105589789A publication Critical patent/CN105589789A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based

Landscapes

  • Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种动态调整内存监控阀值的方法,通过BMC(Baseboard?Management?Controller)基板管理控制器,获取CPU记录的内存可纠正ECC(Error-Correcting?Code)错误的数量;根据业务对内存可纠正ECC错误的要求,设定监控阀值,当监控到内存可纠正ECC错误的数量超过阀值时,自动触发报警,并提示系统管理员采取相应措施。本方法可以通过BMC带外来获取实时的可纠正ECC错误数量,根据设定的阀值触发报警,提示系统管理员采取相应措施,以便其及时将有隐患内存更换,避免对业务产生不良影响。

Description

一种动态调整内存监控阀值的方法
技术领域
本发明涉及服务器内存监控,具体涉及一种动态调整内存监控阀值的方法。
背景技术
随着各内存厂家的颗粒制程的减小,电容储存电荷的能力变小,影响和干扰变大,MOS管控制力弱,漏电流容易发生。尤其是单内存颗粒容量的不断增加,颗粒中的CELL电容电平判断更易受到扰动,近年来ECC问题显现越来越明显。
少量的可纠正ECC错误不会影响系统的稳定运行,不会引起系统宕机。但是当发生频繁的可纠正ECC错误时,如果不根据监控阀值将其更换,就会影响系统的稳定运行。
当发生ECC错误时,需要CPU进行纠正,可能会带来一定的性能损失。对于一般的应用场景而言,可以适当提高内存ECC监控阀值,减少停机次数和维护成本。但是对于一些高性能等应用,就要降低阀值,以保证运算性能。
内存ECC监控阀值一般是写入BIOS中,或者通过BIOSsetup选项来调整,不方便灵活地根据业务场景来调整。
发明内容
本发明的技术任务是针对现有技术的不足,提供一种动态调整内存监控阀值的方法。本方法可以通过BMC带外来获取实时的可纠正ECC错误数量,根据设定的阀值触发报警,提示系统管理员采取相应措施。
本发明解决其技术问题所采用的技术方案是:
一种动态调整内存监控阀值的方法,通过BMC(BaseboardManagementController)基板管理控制器,获取CPU记录的内存可纠正ECC(Error-CorrectingCode)错误的数量;根据业务对内存可纠正ECC错误的要求,设定监控阀值,当监控到内存可纠正ECC错误的数量超过阀值时,自动触发报警,并提示系统管理员采取相应措施;其实施步骤为:1)、设定参数;2)、执行脚本;3)、开始监控;4)、判断是否超过阀值;5)、故障处理。
进一步的,该方法通过PECI(PlatformEnvironmentControlInterface)接口,获取CPU记录的内存可纠正ECC错误的数量。
根据实际的网络环境,修改IP为被监控服务器BMC的管理IP。
根据业务要求,修改threshold为监控阀值,修改interval为监控周期。
设定参数时,将MemoryMonitor.sh拷贝至系统/opt目录下,并赋予执行权限。
执行脚本对服务器内存进行监控,当发现内存可纠正ECC错误数量超过阀值时,自动发邮件报警。
本发明的一种动态调整内存监控阀值的方法与现有技术相比,所产生的有益效果是,本发明可以通过BMC带外来获取实时的可纠正ECC错误数量,根据设定的阀值触发报警,提示系统管理员采取相应措施。以便其及时将有隐患内存更换,避免对业务产生不良影响。
附图说明
附图1是本发明一种动态调整内存监控阀值的方法流程图。
具体实施方式
下面结合附图对本发明的一种动态调整内存监控阀值的方法作以下详细地说明。
一种动态调整内存监控阀值的方法,通过BMC(BaseboardManagementController)基板管理控制器,获取CPU记录的内存可纠正ECC(Error-CorrectingCode)错误的数量;根据业务对内存可纠正ECC错误的要求,设定监控阀值,当监控到内存可纠正ECC错误的数量超过阀值时,自动触发报警,并提示系统管理员采取相应措施;其实施步骤为:1)、设定参数;2)、执行脚本;3)、开始监控;4)、判断是否超过阀值;5)、故障处理。
进一步的,该方法通过PECI(PlatformEnvironmentControlInterface)接口,获取CPU记录的内存可纠正ECC错误的数量。
根据实际的网络环境,修改IP为被监控服务器BMC的管理IP。
根据业务要求,修改threshold为监控阀值,修改interval为监控周期。
设定参数时,将MemoryMonitor.sh拷贝至系统/opt目录下,并赋予执行权限。
执行脚本对服务器内存进行监控,当发现内存可纠正ECC错误数量超过阀值时,自动发邮件报警。
本发明包含一个shell脚本MemoryMonitor.sh,内容如下:
#!/bin/bash
threshold=1024
interval=3600
IP=192.168.100.100
whiletrue
do
ecc_count=`ipmitool-Ilanplus-H$IP-U"admin"-P"admin"-t0x2c-b0x0raw0x2e0x400x570x010x000x300x060x050x610x00x040x210xf80x03`
if["$ecc_count"-gt"$threshold"]
then
echo"Memoryon$IPhastoomanyECCerrors!"|mail-s"ECCerrorwarningdetectedon$IP"adminxxx.com
fi
sleep$interval
done
本发明通过BMC带外来获取实时的可纠正ECC错误数量,根据设定的阀值触发报警,提示系统管理员采取相应措施,以便其及时将有隐患内存更换,避免对业务产生不良影响。

Claims (6)

1.一种动态调整内存监控阀值的方法,其特征在于通过BMC(BaseboardManagementController)基板管理控制器,获取CPU记录的内存可纠正ECC(Error-CorrectingCode)错误的数量;根据业务对内存可纠正ECC错误的要求,设定监控阀值,当监控到内存可纠正ECC错误的数量超过阀值时,自动触发报警,并提示系统管理员采取相应措施;其实施步骤为:1)、设定参数;2)、执行脚本;3)、开始监控;4)、判断是否超过阀值;5)、故障处理。
2.根据权利要求1所述的一种动态调整内存监控阀值的方法,其特征在于通过PECI(PlatformEnvironmentControlInterface)接口,获取CPU记录的内存可纠正ECC错误的数量。
3.根据权利要求1所述的一种动态调整内存监控阀值的方法,其特征在于根据实际的网络环境,修改IP为被监控服务器BMC的管理IP。
4.根据权利要求1所述的一种动态调整内存监控阀值的方法,其特征在于设定参数,根据业务要求,修改threshold为监控阀值,修改interval为监控周期。
5.根据权利要求1所述的一种动态调整内存监控阀值的方法,其特征在于设定参数时,将MemoryMonitor.sh拷贝至系统/opt目录下,并赋予执行权限。
6.根据权利要求1所述的一种动态调整内存监控阀值的方法,其特征在于执行脚本对服务器内存进行监控,当发现内存可纠正ECC错误数量超过阀值时,自动发邮件报警。
CN201510984888.1A 2015-12-25 2015-12-25 一种动态调整内存监控阀值的方法 Pending CN105589789A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510984888.1A CN105589789A (zh) 2015-12-25 2015-12-25 一种动态调整内存监控阀值的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510984888.1A CN105589789A (zh) 2015-12-25 2015-12-25 一种动态调整内存监控阀值的方法

Publications (1)

Publication Number Publication Date
CN105589789A true CN105589789A (zh) 2016-05-18

Family

ID=55929388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510984888.1A Pending CN105589789A (zh) 2015-12-25 2015-12-25 一种动态调整内存监控阀值的方法

Country Status (1)

Country Link
CN (1) CN105589789A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106100938A (zh) * 2016-08-19 2016-11-09 浪潮(北京)电子信息产业有限公司 一种分布式集群系统的监控和告警方法及系统
CN107391337A (zh) * 2017-07-18 2017-11-24 郑州云海信息技术有限公司 一种数据监控方法及装置
CN108958965A (zh) * 2018-06-28 2018-12-07 郑州云海信息技术有限公司 一种bmc监控可恢复ecc错误的方法、装置及设备
CN109766247A (zh) * 2018-12-19 2019-05-17 平安科技(深圳)有限公司 基于系统数据监控的报警设置方法及系统
CN110008056A (zh) * 2019-03-28 2019-07-12 联想(北京)有限公司 内存管理方法、装置、电子设备及计算机可读存储介质
CN113297038A (zh) * 2020-04-07 2021-08-24 阿里巴巴集团控股有限公司 监控与数据处理方法、装置、设备及监控系统、数据中心
CN116820828A (zh) * 2023-08-29 2023-09-29 苏州浪潮智能科技有限公司 可纠正错误阈值设定方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070233455A1 (en) * 2006-03-28 2007-10-04 Zimmer Vincent J Techniques for unified management communication for virtualization systems
CN201515381U (zh) * 2009-10-28 2010-06-23 浪潮电子信息产业股份有限公司 新型服务器管理监控系统
CN102467440A (zh) * 2010-11-09 2012-05-23 鸿富锦精密工业(深圳)有限公司 内存错误检测系统及方法
CN103092739A (zh) * 2013-01-18 2013-05-08 浪潮电子信息产业股份有限公司 一种内存ecc报错报警机制
CN103926994A (zh) * 2014-04-04 2014-07-16 浪潮电子信息产业股份有限公司 一种基于me的服务器动态能耗管理及修正方法
CN104486100A (zh) * 2014-11-28 2015-04-01 华为技术有限公司 故障处理装置及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070233455A1 (en) * 2006-03-28 2007-10-04 Zimmer Vincent J Techniques for unified management communication for virtualization systems
CN201515381U (zh) * 2009-10-28 2010-06-23 浪潮电子信息产业股份有限公司 新型服务器管理监控系统
CN102467440A (zh) * 2010-11-09 2012-05-23 鸿富锦精密工业(深圳)有限公司 内存错误检测系统及方法
CN103092739A (zh) * 2013-01-18 2013-05-08 浪潮电子信息产业股份有限公司 一种内存ecc报错报警机制
CN103926994A (zh) * 2014-04-04 2014-07-16 浪潮电子信息产业股份有限公司 一种基于me的服务器动态能耗管理及修正方法
CN104486100A (zh) * 2014-11-28 2015-04-01 华为技术有限公司 故障处理装置及方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106100938A (zh) * 2016-08-19 2016-11-09 浪潮(北京)电子信息产业有限公司 一种分布式集群系统的监控和告警方法及系统
CN107391337A (zh) * 2017-07-18 2017-11-24 郑州云海信息技术有限公司 一种数据监控方法及装置
CN108958965A (zh) * 2018-06-28 2018-12-07 郑州云海信息技术有限公司 一种bmc监控可恢复ecc错误的方法、装置及设备
CN108958965B (zh) * 2018-06-28 2021-03-02 苏州浪潮智能科技有限公司 一种bmc监控可恢复ecc错误的方法、装置及设备
CN109766247A (zh) * 2018-12-19 2019-05-17 平安科技(深圳)有限公司 基于系统数据监控的报警设置方法及系统
CN109766247B (zh) * 2018-12-19 2022-09-13 平安科技(深圳)有限公司 基于系统数据监控的报警设置方法及系统
CN110008056A (zh) * 2019-03-28 2019-07-12 联想(北京)有限公司 内存管理方法、装置、电子设备及计算机可读存储介质
CN113297038A (zh) * 2020-04-07 2021-08-24 阿里巴巴集团控股有限公司 监控与数据处理方法、装置、设备及监控系统、数据中心
CN113297038B (zh) * 2020-04-07 2022-07-19 阿里巴巴集团控股有限公司 监控与数据处理方法、装置、设备及监控系统、数据中心
CN116820828A (zh) * 2023-08-29 2023-09-29 苏州浪潮智能科技有限公司 可纠正错误阈值设定方法、装置、电子设备及存储介质
CN116820828B (zh) * 2023-08-29 2024-01-09 苏州浪潮智能科技有限公司 可纠正错误阈值设定方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN105589789A (zh) 一种动态调整内存监控阀值的方法
CN102681909B (zh) 一种基于内存错误的服务器预警方法
US20140189335A1 (en) Firmware upgrade error detection and automatic rollback
CN103092739A (zh) 一种内存ecc报错报警机制
US20150242623A1 (en) Real-time recording and monitoring of mobile applications
CN105490870A (zh) 一种批量监控Linux服务器运行状态的方法
CN104378262A (zh) 一种云计算下智能监控分析方法及系统
US8549277B2 (en) Server system including diplexer
EP3591790A3 (en) Supplemental techniques for characterizing power quality events in an electrical system
CN101436146B (zh) 动态调节远程设备管理进程的优先级的方法及系统
CN102571909B (zh) 基于服务器文件夹访问量动态调整带宽的方法及装置
CN106454539A (zh) 一种视频直播网站的弹幕封禁系统及方法
US7266729B2 (en) Managing a wireless platform
XU et al. Price transmission in China's swine industry with an application of MCM
CN108415817A (zh) Bmc获取时间的方法、装置、设备及可存储介质
CN105141478A (zh) 一种linux服务器sas卡硬盘状态的监控方法
WO2016119389A1 (zh) 一种系统对接的管理方法、装置和系统
CN104820628A (zh) 一种基于bash的监控系统负载和系统资源使用情况的方法
WO2016197819A1 (zh) 反向供电线路检测处理方法及装置
CN105224805B (zh) 基于流式计算的资源管理方法及装置
US20200089562A1 (en) Error Detection Within An Integrated Circuit Chip
JP6707646B2 (ja) ユーティリティシステムにおける供給停止に対処するためのシステムおよび方法
CN110990223A (zh) 一种基于系统日志的监控告警方法及装置
TWI644228B (zh) 伺服器及其監控方法
US20070245016A1 (en) System and method of single-channel account reporting

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160518

RJ01 Rejection of invention patent application after publication