CN105589789A - 一种动态调整内存监控阀值的方法 - Google Patents

一种动态调整内存监控阀值的方法 Download PDF

Info

Publication number
CN105589789A
CN105589789A CN201510984888.1A CN201510984888A CN105589789A CN 105589789 A CN105589789 A CN 105589789A CN 201510984888 A CN201510984888 A CN 201510984888A CN 105589789 A CN105589789 A CN 105589789A
Authority
CN
China
Prior art keywords
threshold values
internal memory
monitoring
monitoring threshold
ecc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510984888.1A
Other languages
English (en)
Inventor
李双星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201510984888.1A priority Critical patent/CN105589789A/zh
Publication of CN105589789A publication Critical patent/CN105589789A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based

Abstract

本发明提供一种动态调整内存监控阀值的方法,通过BMC(Baseboard?Management?Controller)基板管理控制器,获取CPU记录的内存可纠正ECC(Error-Correcting?Code)错误的数量;根据业务对内存可纠正ECC错误的要求,设定监控阀值,当监控到内存可纠正ECC错误的数量超过阀值时,自动触发报警,并提示系统管理员采取相应措施。本方法可以通过BMC带外来获取实时的可纠正ECC错误数量,根据设定的阀值触发报警,提示系统管理员采取相应措施,以便其及时将有隐患内存更换,避免对业务产生不良影响。

Description

一种动态调整内存监控阀值的方法
技术领域
本发明涉及服务器内存监控,具体涉及一种动态调整内存监控阀值的方法。
背景技术
随着各内存厂家的颗粒制程的减小,电容储存电荷的能力变小,影响和干扰变大,MOS管控制力弱,漏电流容易发生。尤其是单内存颗粒容量的不断增加,颗粒中的CELL电容电平判断更易受到扰动,近年来ECC问题显现越来越明显。
少量的可纠正ECC错误不会影响系统的稳定运行,不会引起系统宕机。但是当发生频繁的可纠正ECC错误时,如果不根据监控阀值将其更换,就会影响系统的稳定运行。
当发生ECC错误时,需要CPU进行纠正,可能会带来一定的性能损失。对于一般的应用场景而言,可以适当提高内存ECC监控阀值,减少停机次数和维护成本。但是对于一些高性能等应用,就要降低阀值,以保证运算性能。
内存ECC监控阀值一般是写入BIOS中,或者通过BIOSsetup选项来调整,不方便灵活地根据业务场景来调整。
发明内容
本发明的技术任务是针对现有技术的不足,提供一种动态调整内存监控阀值的方法。本方法可以通过BMC带外来获取实时的可纠正ECC错误数量,根据设定的阀值触发报警,提示系统管理员采取相应措施。
本发明解决其技术问题所采用的技术方案是:
一种动态调整内存监控阀值的方法,通过BMC(BaseboardManagementController)基板管理控制器,获取CPU记录的内存可纠正ECC(Error-CorrectingCode)错误的数量;根据业务对内存可纠正ECC错误的要求,设定监控阀值,当监控到内存可纠正ECC错误的数量超过阀值时,自动触发报警,并提示系统管理员采取相应措施;其实施步骤为:1)、设定参数;2)、执行脚本;3)、开始监控;4)、判断是否超过阀值;5)、故障处理。
进一步的,该方法通过PECI(PlatformEnvironmentControlInterface)接口,获取CPU记录的内存可纠正ECC错误的数量。
根据实际的网络环境,修改IP为被监控服务器BMC的管理IP。
根据业务要求,修改threshold为监控阀值,修改interval为监控周期。
设定参数时,将MemoryMonitor.sh拷贝至系统/opt目录下,并赋予执行权限。
执行脚本对服务器内存进行监控,当发现内存可纠正ECC错误数量超过阀值时,自动发邮件报警。
本发明的一种动态调整内存监控阀值的方法与现有技术相比,所产生的有益效果是,本发明可以通过BMC带外来获取实时的可纠正ECC错误数量,根据设定的阀值触发报警,提示系统管理员采取相应措施。以便其及时将有隐患内存更换,避免对业务产生不良影响。
附图说明
附图1是本发明一种动态调整内存监控阀值的方法流程图。
具体实施方式
下面结合附图对本发明的一种动态调整内存监控阀值的方法作以下详细地说明。
一种动态调整内存监控阀值的方法,通过BMC(BaseboardManagementController)基板管理控制器,获取CPU记录的内存可纠正ECC(Error-CorrectingCode)错误的数量;根据业务对内存可纠正ECC错误的要求,设定监控阀值,当监控到内存可纠正ECC错误的数量超过阀值时,自动触发报警,并提示系统管理员采取相应措施;其实施步骤为:1)、设定参数;2)、执行脚本;3)、开始监控;4)、判断是否超过阀值;5)、故障处理。
进一步的,该方法通过PECI(PlatformEnvironmentControlInterface)接口,获取CPU记录的内存可纠正ECC错误的数量。
根据实际的网络环境,修改IP为被监控服务器BMC的管理IP。
根据业务要求,修改threshold为监控阀值,修改interval为监控周期。
设定参数时,将MemoryMonitor.sh拷贝至系统/opt目录下,并赋予执行权限。
执行脚本对服务器内存进行监控,当发现内存可纠正ECC错误数量超过阀值时,自动发邮件报警。
本发明包含一个shell脚本MemoryMonitor.sh,内容如下:
#!/bin/bash
threshold=1024
interval=3600
IP=192.168.100.100
whiletrue
do
ecc_count=`ipmitool-Ilanplus-H$IP-U"admin"-P"admin"-t0x2c-b0x0raw0x2e0x400x570x010x000x300x060x050x610x00x040x210xf80x03`
if["$ecc_count"-gt"$threshold"]
then
echo"Memoryon$IPhastoomanyECCerrors!"|mail-s"ECCerrorwarningdetectedon$IP"adminxxx.com
fi
sleep$interval
done
本发明通过BMC带外来获取实时的可纠正ECC错误数量,根据设定的阀值触发报警,提示系统管理员采取相应措施,以便其及时将有隐患内存更换,避免对业务产生不良影响。

Claims (6)

1.一种动态调整内存监控阀值的方法,其特征在于通过BMC(BaseboardManagementController)基板管理控制器,获取CPU记录的内存可纠正ECC(Error-CorrectingCode)错误的数量;根据业务对内存可纠正ECC错误的要求,设定监控阀值,当监控到内存可纠正ECC错误的数量超过阀值时,自动触发报警,并提示系统管理员采取相应措施;其实施步骤为:1)、设定参数;2)、执行脚本;3)、开始监控;4)、判断是否超过阀值;5)、故障处理。
2.根据权利要求1所述的一种动态调整内存监控阀值的方法,其特征在于通过PECI(PlatformEnvironmentControlInterface)接口,获取CPU记录的内存可纠正ECC错误的数量。
3.根据权利要求1所述的一种动态调整内存监控阀值的方法,其特征在于根据实际的网络环境,修改IP为被监控服务器BMC的管理IP。
4.根据权利要求1所述的一种动态调整内存监控阀值的方法,其特征在于设定参数,根据业务要求,修改threshold为监控阀值,修改interval为监控周期。
5.根据权利要求1所述的一种动态调整内存监控阀值的方法,其特征在于设定参数时,将MemoryMonitor.sh拷贝至系统/opt目录下,并赋予执行权限。
6.根据权利要求1所述的一种动态调整内存监控阀值的方法,其特征在于执行脚本对服务器内存进行监控,当发现内存可纠正ECC错误数量超过阀值时,自动发邮件报警。
CN201510984888.1A 2015-12-25 2015-12-25 一种动态调整内存监控阀值的方法 Pending CN105589789A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510984888.1A CN105589789A (zh) 2015-12-25 2015-12-25 一种动态调整内存监控阀值的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510984888.1A CN105589789A (zh) 2015-12-25 2015-12-25 一种动态调整内存监控阀值的方法

Publications (1)

Publication Number Publication Date
CN105589789A true CN105589789A (zh) 2016-05-18

Family

ID=55929388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510984888.1A Pending CN105589789A (zh) 2015-12-25 2015-12-25 一种动态调整内存监控阀值的方法

Country Status (1)

Country Link
CN (1) CN105589789A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106100938A (zh) * 2016-08-19 2016-11-09 浪潮(北京)电子信息产业有限公司 一种分布式集群系统的监控和告警方法及系统
CN107391337A (zh) * 2017-07-18 2017-11-24 郑州云海信息技术有限公司 一种数据监控方法及装置
CN108958965A (zh) * 2018-06-28 2018-12-07 郑州云海信息技术有限公司 一种bmc监控可恢复ecc错误的方法、装置及设备
CN109766247A (zh) * 2018-12-19 2019-05-17 平安科技(深圳)有限公司 基于系统数据监控的报警设置方法及系统
CN110008056A (zh) * 2019-03-28 2019-07-12 联想(北京)有限公司 内存管理方法、装置、电子设备及计算机可读存储介质
CN113297038A (zh) * 2020-04-07 2021-08-24 阿里巴巴集团控股有限公司 监控与数据处理方法、装置、设备及监控系统、数据中心
CN116820828A (zh) * 2023-08-29 2023-09-29 苏州浪潮智能科技有限公司 可纠正错误阈值设定方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070233455A1 (en) * 2006-03-28 2007-10-04 Zimmer Vincent J Techniques for unified management communication for virtualization systems
CN201515381U (zh) * 2009-10-28 2010-06-23 浪潮电子信息产业股份有限公司 新型服务器管理监控系统
CN102467440A (zh) * 2010-11-09 2012-05-23 鸿富锦精密工业(深圳)有限公司 内存错误检测系统及方法
CN103092739A (zh) * 2013-01-18 2013-05-08 浪潮电子信息产业股份有限公司 一种内存ecc报错报警机制
CN103926994A (zh) * 2014-04-04 2014-07-16 浪潮电子信息产业股份有限公司 一种基于me的服务器动态能耗管理及修正方法
CN104486100A (zh) * 2014-11-28 2015-04-01 华为技术有限公司 故障处理装置及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070233455A1 (en) * 2006-03-28 2007-10-04 Zimmer Vincent J Techniques for unified management communication for virtualization systems
CN201515381U (zh) * 2009-10-28 2010-06-23 浪潮电子信息产业股份有限公司 新型服务器管理监控系统
CN102467440A (zh) * 2010-11-09 2012-05-23 鸿富锦精密工业(深圳)有限公司 内存错误检测系统及方法
CN103092739A (zh) * 2013-01-18 2013-05-08 浪潮电子信息产业股份有限公司 一种内存ecc报错报警机制
CN103926994A (zh) * 2014-04-04 2014-07-16 浪潮电子信息产业股份有限公司 一种基于me的服务器动态能耗管理及修正方法
CN104486100A (zh) * 2014-11-28 2015-04-01 华为技术有限公司 故障处理装置及方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106100938A (zh) * 2016-08-19 2016-11-09 浪潮(北京)电子信息产业有限公司 一种分布式集群系统的监控和告警方法及系统
CN107391337A (zh) * 2017-07-18 2017-11-24 郑州云海信息技术有限公司 一种数据监控方法及装置
CN108958965A (zh) * 2018-06-28 2018-12-07 郑州云海信息技术有限公司 一种bmc监控可恢复ecc错误的方法、装置及设备
CN108958965B (zh) * 2018-06-28 2021-03-02 苏州浪潮智能科技有限公司 一种bmc监控可恢复ecc错误的方法、装置及设备
CN109766247A (zh) * 2018-12-19 2019-05-17 平安科技(深圳)有限公司 基于系统数据监控的报警设置方法及系统
CN109766247B (zh) * 2018-12-19 2022-09-13 平安科技(深圳)有限公司 基于系统数据监控的报警设置方法及系统
CN110008056A (zh) * 2019-03-28 2019-07-12 联想(北京)有限公司 内存管理方法、装置、电子设备及计算机可读存储介质
CN113297038A (zh) * 2020-04-07 2021-08-24 阿里巴巴集团控股有限公司 监控与数据处理方法、装置、设备及监控系统、数据中心
CN113297038B (zh) * 2020-04-07 2022-07-19 阿里巴巴集团控股有限公司 监控与数据处理方法、装置、设备及监控系统、数据中心
CN116820828A (zh) * 2023-08-29 2023-09-29 苏州浪潮智能科技有限公司 可纠正错误阈值设定方法、装置、电子设备及存储介质
CN116820828B (zh) * 2023-08-29 2024-01-09 苏州浪潮智能科技有限公司 可纠正错误阈值设定方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN105589789A (zh) 一种动态调整内存监控阀值的方法
CN103092739A (zh) 一种内存ecc报错报警机制
CN103631666B (zh) 数据冗余容错的适配管理设备、服务设备、系统及方法
CN109710501B (zh) 一种服务器数据传输稳定性的检测方法和系统
CN101436146B (zh) 动态调节远程设备管理进程的优先级的方法及系统
CN105490870A (zh) 一种批量监控Linux服务器运行状态的方法
US20230123092A1 (en) Methods and internet of things systems for gas usage safety warning based on smart gases
US8549277B2 (en) Server system including diplexer
CN102882701B (zh) 一种电网核心业务数据智能化监控告警系统及方法
CN106354241A (zh) 一种数据的掉电保护装置、系统及方法
CN107911387A (zh) 用电信息采集系统账号异常登陆和异常操作的监控方法
XU et al. Price transmission in China's swine industry with an application of MCM
CN109254922A (zh) 一种服务器BMC Redfish功能的自动化测试方法及装置
CN103281208B (zh) 一种数据灾备服务及综合监控系统
CN109918218A (zh) 一种基于电力收费的错误数据分析方法
CN109240460A (zh) 一种服务器散热方法、装置、设备及计算机存储介质
CN103577306A (zh) 云平台中主动式探测的高可用软件运行方法
CN104820628A (zh) 一种基于bash的监控系统负载和系统资源使用情况的方法
WO2016197819A1 (zh) 反向供电线路检测处理方法及装置
US10237161B2 (en) System and method for dynamically testing networked target systems
CN204066252U (zh) 一种单项本地费控智能电能表
CN108667514A (zh) 光传输设备在线失效预测方法和装置
CN107092551A (zh) 一种服务器系统性能优化方法及装置
CN106201727A (zh) 一种操作系统的内存管理方法及装置
CN111010369A (zh) 一种基于互联网电子政务综合应用平台及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160518