CN105335262A - 一种批量服务器部件故障自动计算并预警的方法 - Google Patents
一种批量服务器部件故障自动计算并预警的方法 Download PDFInfo
- Publication number
- CN105335262A CN105335262A CN201510903877.6A CN201510903877A CN105335262A CN 105335262 A CN105335262 A CN 105335262A CN 201510903877 A CN201510903877 A CN 201510903877A CN 105335262 A CN105335262 A CN 105335262A
- Authority
- CN
- China
- Prior art keywords
- server
- information
- running
- warning
- batch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012544 monitoring process Methods 0.000 claims abstract description 15
- 238000013515 script Methods 0.000 claims description 13
- 230000002159 abnormal effect Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 description 6
- 241000282326 Felis catus Species 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本发明公开一种批量服务器部件故障自动计算并预警的方法,涉及计算机设备故障监控领域,通过监控服务器对批量运行的服务器设备进行自动状态记录和回馈统计,通过运行信息采集脚本实时收集服务器中关键部件的运行状态信息,对关键部件的报错信息进行过滤筛选,并汇总到监控服务器中,将这些信息划分通知和警告两个不同的故障紧急等级,对通知级别和警告级别的信息分别记录处理,对警告级别的故障及时通报处理,便于大量服务器设备的整体运维监控和管理。
Description
技术领域
本发明涉及计算机设备故障监控领域,具体的说是一种批量服务器部件故障自动计算并预警的方法。
背景技术
随着市场对IT基础服务设施的需求不断增加,大量服务器部署使用,对于使用用户来说,如何整体监控设备运行情况,对需要关注的设备问题进行及时处理,非异常的信息进行低等级处理,对可能产生的批量故障进行提前预处理,这些工作如何能高效的自动完成同时减少运维的压力,是目前急需解决的问题。
发明内容
本发明针对目前需求以及现有技术发展的不足之处,提供一种批量服务器部件故障自动计算并预警的方法。
本发明所述一种批量服务器部件故障自动计算并预警的方法,解决上述技术问题采用的技术方案如下:所述批量服务器部件故障自动计算并预警的方法,通过监控服务器对批量运行的服务器设备进行自动状态记录和回馈统计,通过运行信息采集脚本实时收集服务器中关键部件的运行状态信息,对关键部件的报错信息进行过滤筛选,并汇总到监控服务器中,将这些信息划分通知和警告两个不同的故障紧急等级,对通知级别和警告级别的信息分别记录处理,对警告级别的故障及时通报处理。
优选的,通过运行信息采集脚本实时收集服务器中关键部件的运行状态信息是指,实时收集服务器中关键部件CPU、内存、硬盘、RAID卡的运行状态;通过cpu的寄存器状态位显示其目前cpu工作状态,通过内存的ECC芯片纠正并反馈目前内存运行的稳定状态,通过smart信息反馈硬盘运行情况,通过日志的一些错误记录实时反馈raid卡运行状态。
优选的,所述监控服务器对通知级别和警告级别的信息分别记录处理,以两种产生的异常记录分别做分子,服务器设备保有量做分母,计算出关键部件异常的比例,当通知级别和报警级别故障比例超过预定阀值时,触发报警邮件,通知相关技术人员进行分析判断是否存在批量故障。
本发明所述一种批量服务器部件故障自动计算并预警的方法与现有技术相比具有的有益效果是:本发明通过对批量运行的服务器设备进行自动状态记录和回馈统计,可以实时查看服务器中关键部件的运行状态,对部件的报错信息进行过滤筛选,并划分关注和警告两个不同的故障紧急等级,设置相应的通知阀值及警告阀值,实时统计是否达到预定阀值,并对需要预警情况及时发出预警信息,通知相关技术人员进行分析判断是否存在批量故障,避免后续批量问题集中爆发,便于大量服务器设备的整体运维监控和管理。
附图说明
附图1为所述批量服务器部件故障自动计算并预警的方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明所述一种批量服务器部件故障自动计算并预警的方法进一步详细说明。
本发明提供一种批量服务器部件故障自动计算并预警的方法,通过对批量运行的服务器设备进行自动状态记录和回馈统计,可以实时查看服务器中关键部件的运行状态,对服务器中关键部件的报错信息进行过滤筛选,并划分通知和警告两个不同的故障紧急等级,所有机器的这些信息都会汇总到综合分析的设备记录,系统会对通知级别和警告级别的信息分别记录处理,对警告级别的故障及时通报处理,通知相关技术人员进行分析判断是否存在批量故障,避免后续批量问题集中爆发,便于大量服务器设备的整体运维监控和管理。
实施例:
本实施例所述一种批量服务器部件故障自动计算并预警的方法,通过监控服务器对批量运行的服务器设备进行自动状态记录和回馈统计,通过运行信息采集脚本实时收集服务器中关键部件的运行状态信息,对关键部件的报错信息进行过滤筛选,并汇总到监控服务器中,将这些信息划分通知和警告两个不同的故障紧急等级,对通知级别和警告级别的信息分别记录处理,对警告级别的故障及时通报处理,避免后续批量问题集中爆发。
附图1为本实施例所述批量服务器部件故障自动计算并预警的方法的流程图,如附图1所示,服务器启动后,自动执行信息采集脚本,对服务器关键部件进行信息采集,并反馈给监控服务器;然后监控服务器进行数据对比,设定通知和警告阀值,并判断是否有警告信息反馈,若有则安排单点保修;并判断故障率是否超通知或警告阀值,若超过则安排批量异常保修;同时继续对服务器设备进行监控。
本实施例所述批量服务器部件故障自动计算并预警的方法,所述服务器关键部件包括CPU、内存、硬盘和RAID卡,相应的,通过运行信息采集脚本实时收集服务器中关键部件的运行状态信息,是指,通过cpu的寄存器状态位显示其目前cpu工作状态,通过内存的ECC芯片可以纠正并反馈目前内存运行的稳定状态,从而判断内存稳定性,硬盘可以通过smart信息反馈其运行情况,raid卡可以通过日志,其中的一些错误记录可以实时反馈raid卡运行状态。
通过使用指定的Linux系统下信息采集脚本(jiankong.sh脚本、crontab程序)完成CPU、内存、硬盘及RAID卡运行状态的搜集,可以每间隔一分钟时间自动收集一次。其中,jiankong.sh脚本:
#!/bin/bash
#getcpuinformation;
cd/usr/local/bin
./i2c-test-b4-s0x68-m1-rc16-d0x0>cpu.info---搜集cpu寄存器值
#getmeminformation;
/usr/bin/ipmitoolsdr>/linux/mem.info
mem="'/usr/bin/ipmitoolsdr|grepcorrectable1'"---可纠正的内存报错计数
mem1="'/usr/bin/ipmitoolsdr|grepuncorrectable1'"—不可纠正内存报错计数
#gethardiskinformation
disk="'smartctl-A/dev/sdh|grepCurrent_Pending_Sector'"--搜集硬盘坏道值;
#getraidcardinformation
arcconfsavesupportarchive
raid="'taildevice_log|grepmediumErrors'"---搜集raid卡故障信息;
crontab程序:
*/1****/linux/jiankong.sh
说明:crontab程序为定时执行,每1分钟就自动调用jiankong.sh程序一次。
本实施例所述批量服务器部件故障自动计算并预警的方法,对服务器中关键部件:CPU、内存、硬盘、RAID卡进行监控,每分钟进行一次状态搜集,搜集的信息分为通知和警告两个级别,通知级别指一些简单的知晓级别的信息,如内存的少量可纠正错误、硬盘的个别逻辑性错误、cpu的非关键性错误、raid卡的非关键报错;警告级别指重要的需要紧急处理的设备故障,如CPU的致命错误、内存的不可纠正ECC错误、硬盘的物理坏道、RAID卡的致命错误等。
本实施例所述批量服务器部件故障自动计算并预警的方法,所述监控服务器对通知级别和警告级别的信息分别记录处理,并以两种产生的异常记录分别做分子,服务器设备保有量做分母,计算出关键部件异常的比例,可以对通知级别阀值设置高一些(因为一般情况下,少量的通知信息不对设备稳定带来影响,只有太多频繁报错才会有影响),对报警级别阀值设置低一些,当通知级别和报警级别故障比例超过预定阀值时,触发报警邮件,通知相关技术人员进行分析判断是否存在批量故障,避免后续批量问题集中爆发。
通过编写的一个自动化脚本(数据比对判断部分脚本pingpan.sh),将收集到服务器关键部件报错信息预设阀值进行比较,自动汇总计算并进行预警;其中,以cpu故障评判为例,数据比对判断部分脚本pingpan.sh:
#!/bin/bash
while[true]
do
cat/cpu.info|grep-i"0043">>/var/log/cpu-error.log
if[&?-eq0]
then
mail-s"cpuerrordetectedonServer$HOSTNAME"admindomain.com</var/log/cpu-error.log
fi
sleep86400
cat/mem.info|grep-i"uncorrectable">>/var/log/mem-error.log
if[&?-eq0]
then
mail-s"memoryerrordetectedonServer$HOSTNAME"admindomain.com</var/log/mem-error.log
fi
sleep86400
cat/hardidk.info|grep-i"mediaerrors">>/var/log/hardisk-error.log
if[&?-eq0]
then
mail-s"hardiskerrordetectedonServer$HOSTNAME"admindomain.com</var/log/hardisk-error.log
fi
sleep86400
cat/raid.info|grep-i"error">>/var/log/raid-error.log
if[&?-eq0]
then
mail-s"raiderrordetectedonServer$HOSTNAME"admindomain.com</var/log/raid-error.log
fi
sleep86400
done.。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的权利要求书的且任何所属技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。
Claims (3)
1.一种批量服务器部件故障自动计算并预警的方法,其特征在于,通过监控服务器对批量运行的服务器设备进行自动状态记录和回馈统计,通过运行信息采集脚本实时收集服务器中关键部件的运行状态信息,对关键部件的报错信息进行过滤筛选,并汇总到监控服务器中,将这些信息划分通知和警告两个不同的故障紧急等级,对通知级别和警告级别的信息分别记录处理,对警告级别的故障及时通报处理。
2.根据权利要求1所述一种批量服务器部件故障自动计算并预警的方法,其特征在于,通过运行信息采集脚本实时收集服务器中关键部件的运行状态信息是指,实时收集服务器中关键部件CPU、内存、硬盘、RAID卡的运行状态;通过cpu的寄存器状态位显示其目前cpu工作状态,通过内存的ECC芯片纠正并反馈目前内存运行的稳定状态,通过smart信息反馈硬盘运行情况,通过日志的一些错误记录实时反馈raid卡运行状态。
3.根据权利要求2所述一种批量服务器部件故障自动计算并预警的方法,其特征在于,所述监控服务器对通知级别和警告级别的信息分别记录处理,以两种产生的异常记录分别做分子,服务器设备保有量做分母,计算出关键部件异常的比例,当通知级别和报警级别故障比例超过预定阀值时,触发报警邮件,通知相关技术人员进行分析判断是否存在批量故障。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510903877.6A CN105335262A (zh) | 2015-12-09 | 2015-12-09 | 一种批量服务器部件故障自动计算并预警的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510903877.6A CN105335262A (zh) | 2015-12-09 | 2015-12-09 | 一种批量服务器部件故障自动计算并预警的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105335262A true CN105335262A (zh) | 2016-02-17 |
Family
ID=55285817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510903877.6A Pending CN105335262A (zh) | 2015-12-09 | 2015-12-09 | 一种批量服务器部件故障自动计算并预警的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105335262A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106656620A (zh) * | 2016-12-30 | 2017-05-10 | 中国银联股份有限公司 | 网络设备监控处理方法及系统 |
CN108280019A (zh) * | 2018-01-08 | 2018-07-13 | 郑州云海信息技术有限公司 | 一种评估服务器健康状态的方法 |
CN108628231A (zh) * | 2018-07-05 | 2018-10-09 | 郑州云海信息技术有限公司 | 云数据中心中设备监控方法和装置 |
CN109002384A (zh) * | 2018-06-29 | 2018-12-14 | 郑州云海信息技术有限公司 | 一种服务器故障的报警方法、装置、设备及存储介质 |
CN109034423A (zh) * | 2018-08-29 | 2018-12-18 | 郑州云海信息技术有限公司 | 一种故障预警判定的方法、装置、设备及存储介质 |
CN109213659A (zh) * | 2018-11-01 | 2019-01-15 | 郑州云海信息技术有限公司 | 一种设备内存状态的监测方法、装置及存储介质 |
CN110198224A (zh) * | 2018-02-27 | 2019-09-03 | 贵州白山云科技股份有限公司 | 一种报警处理方法、装置及系统 |
CN110303524A (zh) * | 2019-06-06 | 2019-10-08 | 上海米开罗那机电技术有限公司 | 一种手套箱设备的预警方法及系统 |
CN110780646A (zh) * | 2019-09-21 | 2020-02-11 | 苏州浪潮智能科技有限公司 | 一种基于mes系统的内存质量预警方法 |
CN112052147A (zh) * | 2020-07-27 | 2020-12-08 | 网宿科技股份有限公司 | 监控方法、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050165698A1 (en) * | 2002-05-25 | 2005-07-28 | Cho Ku G. | User authentication method and system using user's e-mail address and hardware information |
CN102291257A (zh) * | 2011-07-27 | 2011-12-21 | 奇智软件(北京)有限公司 | 一种基于网络的终端资源管理方法 |
CN103117879A (zh) * | 2013-01-30 | 2013-05-22 | 昆明理工大学 | 一种计算机硬件运行参数网络监测系统 |
CN103905255A (zh) * | 2014-04-11 | 2014-07-02 | 国家电网公司 | 服务器内部硬件运行故障远程自动告警系统及方法 |
CN104484262A (zh) * | 2014-11-27 | 2015-04-01 | 国家电网公司 | It数据中心服务器系统自动化管理方法 |
-
2015
- 2015-12-09 CN CN201510903877.6A patent/CN105335262A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050165698A1 (en) * | 2002-05-25 | 2005-07-28 | Cho Ku G. | User authentication method and system using user's e-mail address and hardware information |
CN102291257A (zh) * | 2011-07-27 | 2011-12-21 | 奇智软件(北京)有限公司 | 一种基于网络的终端资源管理方法 |
CN103117879A (zh) * | 2013-01-30 | 2013-05-22 | 昆明理工大学 | 一种计算机硬件运行参数网络监测系统 |
CN103905255A (zh) * | 2014-04-11 | 2014-07-02 | 国家电网公司 | 服务器内部硬件运行故障远程自动告警系统及方法 |
CN104484262A (zh) * | 2014-11-27 | 2015-04-01 | 国家电网公司 | It数据中心服务器系统自动化管理方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106656620A (zh) * | 2016-12-30 | 2017-05-10 | 中国银联股份有限公司 | 网络设备监控处理方法及系统 |
CN108280019A (zh) * | 2018-01-08 | 2018-07-13 | 郑州云海信息技术有限公司 | 一种评估服务器健康状态的方法 |
CN110198224A (zh) * | 2018-02-27 | 2019-09-03 | 贵州白山云科技股份有限公司 | 一种报警处理方法、装置及系统 |
CN109002384A (zh) * | 2018-06-29 | 2018-12-14 | 郑州云海信息技术有限公司 | 一种服务器故障的报警方法、装置、设备及存储介质 |
CN108628231A (zh) * | 2018-07-05 | 2018-10-09 | 郑州云海信息技术有限公司 | 云数据中心中设备监控方法和装置 |
CN109034423A (zh) * | 2018-08-29 | 2018-12-18 | 郑州云海信息技术有限公司 | 一种故障预警判定的方法、装置、设备及存储介质 |
CN109213659A (zh) * | 2018-11-01 | 2019-01-15 | 郑州云海信息技术有限公司 | 一种设备内存状态的监测方法、装置及存储介质 |
CN110303524A (zh) * | 2019-06-06 | 2019-10-08 | 上海米开罗那机电技术有限公司 | 一种手套箱设备的预警方法及系统 |
CN110780646A (zh) * | 2019-09-21 | 2020-02-11 | 苏州浪潮智能科技有限公司 | 一种基于mes系统的内存质量预警方法 |
CN110780646B (zh) * | 2019-09-21 | 2021-11-26 | 苏州浪潮智能科技有限公司 | 一种基于mes系统的内存质量预警方法 |
CN112052147A (zh) * | 2020-07-27 | 2020-12-08 | 网宿科技股份有限公司 | 监控方法、电子设备及存储介质 |
CN112052147B (zh) * | 2020-07-27 | 2024-06-11 | 网宿科技股份有限公司 | 监控方法、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105335262A (zh) | 一种批量服务器部件故障自动计算并预警的方法 | |
CN109783262B (zh) | 故障数据处理方法、装置、服务器及计算机可读存储介质 | |
CN103455395A (zh) | 一种硬盘故障的检测方法及装置 | |
CN105117301A (zh) | 一种内存预警的方法及装置 | |
CN107066370A (zh) | 一种自动监控并收集故障硬盘日志的工具及方法 | |
WO2019196199A1 (zh) | 一种磁盘坏道的处理方法、装置及计算机存储介质 | |
CN109710501B (zh) | 一种服务器数据传输稳定性的检测方法和系统 | |
CN104574219A (zh) | 电网业务信息系统运行工况的监测预警方法及系统 | |
US11537501B2 (en) | Method and device for monitoring server based on recordings of data from sensors, and non-transitory storage medium | |
CN105607973B (zh) | 一种虚拟机系统中设备故障处理的方法、装置及系统 | |
CN106980562A (zh) | 一种硬盘监控方法及装置 | |
CN111176945A (zh) | 节点故障定位方法、装置、设备及计算机可读存储介质 | |
CN114924929B (zh) | 一种NVMe硬盘故障预警方法、系统和计算机设备 | |
CN111796959A (zh) | 宿主机容器自愈方法、装置及系统 | |
CN110687851A (zh) | 一种终端运行监控系统及方法 | |
CN110662024A (zh) | 基于多帧的视频质量诊断方法、装置及电子设备 | |
CN103763143A (zh) | 基于存储服务器的设备异常报警的方法及系统 | |
CN106789158A (zh) | 一种云服务保险定损方法和系统 | |
CN103049345A (zh) | 基于异步通信机制的磁盘状态变迁检测方法及装置 | |
US8949669B1 (en) | Error detection, correction and triage of a storage array errors | |
CN108899059B (zh) | 一种固态硬盘的检测方法和设备 | |
CN115794588A (zh) | 内存故障预测方法、装置、系统及监测服务器 | |
CN112084097B (zh) | 一种磁盘告警方法及装置 | |
CN103995759A (zh) | 基于核内外协同的高可用计算机系统故障处理方法及装置 | |
CN110601885A (zh) | 一种人工智能公有云异常指示报警系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160217 |
|
WD01 | Invention patent application deemed withdrawn after publication |