CN105141478A - 一种linux服务器sas卡硬盘状态的监控方法 - Google Patents

一种linux服务器sas卡硬盘状态的监控方法 Download PDF

Info

Publication number
CN105141478A
CN105141478A CN201510554496.1A CN201510554496A CN105141478A CN 105141478 A CN105141478 A CN 105141478A CN 201510554496 A CN201510554496 A CN 201510554496A CN 105141478 A CN105141478 A CN 105141478A
Authority
CN
China
Prior art keywords
disk
hard disk
linux server
sas card
online
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510554496.1A
Other languages
English (en)
Inventor
孙晓亮
任华进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201510554496.1A priority Critical patent/CN105141478A/zh
Publication of CN105141478A publication Critical patent/CN105141478A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Abstract

本发明公开一种linux服务器sas卡硬盘状态的监控方法,涉及硬盘监控技术,基于Shell脚本作为监控脚本,在内存中驻留磁盘状态监控器,按照设定的周期遍历所有磁盘,通过定期检索硬盘设备名,来判断硬盘是否掉线,通过扫描硬盘SMART参数关键项字符串,判断在线硬盘的健康状况。本发明实现了linux服务器下sas卡硬盘在线及健康状态的实时监控,实施时步骤简洁、不占用系统资源,只需运行脚本,无需安装第三方插件,无需修改系统参数,不影响生产环境,系统资源耗费低,非常方便实用。

Description

一种linux服务器sas卡硬盘状态的监控方法
技术领域
本发明涉及硬盘监控技术,具体的说是一种linux服务器sas卡硬盘状态的监控方法。
背景技术
随着云计算技术的兴起,大数据服务器开始应用到互联网等行业客户中,这些大数据服务器配置大容量多数量SATA硬盘,通常情况下配置SAS卡。而SAS卡本身不具备告警功能,即SATA硬盘出现掉线或故障时,由于SATA硬盘协议原因,硬盘背板指示灯不亮灯不报警。通过机房巡检难以发现硬盘故障,只有业务读写文件异常时才能发现,给运维管理增加了难度。目前SAS卡管理软件具备阵列管理功能,但硬盘状态监控及告警手段存在不足。
发明内容
本发明针对目前需求以及现有技术发展的不足之处,提供一种linux服务器sas卡硬盘状态的监控方法。
本发明所述一种linux服务器sas卡硬盘状态的监控方法,解决上述技术问题采用的技术方案如下:所述linux服务器sas卡硬盘状态的监控方法,基于Shell脚本作为监控脚本,在内存中驻留磁盘状态监控器,按照设定的周期遍历所有磁盘,通过定期检索硬盘设备名,来判断硬盘是否掉线,通过扫描硬盘SMART参数关键项字符串,判断在线硬盘的健康状况。
优选的,先获取所有硬盘在线情况下完整的磁盘设备列表,按序遍历磁盘设备列表中的硬盘,同时在当前系统的磁盘设备中检索该磁盘,如果检索不到表明磁盘离线,否则,磁盘在线并检查磁盘健康状况。
优选的,当出现硬盘掉线或者SMART参数异常时,将会触发告警机制,并邮件通知管理员。
本发明所述一种linux服务器sas卡硬盘状态的监控方法与现有技术相比具有的有益效果是:本发明通过shell脚本程序,能够自动分析在线硬盘的健康状态,实时发现硬盘的离线及健康状态,实现了linux服务器下sas卡硬盘在线及健康状态的实时监控,当硬盘出现异常时,运维人员能够第一时间发现处理;实施时步骤简洁、不占用系统资源,只需运行脚本,无需安装第三方插件,无需修改系统参数,不影响生产环境,系统资源耗费低,非常方便实用。
附图说明
附图1为所述linux服务器sas卡硬盘状态的监控方法的实施流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明所述一种linux服务器sas卡硬盘状态的监控方法进一步详细说明。
本发明所述linux服务器sas卡硬盘状态的监控方法,是基于Shell脚本的linux服务器sas卡硬盘状态的监控方法,提出的监控脚本,将会在内存中驻留磁盘状态监控器,能够按照设定的周期遍历所有磁盘,及时发现掉线的硬盘。
实施例:
本实施例所述一种linux服务器sas卡硬盘状态的监控方法,基于Shell脚本作为监控脚本,在内存中驻留磁盘状态监控器,通过定期检索硬盘设备名,来判断硬盘是否掉线,通过扫描硬盘SMART参数关键项字符串,判断在线硬盘的健康状况;当出现硬盘掉线或者SMART参数异常时,将会触发告警机制,并邮件通知管理员。
本实施例所述监控方法,先获取所有硬盘在线情况下完整的磁盘设备列表,按序遍历磁盘设备列表中的硬盘,同时在当前系统的磁盘设备中检索该磁盘,如果检索不到表明磁盘离线,否则,磁盘在线并检查磁盘健康状况。
本实施例所述监控方法中,所基于的SHELL脚本文件DiskMonitor.sh,具体内容如下:#!/bin/bash
ls|grepinitial.disklist>/dev/null
if[$?-ne0]
then
lsscsi|grepdisk|awk‘{print$6}’>initial.disklist
fi
whiletrue
do
fordiskin`catinitial.disklist`
do
ls/dev/sd*|grepdisk>/dev/null
if[$?-eq0]
then
smartctl-H$disk|grepPASSED>/dev/null
if[$?-ne0]
then
echo"$diskon$HOSTNAMEisonline,however,thestatusof$diskneedspayattention."|mail-s"Diskwarningdetectedon$HOSTNAME"adminxxx.com
fi
else
echo"$diskon$HOSTNAMEisoffline,pleasepayattentionimmediately"
fi
done
sleep43200
done。
本实施例所述linux服务器sas卡硬盘状态的监控方法,实施步骤简洁,无需修改系统参数,不影响生产环境。该监控方法的具体实施流程如附图1所示:
1)对部署sas卡硬盘状态监控的linux服务器拷贝DiskMonitor.sh脚本,并拷贝到指定目录,如/opt等目录;
2)赋予DiskMonitor.sh脚本可执行权限:#chmod+xDiskMonitor.sh;
3)执行DiskMonitor.sh脚本程序:#./DiskMonitor.sh&;
i.脚本程序首次运行,会生成所有硬盘在线情况下完整的磁盘设备列表文件initial.disklist,里面记录了需要检索的磁盘设备名;
ii.本程序定义了硬盘扫描周期为12h,可自定义扫描时间;扫描时间到达时时,程序开始在/dev目录中检索磁盘设备名;脚本程序按initial.disklist里磁盘名的顺序开始遍历,当某磁盘名在/dev目录能够检索到时,脚本程序判断此硬盘在线,并执行smartctl命令查看硬盘健康状况,扫描特征字符串PASSED,如果扫描到,则判断硬盘状态良好,反之需要管理员关注。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的权利要求书的且任何所属技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。

Claims (3)

1.一种linux服务器sas卡硬盘状态的监控方法,其特征在于,基于Shell脚本作为监控脚本,在内存中驻留磁盘状态监控器,按照设定的周期遍历所有磁盘,通过定期检索硬盘设备名,来判断硬盘是否掉线,通过扫描硬盘SMART参数关键项字符串,判断在线硬盘的健康状况。
2.根据权利要求1所述一种linux服务器sas卡硬盘状态的监控方法,其特征在于,先获取所有硬盘在线情况下完整的磁盘设备列表,按序遍历磁盘设备列表中的硬盘,同时在当前系统的磁盘设备中检索该磁盘,如果检索不到表明磁盘离线,否则,磁盘在线并检查磁盘健康状况。
3.根据权利要求2所述一种linux服务器sas卡硬盘状态的监控方法,其特征在于,当出现硬盘掉线或者SMART参数异常时,将会触发告警机制,并邮件通知管理员。
CN201510554496.1A 2015-09-02 2015-09-02 一种linux服务器sas卡硬盘状态的监控方法 Pending CN105141478A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510554496.1A CN105141478A (zh) 2015-09-02 2015-09-02 一种linux服务器sas卡硬盘状态的监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510554496.1A CN105141478A (zh) 2015-09-02 2015-09-02 一种linux服务器sas卡硬盘状态的监控方法

Publications (1)

Publication Number Publication Date
CN105141478A true CN105141478A (zh) 2015-12-09

Family

ID=54726695

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510554496.1A Pending CN105141478A (zh) 2015-09-02 2015-09-02 一种linux服务器sas卡硬盘状态的监控方法

Country Status (1)

Country Link
CN (1) CN105141478A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528269A (zh) * 2016-01-29 2016-04-27 浪潮电子信息产业股份有限公司 一种基于安腾平台检测硬盘乱序的设计方法
CN105740110A (zh) * 2016-01-29 2016-07-06 浪潮电子信息产业股份有限公司 一种linux系统下硬盘smart信息的检测方法
CN106021065A (zh) * 2016-05-19 2016-10-12 浪潮电子信息产业股份有限公司 一种在linux下自动检测raid下磁盘坏道信息的方法
CN106649011A (zh) * 2016-12-02 2017-05-10 曙光信息产业(北京)有限公司 一种服务器设备的检测方法和装置
CN107688523A (zh) * 2017-09-07 2018-02-13 郑州云海信息技术有限公司 一种智能监控方法及装置
CN109460194A (zh) * 2018-11-16 2019-03-12 郑州云海信息技术有限公司 一种存储阵列监控系统及方法
CN111104286A (zh) * 2019-12-19 2020-05-05 江苏芯盛智能科技有限公司 功耗管理方法、服务器和计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102279775A (zh) * 2011-08-19 2011-12-14 西安交通大学 一种Linux系统下的硬盘故障处理方法
CN103970642A (zh) * 2014-05-21 2014-08-06 浪潮电子信息产业股份有限公司 一种Linux服务器硬盘在线状态的监控方法
US20150142752A1 (en) * 2013-11-15 2015-05-21 International Business Machines Corporation Priority based reliability mechanism for archived data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102279775A (zh) * 2011-08-19 2011-12-14 西安交通大学 一种Linux系统下的硬盘故障处理方法
US20150142752A1 (en) * 2013-11-15 2015-05-21 International Business Machines Corporation Priority based reliability mechanism for archived data
CN103970642A (zh) * 2014-05-21 2014-08-06 浪潮电子信息产业股份有限公司 一种Linux服务器硬盘在线状态的监控方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528269A (zh) * 2016-01-29 2016-04-27 浪潮电子信息产业股份有限公司 一种基于安腾平台检测硬盘乱序的设计方法
CN105740110A (zh) * 2016-01-29 2016-07-06 浪潮电子信息产业股份有限公司 一种linux系统下硬盘smart信息的检测方法
CN106021065A (zh) * 2016-05-19 2016-10-12 浪潮电子信息产业股份有限公司 一种在linux下自动检测raid下磁盘坏道信息的方法
CN106649011A (zh) * 2016-12-02 2017-05-10 曙光信息产业(北京)有限公司 一种服务器设备的检测方法和装置
CN107688523A (zh) * 2017-09-07 2018-02-13 郑州云海信息技术有限公司 一种智能监控方法及装置
CN109460194A (zh) * 2018-11-16 2019-03-12 郑州云海信息技术有限公司 一种存储阵列监控系统及方法
CN111104286A (zh) * 2019-12-19 2020-05-05 江苏芯盛智能科技有限公司 功耗管理方法、服务器和计算机可读存储介质
CN111104286B (zh) * 2019-12-19 2022-10-14 江苏芯盛智能科技有限公司 功耗管理方法、服务器和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN105141478A (zh) 一种linux服务器sas卡硬盘状态的监控方法
CN108092836A (zh) 一种服务器的监控方法及装置
CN107707415B (zh) 一种基于SaltStack的服务器配置自动监控与告警方法
CN106649040A (zh) 一种Weblogic中间件性能自动监控方法及装置
CN106383763B (zh) 数据中心智能故障检测报警系统
US20200092180A1 (en) Methods and systems for microservices observability automation
CN104360922A (zh) 一种基于ipmitool的自动监测BMC工作状态的方法
CN109460343A (zh) 基于日志的系统异常监控方法、装置、设备及存储介质
CN111522703A (zh) 监控访问请求的方法、设备和计算机程序产品
US11196613B2 (en) Techniques for correlating service events in computer network diagnostics
CN111143167B (zh) 用于多平台的告警归并方法及装置、设备、存储介质
CN104574219A (zh) 电网业务信息系统运行工况的监测预警方法及系统
US10664335B2 (en) System and method for maintaining the health of a machine
CN104751286A (zh) 煤矿安全监控系统数据的自动化检查分析方法及系统
CN105637488A (zh) 追踪源代码用于末端用户监控
CN103916466A (zh) 一种农业物联网应用服务监测平台
CN102271054A (zh) 用于网络软件部署评估的书签和性能历史
CN104104666B (zh) 一种探测云端服务异常的方法和装置
CN106649028A (zh) 一种自动化Linux系统维护任务的方法
CN111815881B (zh) 一种智慧多功能杆安全管理及追溯定位方法及系统
CN111031050B (zh) 用于用电信息采集系统的监测方法及装置
CN103795585A (zh) 基于黑名单的网站监控方法与系统
CN104484753A (zh) 一种服务器资产信息追溯方法
US10353365B2 (en) Electric power facilities identification number generation apparatus and method
CN112449019A (zh) 一种ims智能物联网运维管理平台

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151209

WD01 Invention patent application deemed withdrawn after publication