CN106250258A - 一种磁盘故障定位方法及装置 - Google Patents

一种磁盘故障定位方法及装置 Download PDF

Info

Publication number
CN106250258A
CN106250258A CN201610620055.1A CN201610620055A CN106250258A CN 106250258 A CN106250258 A CN 106250258A CN 201610620055 A CN201610620055 A CN 201610620055A CN 106250258 A CN106250258 A CN 106250258A
Authority
CN
China
Prior art keywords
disk
fault
error
failure
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610620055.1A
Other languages
English (en)
Other versions
CN106250258B (zh
Inventor
熊亚军
朱品燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING WISDOM TECHNOLOGY Co Ltd
Original Assignee
BEIJING WISDOM TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING WISDOM TECHNOLOGY Co Ltd filed Critical BEIJING WISDOM TECHNOLOGY Co Ltd
Priority to CN201610620055.1A priority Critical patent/CN106250258B/zh
Publication of CN106250258A publication Critical patent/CN106250258A/zh
Application granted granted Critical
Publication of CN106250258B publication Critical patent/CN106250258B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开一种磁盘故障定位方法及装置,能够适配所有x86机型和主流磁盘,以及所有linux操作系统版本,提升磁盘故障识别的准确度,并能够对故障原因进行分析。所述方法包括:S1、收集系统日志中关于磁盘报错的信息和磁盘的smart信息;S2、根据所述关于磁盘报错的信息判断磁盘是否存在故障,并利用厂商工具判断磁盘是否存在故障;S3、若根据所述关于磁盘报错的信息确定磁盘不存在故障,或者利用厂商工具确定磁盘不存在故障,则根据所述磁盘的smart信息判断磁盘是否存在故障,若存在故障,则确定出磁盘故障类型和故障原因。

Description

一种磁盘故障定位方法及装置
技术领域
本发明涉及磁盘故障检测技术领域,具体涉及一种磁盘故障定位方法及装置。
背景技术
绝大部分IT企业对于服务器设备的磁盘故障获取方法是通过厂商提供的工具,以及简单的syslog日志分析获取。大部分厂商工具通过自有协议实现,为了产品的通用性隐藏或者屏蔽了部分磁盘故障检测功能,导致只能采集到部分故障类型,而用户无法对这些故障类型进行分析,只能通过厂商的原厂分析才能从故障中找到自身使用的问题,对于改善IT系统的稳定性存在严重的滞后性。而且,基于厂商工具需要适配不同类型的raid,不同型号磁盘以及不同品牌的机型,对于磁盘故障通常需要大量工具集成,不但适配性差,而且获取的故障信息格式不统一,还需要第二次的事后分析才能产生价值。而基于简单的syslog日志分析只能判断磁盘暂时不可读写,不能确定是否真正故障,即使故障也不能分析出原因,导致不能通过故障信息分析来完善现有IT系统。
另外,通过厂商工具或者syslog工具监控磁盘故障,由于环境或者使用上的差异会存在一定程度的误报,通过和国际磁盘厂商联合分析,有接近20%的磁盘会假故障,因此准确率只有80%。
发明内容
有鉴于此,本发明提供一种磁盘故障定位方法及装置,能够适配所有x86机型和主流磁盘,以及所有linux操作系统版本,提升磁盘故障识别的准确度,并能够对故障原因进行分析。
一方面,本发明实施例提出一种磁盘故障定位方法,包括:
S1、收集系统日志中关于磁盘报错的信息和磁盘的smart信息;
S2、根据所述关于磁盘报错的信息判断磁盘是否存在故障,并利用厂商工具判断磁盘是否存在故障;
S3、若根据所述关于磁盘报错的信息确定磁盘不存在故障,或者利用厂商工具确定磁盘不存在故障,则根据所述磁盘的smart信息判断磁盘是否存在故障,若存在故障,则确定出磁盘故障类型和故障原因。
另一方面,本发明实施例提出一种磁盘故障定位装置,包括:
收集单元,用于收集系统日志中关于磁盘报错的信息和磁盘的smart信息;
判断单元,用于根据所述关于磁盘报错的信息判断磁盘是否存在故障,并利用厂商工具判断磁盘是否存在故障;
确定单元,用于若根据所述关于磁盘报错的信息确定磁盘不存在故障,或者利用厂商工具确定磁盘不存在故障,则根据所述磁盘的smart信息判断磁盘是否存在故障,若存在故障,则确定出磁盘故障类型和故障原因。
本发明实施例所述的磁盘故障定位方法及装置,将syslog日志分析以及厂商工具分析结合起来,在syslog日志分析以及厂商工具分析的基础上借助于磁盘的smart信息来分析磁盘是否存在故障,并在存在故障时,确定出磁盘故障类型和故障原因,相较于仅利用系统日志中关于磁盘报错的信息分析磁盘是否存在故障的syslog日志分析,以及厂商工具分析,本发明能够提升磁盘故障识别的准确度,将故障监控准确率从80%提升到100%,而且本发明只需选择通用的厂商工具,不需要单独适配不同品牌机型和磁盘,适配度高,兼容性强,方便使用,能够适配所有x86机型和主流磁盘,以及所有linux操作系统版本,另外,本发明还能够对故障原因进行分析,便于对磁盘故障采取安全措施。
附图说明
图1为本发明磁盘故障定位方法一实施例的流程示意图;
图2为本发明磁盘故障定位装置一实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参看图1,本实施例公开一种磁盘故障定位方法,包括:
S1、收集系统日志中关于磁盘报错的信息和磁盘的smart信息;
S2、根据所述关于磁盘报错的信息判断磁盘是否存在故障,并利用厂商工具判断磁盘是否存在故障;
S3、若根据所述关于磁盘报错的信息确定磁盘不存在故障,或者利用厂商工具确定磁盘不存在故障,则根据所述磁盘的smart信息判断磁盘是否存在故障,若存在故障,则确定出磁盘故障类型和故障原因。
本发明实施例所述的磁盘故障定位方法,将syslog日志分析以及厂商工具分析结合起来,在syslog日志分析以及厂商工具分析的基础上借助于磁盘的smart信息来分析磁盘是否存在故障,并在存在故障时,确定出磁盘故障类型和故障原因,相较于仅利用系统日志中关于磁盘报错的信息分析磁盘是否存在故障的syslog日志分析,以及厂商工具分析,本发明能够提升磁盘故障识别的准确度,将故障监控准确率从80%提升到100%,而且本发明只需选择通用的厂商工具,不需要单独适配不同品牌机型和磁盘,适配度高,兼容性强,方便使用,能够适配所有x86机型和主流磁盘,以及所有linux操作系统版本,另外,本发明还能够对故障原因进行分析,便于对磁盘故障采取安全措施。
可选地,在本发明磁盘故障定位方法的另一实施例中,所述根据所述关于磁盘报错的信息判断磁盘是否存在故障,包括:
从所述关于磁盘报错的信息中提取关键字,判断提取到的关键字是否在预设的关键字列表中存在;
若提取到的关键字在所述关键字列表中存在,则确定磁盘存在故障,否则,则确定磁盘不存在故障。
本发明实施例中,预设的关键字列表中包括如下关键字:I/O error,dev、I/Oerror on device、Test Unit Ready、Unhandled sense code、Unhandled error code、Write error、Unrecovered read error、Medium.*Error、Hardware.*Error、EXT.-fserror,其中“*”为通配符。
可选地,在本发明磁盘故障定位方法的另一实施例中,所述根据所述磁盘的smart信息判断磁盘是否存在故障,包括:
从所述磁盘的smart信息中获取Current_Pending_Sector属性,判断所述Current_Pending_Sector属性的值是否大于4096,若大于4096,则确定磁盘存在故障,否则,则确定磁盘不存在故障。
可选地,在本发明磁盘故障定位方法的另一实施例中,还包括:
若根据所述关于磁盘报错的信息确定磁盘存在故障,且利用厂商工具确定磁盘存在故障,则确定出磁盘故障类型和故障原因。
本发明实施例中,若根据所述关于磁盘报错的信息确定磁盘存在故障,且利用厂商工具确定磁盘存在故障,则说明磁盘存在故障的概率较高,认为磁盘存在故障,此时不需要再根据磁盘的smart信息进一步进行判断,以提升故障分析效率。
可选地,在本发明磁盘故障定位方法的另一实施例中,所述确定出磁盘故障类型和故障原因,包括:
从所述磁盘的smart信息中提取报错信息,查找预设的故障映射表,得到该报错信息对应的故障类型和故障原因,并将所述故障类型作为磁盘故障类型,将所述故障原因作为磁盘故障原因。
如下表所示为故障映射表。在确定磁盘故障类型和故障原因时,可以根据从所述磁盘的smart信息中提取的报错信息,查找该表确定出故障类型和故障原因。比如,若报错信息(即下表中的英文名称列)为RaidVdNoBBUCacheErr,则确定出磁盘故障位置为RAID控制器,故障类型为无电池,写缓存异常,故障原因(即下表中的故障说明列)为电池异常情况下导致缓存设置异常,会导致性能异常。根据该表可知,本发明可以识别出25种磁盘故障类型,从而相较于只能识别出5种磁盘故障类型的现有技术,本发明实施例能够增加磁盘故障类型识别种类。
可选地,在本发明磁盘故障定位方法的另一实施例中,还包括:
若根据所述磁盘的smart信息判断磁盘不存在故障,则确定磁盘为假故障。
参看图2,本实施例公开一种磁盘故障定位装置,包括:
收集单元1,用于收集系统日志中关于磁盘报错的信息和磁盘的smart信息;
判断单元2,用于根据所述关于磁盘报错的信息判断磁盘是否存在故障,并利用厂商工具判断磁盘是否存在故障;
确定单元3,用于若根据所述关于磁盘报错的信息确定磁盘不存在故障,或者利用厂商工具确定磁盘不存在故障,则根据所述磁盘的smart信息判断磁盘是否存在故障,若存在故障,则确定出磁盘故障类型和故障原因。
本发明实施例所述的磁盘故障定位装置,将syslog日志分析以及厂商工具分析结合起来,在syslog日志分析以及厂商工具分析的基础上借助于磁盘的smart信息来分析磁盘是否存在故障,并在存在故障时,确定出磁盘故障类型和故障原因,相较于仅利用系统日志中关于磁盘报错的信息分析磁盘是否存在故障的syslog日志分析,以及厂商工具分析,本发明能够提升磁盘故障识别的准确度,将故障监控准确率从80%提升到100%,而且本发明只需选择通用的厂商工具,不需要单独适配不同品牌机型和磁盘,适配度高,兼容性强,方便使用,能够适配所有x86机型和主流磁盘,以及所有linux操作系统版本,另外,本发明还能够对故障原因进行分析,便于对磁盘故障采取安全措施。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (7)

1.一种磁盘故障定位方法,其特征在于,包括:
S1、收集系统日志中关于磁盘报错的信息和磁盘的smart信息;
S2、根据所述关于磁盘报错的信息判断磁盘是否存在故障,并利用厂商工具判断磁盘是否存在故障;
S3、若根据所述关于磁盘报错的信息确定磁盘不存在故障,或者利用厂商工具确定磁盘不存在故障,则根据所述磁盘的smart信息判断磁盘是否存在故障,若存在故障,则确定出磁盘故障类型和故障原因。
2.根据权利要求1所述的方法,其特征在于,所述根据所述关于磁盘报错的信息判断磁盘是否存在故障,包括:
从所述关于磁盘报错的信息中提取关键字,判断提取到的关键字是否在预设的关键字列表中存在;
若提取到的关键字在所述关键字列表中存在,则确定磁盘存在故障,否则,则确定磁盘不存在故障。
3.根据权利要求2所述的方法,其特征在于,所述根据所述磁盘的smart信息判断磁盘是否存在故障,包括:
从所述磁盘的smart信息中获取Current_Pending_Sector属性,判断所述Current_Pending_Sector属性的值是否大于4096,若大于4096,则确定磁盘存在故障,否则,则确定磁盘不存在故障。
4.根据权利要求1所述的方法,其特征在于,还包括:
若根据所述关于磁盘报错的信息确定磁盘存在故障,且利用厂商工具确定磁盘存在故障,则确定出磁盘故障类型和故障原因。
5.根据权利要求1或4所述的方法,其特征在于,所述确定出磁盘故障类型和故障原因,包括:
从所述磁盘的smart信息中提取报错信息,查找预设的故障映射表,得到该报错信息对应的故障类型和故障原因,并将所述故障类型作为磁盘故障类型,将所述故障原因作为磁盘故障原因。
6.根据权利要求1所述的方法,其特征在于,还包括:
若根据所述磁盘的smart信息判断磁盘不存在故障,则确定磁盘为假故障。
7.一种磁盘故障定位装置,其特征在于,包括:
收集单元,用于收集系统日志中关于磁盘报错的信息和磁盘的smart信息;
判断单元,用于根据所述关于磁盘报错的信息判断磁盘是否存在故障,并利用厂商工具判断磁盘是否存在故障;
确定单元,用于若根据所述关于磁盘报错的信息确定磁盘不存在故障,或者利用厂商工具确定磁盘不存在故障,则根据所述磁盘的smart信息判断磁盘是否存在故障,若存在故障,则确定出磁盘故障类型和故障原因。
CN201610620055.1A 2016-07-29 2016-07-29 一种磁盘故障定位方法及装置 Active CN106250258B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610620055.1A CN106250258B (zh) 2016-07-29 2016-07-29 一种磁盘故障定位方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610620055.1A CN106250258B (zh) 2016-07-29 2016-07-29 一种磁盘故障定位方法及装置

Publications (2)

Publication Number Publication Date
CN106250258A true CN106250258A (zh) 2016-12-21
CN106250258B CN106250258B (zh) 2019-03-29

Family

ID=57606156

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610620055.1A Active CN106250258B (zh) 2016-07-29 2016-07-29 一种磁盘故障定位方法及装置

Country Status (1)

Country Link
CN (1) CN106250258B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886471A (zh) * 2017-02-22 2017-06-23 郑州云海信息技术有限公司 一种基于linux中磁盘的读写故障检测方法及系统
CN107301109A (zh) * 2017-06-23 2017-10-27 郑州云海信息技术有限公司 一种硬盘质量筛选方法及装置
CN107807862A (zh) * 2017-09-29 2018-03-16 曙光信息产业(北京)有限公司 检测硬盘故障点的方法、装置及服务器
CN107918573A (zh) * 2017-11-10 2018-04-17 郑州云海信息技术有限公司 一种Linux kernel日志中SAS卡故障信息的自动分析系统
CN108897657A (zh) * 2018-05-31 2018-11-27 郑州云海信息技术有限公司 一种面向ssd仿真平台错误注入方法及相关装置
CN109344983A (zh) * 2018-10-09 2019-02-15 珠海格力电器股份有限公司 故障检测方法、装置及计算机可读存储介质
CN109539473A (zh) * 2018-10-15 2019-03-29 平安科技(深圳)有限公司 空调系统的故障类型确定方法、电子设备
CN109684141A (zh) * 2018-12-19 2019-04-26 郑州云海信息技术有限公司 一种磁盘故障诊断方法、装置、终端及可读存储介质
CN111026591A (zh) * 2019-11-29 2020-04-17 北京浪潮数据技术有限公司 一种后端sas的故障定位方法、系统及相关装置
CN112069034A (zh) * 2020-09-22 2020-12-11 深圳市欢太科技有限公司 快应用的异常处理方法、装置、电子设备以及存储介质
CN112346932A (zh) * 2020-11-05 2021-02-09 中国建设银行股份有限公司 隐性坏盘的定位方法、装置、电子设备及计算机存储介质
CN113127304A (zh) * 2021-04-16 2021-07-16 山东英信计算机技术有限公司 一种检测磁盘损坏的方法、系统及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050262385A1 (en) * 2004-05-06 2005-11-24 Mcneill Andrew B Jr Low cost raid with seamless disk failure recovery
CN103197995A (zh) * 2012-01-04 2013-07-10 百度在线网络技术(北京)有限公司 硬盘故障检测方法及装置
CN103207820A (zh) * 2013-02-05 2013-07-17 北京百度网讯科技有限公司 基于raid卡日志的硬盘的故障定位方法及装置
CN105224888A (zh) * 2015-09-29 2016-01-06 上海爱数软件有限公司 一种基于安全预警技术的磁盘阵列数据保护系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050262385A1 (en) * 2004-05-06 2005-11-24 Mcneill Andrew B Jr Low cost raid with seamless disk failure recovery
CN103197995A (zh) * 2012-01-04 2013-07-10 百度在线网络技术(北京)有限公司 硬盘故障检测方法及装置
CN103207820A (zh) * 2013-02-05 2013-07-17 北京百度网讯科技有限公司 基于raid卡日志的硬盘的故障定位方法及装置
CN105224888A (zh) * 2015-09-29 2016-01-06 上海爱数软件有限公司 一种基于安全预警技术的磁盘阵列数据保护系统

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886471A (zh) * 2017-02-22 2017-06-23 郑州云海信息技术有限公司 一种基于linux中磁盘的读写故障检测方法及系统
CN107301109B (zh) * 2017-06-23 2020-08-21 苏州浪潮智能科技有限公司 一种硬盘质量筛选方法及装置
CN107301109A (zh) * 2017-06-23 2017-10-27 郑州云海信息技术有限公司 一种硬盘质量筛选方法及装置
CN107807862A (zh) * 2017-09-29 2018-03-16 曙光信息产业(北京)有限公司 检测硬盘故障点的方法、装置及服务器
CN107918573A (zh) * 2017-11-10 2018-04-17 郑州云海信息技术有限公司 一种Linux kernel日志中SAS卡故障信息的自动分析系统
CN108897657A (zh) * 2018-05-31 2018-11-27 郑州云海信息技术有限公司 一种面向ssd仿真平台错误注入方法及相关装置
CN108897657B (zh) * 2018-05-31 2022-04-29 郑州云海信息技术有限公司 一种面向ssd仿真平台错误注入方法及相关装置
CN109344983A (zh) * 2018-10-09 2019-02-15 珠海格力电器股份有限公司 故障检测方法、装置及计算机可读存储介质
CN109539473A (zh) * 2018-10-15 2019-03-29 平安科技(深圳)有限公司 空调系统的故障类型确定方法、电子设备
CN109539473B (zh) * 2018-10-15 2021-09-28 平安科技(深圳)有限公司 空调系统的故障类型确定方法、电子设备
CN109684141A (zh) * 2018-12-19 2019-04-26 郑州云海信息技术有限公司 一种磁盘故障诊断方法、装置、终端及可读存储介质
CN111026591A (zh) * 2019-11-29 2020-04-17 北京浪潮数据技术有限公司 一种后端sas的故障定位方法、系统及相关装置
CN112069034A (zh) * 2020-09-22 2020-12-11 深圳市欢太科技有限公司 快应用的异常处理方法、装置、电子设备以及存储介质
CN112346932A (zh) * 2020-11-05 2021-02-09 中国建设银行股份有限公司 隐性坏盘的定位方法、装置、电子设备及计算机存储介质
CN113127304A (zh) * 2021-04-16 2021-07-16 山东英信计算机技术有限公司 一种检测磁盘损坏的方法、系统及存储介质

Also Published As

Publication number Publication date
CN106250258B (zh) 2019-03-29

Similar Documents

Publication Publication Date Title
CN106250258A (zh) 一种磁盘故障定位方法及装置
CN104756106B (zh) 表征数据存储系统中的数据源
CN101201786B (zh) 一种故障日志监控方法及装置
CN110928718A (zh) 一种基于关联分析的异常处理方法、系统、终端及介质
EP2141595B1 (en) System and method for detecting combinations of performance indicators associated with a root cause
AU2019275633B2 (en) System and method of automated fault correction in a network environment
CN111782484B (zh) 一种异常检测方法及装置
CN110333995A (zh) 对工业设备运行状态进行监测的方法及装置
CN101188523A (zh) 告警相关性规则的生成方法及生成系统
CN114844797A (zh) 调用链日志与监控日志关联方法及微服务异常检测方法
CN113630419A (zh) 一种基于api流量的数据分类分级及数据安全监测方法及系统
KR101444250B1 (ko) 개인정보 접근감시 시스템 및 그 방법
CN114595765A (zh) 数据处理方法、装置、电子设备及存储介质
CN112068979B (zh) 一种业务故障确定方法及装置
CA3141565A1 (en) Method and system for automatically monitoring business systems
US9378082B1 (en) Diagnosis of storage system component issues via data analytics
CN105678557A (zh) 模型生成方法及装置、服务质量的评估方法及装置
CN107807862A (zh) 检测硬盘故障点的方法、装置及服务器
CN110430217A (zh) 基于信息系统分类安全威胁的检测方法、装置和计算机可读存储介质
CN111309584A (zh) 数据处理方法、装置、电子设备及存储介质
CN112865860B (zh) 一种万兆无源光网络bob设备的校准方法及装置
CN115567366A (zh) 网络故障影响的分析方法、装置、存储介质及电子设备
Huang et al. Achieving scalable automated diagnosis of distributed systems performance problems
CN110187997A (zh) 一种磁盘异常监测方法、装置、设备及介质
CN114756660B (zh) 自然灾害事件的抽取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant