CN107807862A - 检测硬盘故障点的方法、装置及服务器 - Google Patents

检测硬盘故障点的方法、装置及服务器 Download PDF

Info

Publication number
CN107807862A
CN107807862A CN201710909445.5A CN201710909445A CN107807862A CN 107807862 A CN107807862 A CN 107807862A CN 201710909445 A CN201710909445 A CN 201710909445A CN 107807862 A CN107807862 A CN 107807862A
Authority
CN
China
Prior art keywords
hard disk
link
point
failure
smart information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710909445.5A
Other languages
English (en)
Inventor
曹瑞
张迎华
田利新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Beijing Co Ltd
Original Assignee
Dawning Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN201710909445.5A priority Critical patent/CN107807862A/zh
Publication of CN107807862A publication Critical patent/CN107807862A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种检测硬盘故障点的方法、装置及服务器。所述方法包括:获取硬盘SMART信息;根据所述SMART信息中指示故障信息的指标的值判断硬盘故障点。本发明能够根据硬盘故障指标及其阈值快速判断出硬盘故障点,提高硬盘故障分析的效率。

Description

检测硬盘故障点的方法、装置及服务器
技术领域
本发明涉及计算机技术领域,尤其涉及一种检测硬盘故障点的方法、装置及服务器。
背景技术
在服务器的使用中,由于硬盘使用量巨大(通常1台服务器需要配多块硬盘),其故障量也十分巨大。为了进一步降低硬盘故障率,针对故障硬盘进行故障分析是十分必要的,但是由于硬盘可观的故障量,使得故障分析起来具有较大的难度。
现有的检测硬盘故障的方法主要是基于硬盘SMART(Self-Monitoring Analysisand Reporting Technology,自我监测、分析及报告技术)自检技术,通过针对硬盘的长短测试对硬盘的故障进行判断。但是该方法工作效率比较低,一块4T硬盘的长检测就需要7~8个小时的时间,并且根据检测结果只能判定硬盘是否存在坏道,检测不够全面。
发明内容
本发明提供的检测硬盘故障点的方法、装置及服务器,能够快速判断出硬盘故障点,提高硬盘故障分析效率。
第一方面,本发明提供一种检测硬盘故障点的方法,所述方法包括:
获取硬盘SMART信息;
根据所述SMART信息中指示故障信息的指标的值判断硬盘故障点。
可选地,所述SMART信息中指示故障信息的指标包括硬盘介质故障指标及链路信号故障指标,其中,所述硬盘介质故障指标包括使用过程硬盘产生的坏道个数及使用过程产生不可修复的错误的次数;所述链路信号故障指标包括链路输入输出数据无效的次数、链路输入输出数据奇偶校验错误的次数、链路输入输出数据丢包的次数及链路重启的次数。
可选地,所述根据所述SMART信息中指示故障信息的指标的值判断硬盘故障点包括:当所述硬盘介质故障指标的值大于对应的阈值时,判断故障点为硬盘介质;
当所述链路信号故障指标的值大于对应的阈值时,判断故障点为链路信号。
第二方面,本发明提供一种检测硬盘故障点的装置,所述装置包括:
获取单元,用于获取硬盘SMART信息;
判断单元,用于根据所述SMART信息中指示故障信息的指标的值判断硬盘故障点。
可选地,所述SMART信息中指示故障信息的指标包括硬盘介质故障指标及链路信号故障指标,其中,所述硬盘介质故障指标包括使用过程硬盘产生的坏道个数及使用过程产生不可修复的错误的次数;所述链路信号故障指标包括链路输入输出数据无效的次数、链路输入输出数据奇偶校验错误的次数、链路输入输出数据丢包的次数及链路重启的次数。
可选地,所述判断单元,用于当所述硬盘介质故障指标的值大于对应的阈值时,判断故障点为硬盘介质;
当所述链路信号故障指标的值大于对应的阈值时,判断故障点为链路信号。
第三方面,本发明提供一种服务器,所述服务器包括上述检测硬盘故障点的装置。
本发明实施例提供的检测硬盘故障点的方法、装置及服务器,获取硬盘SMART信息,根据SMART信息中指示故障信息的指标的值是否大于对应的阈值判断出硬盘的故障点。与现有技术相比,本发明能够根据硬盘故障指标及其阈值快速判断出硬盘的介质故障和链路故障,大大提高了硬盘故障分析的效率。
附图说明
图1为本发明一实施例检测硬盘故障点的方法的流程图;
图2为本发明一实施例检测硬盘故障点的装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种检测硬盘故障点的方法,如图1所示,所述方法包括:
S11、获取硬盘SMART信息;
S12、根据所述SMART信息中指示故障信息的指标的值判断硬盘故障点。
本发明基于硬盘SMART信息,针对SAS(Serial Attached SCSI,串行连接的小型计算机系统接口)硬盘能够快速判断出故障点。
首先使用smartctl–x/dev/sdX系统命令,其中,Smartctl是linux系统下获取硬盘smart信息的命令,sdX代表SAS盘的盘符,如sda,sdb,sdc等。Windows中可以通过安装smartmontools工具获得smartctl命令。
获取到的SMART信息中包含指示故障信息的指标,根据这些指标的值可以判断出故障点。例如,指示硬盘介质故障的指标有使用过程硬盘产生的坏道个数及使用过程产生不可修复(一般为2bit以上)错误的次数,当这些指标的值大于对应的阈值时,说明故障点为硬盘介质;指示链路信号故障的指标有链路输入输出数据无效的次数、链路输入输出数据奇偶校验错误的次数、链路输入输出数据丢包的次数及链路重启的次数,当这些指标的值大于对应的阈值时,例如链路输入输出数据无效的次数大于2969750,链路输入输出数据奇偶校验错误的次数大于2913553,或者链路输入输出数据丢包的次数大于582等,说明故障点为链路信号。
硬盘介质故障往往会导致链路信号指标的变化,因此本发明需要首先判断故障点是否为硬盘介质。判断出硬盘的故障点之后,再根据故障点去指导硬盘厂商去分析硬盘故障的原因,这样便能将大大的提高硬盘故障分析的效率。
本发明实施例提供的检测硬盘故障点的方法,获取硬盘SMART信息,根据SMART信息中指示故障信息的指标的值是否大于对应的阈值判断出硬盘的故障点。与现有技术相比,本发明能够根据硬盘故障指标及其阈值快速判断出硬盘的介质故障和链路故障,大大提高了硬盘故障分析的效率。
本发明实施例还提供一种检测硬盘故障点的装置,如图2所示,所述装置包括:
获取单元11,用于获取硬盘SMART信息;
判断单元12,用于根据所述SMART信息中指示故障信息的指标的值判断硬盘故障点。
可选地,所述SMART信息中指示故障信息的指标包括硬盘介质故障指标及链路信号故障指标,其中,所述硬盘介质故障指标包括使用过程硬盘产生的坏道个数及使用过程产生不可修复的错误的次数;所述链路信号故障指标包括链路输入输出数据无效的次数、链路输入输出数据奇偶校验错误的次数、链路输入输出数据丢包的次数及链路重启的次数。
可选地,所述判断单元12,用于当所述硬盘介质故障指标的值大于对应的阈值时,判断故障点为硬盘介质;
当所述链路信号故障指标的值大于对应的阈值时,判断故障点为链路信号。
本发明实施例提供的检测硬盘故障点的装置,获取硬盘SMART信息,根据SMART信息中指示故障信息的指标的值是否大于对应的阈值判断出硬盘的故障点。与现有技术相比,本发明能够根据硬盘故障指标及其阈值快速判断出硬盘的介质故障和链路故障,大大提高了硬盘故障分析的效率。
本发明实施例还提供一种服务器,所述服务器包括上述检测硬盘故障点的装置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (7)

1.一种检测硬盘故障点的方法,其特征在于,所述方法包括:
获取硬盘SMART信息;
根据所述SMART信息中指示故障信息的指标的值判断硬盘故障点。
2.根据权利要求1所述的方法,其特征在于,所述SMART信息中指示故障信息的指标包括硬盘介质故障指标及链路信号故障指标,其中,所述硬盘介质故障指标包括使用过程硬盘产生的坏道个数及使用过程产生不可修复的错误的次数;所述链路信号故障指标包括链路输入输出数据无效的次数、链路输入输出数据奇偶校验错误的次数、链路输入输出数据丢包的次数及链路重启的次数。
3.根据权利要求2所述的方法,其特征在于,所述根据所述SMART信息中指示故障信息的指标的值判断硬盘故障点包括:当所述硬盘介质故障指标的值大于对应的阈值时,判断故障点为硬盘介质;
当所述链路信号故障指标的值大于对应的阈值时,判断故障点为链路信号。
4.一种检测硬盘故障点的装置,其特征在于,所述装置包括:
获取单元,用于获取硬盘SMART信息;
判断单元,用于根据所述SMART信息中指示故障信息的指标的值判断硬盘故障点。
5.根据权利要求4所述的装置,其特征在于,所述SMART信息中指示故障信息的指标包括硬盘介质故障指标及链路信号故障指标,其中,所述硬盘介质故障指标包括使用过程硬盘产生的坏道个数及使用过程产生不可修复的错误的次数;所述链路信号故障指标包括链路输入输出数据无效的次数、链路输入输出数据奇偶校验错误的次数、链路输入输出数据丢包的次数及链路重启的次数。
6.根据权利要求5所述的装置,其特征在于,所述判断单元,用于当所述硬盘介质故障指标的值大于对应的阈值时,判断故障点为硬盘介质;
当所述链路信号故障指标的值大于对应的阈值时,判断故障点为链路信号。
7.一种服务器,其特征在于,所述服务器包括如权利要求4至6中任一项所述的检测硬盘故障点的装置。
CN201710909445.5A 2017-09-29 2017-09-29 检测硬盘故障点的方法、装置及服务器 Pending CN107807862A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710909445.5A CN107807862A (zh) 2017-09-29 2017-09-29 检测硬盘故障点的方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710909445.5A CN107807862A (zh) 2017-09-29 2017-09-29 检测硬盘故障点的方法、装置及服务器

Publications (1)

Publication Number Publication Date
CN107807862A true CN107807862A (zh) 2018-03-16

Family

ID=61592045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710909445.5A Pending CN107807862A (zh) 2017-09-29 2017-09-29 检测硬盘故障点的方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN107807862A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536548A (zh) * 2018-04-10 2018-09-14 网宿科技股份有限公司 一种磁盘坏道的处理方法、装置及计算机存储介质
CN109298979A (zh) * 2018-08-17 2019-02-01 新华三技术有限公司成都分公司 硬盘故障处理方法及装置
CN109739702A (zh) * 2018-12-18 2019-05-10 曙光信息产业股份有限公司 硬盘自动化检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110320881A1 (en) * 2010-06-24 2011-12-29 International Business Machines Corporation Isolation of faulty links in a transmission medium
CN102521090A (zh) * 2011-11-29 2012-06-27 浪潮电子信息产业股份有限公司 一种jbod上硬盘应用故障的定位方法
CN104951383A (zh) * 2014-03-31 2015-09-30 伊姆西公司 用于监测硬盘的健康状况的方法和装置
CN106250258A (zh) * 2016-07-29 2016-12-21 北京云集智造科技有限公司 一种磁盘故障定位方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110320881A1 (en) * 2010-06-24 2011-12-29 International Business Machines Corporation Isolation of faulty links in a transmission medium
CN102521090A (zh) * 2011-11-29 2012-06-27 浪潮电子信息产业股份有限公司 一种jbod上硬盘应用故障的定位方法
CN104951383A (zh) * 2014-03-31 2015-09-30 伊姆西公司 用于监测硬盘的健康状况的方法和装置
CN106250258A (zh) * 2016-07-29 2016-12-21 北京云集智造科技有限公司 一种磁盘故障定位方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536548A (zh) * 2018-04-10 2018-09-14 网宿科技股份有限公司 一种磁盘坏道的处理方法、装置及计算机存储介质
CN108536548B (zh) * 2018-04-10 2020-12-29 网宿科技股份有限公司 一种磁盘坏道的处理方法、装置及计算机存储介质
US11073998B2 (en) 2018-04-10 2021-07-27 Wangsu Science & Technology Co., Ltd. Method, apparatus for processing disk bad sector,and computer storage medium
CN109298979A (zh) * 2018-08-17 2019-02-01 新华三技术有限公司成都分公司 硬盘故障处理方法及装置
CN109298979B (zh) * 2018-08-17 2022-08-12 新华三技术有限公司成都分公司 硬盘故障处理方法及装置
CN109739702A (zh) * 2018-12-18 2019-05-10 曙光信息产业股份有限公司 硬盘自动化检测方法

Similar Documents

Publication Publication Date Title
CN103207820B (zh) 基于raid卡日志的硬盘的故障定位方法及装置
CN102148046B (zh) 数据存储装置测试仪
CN103197995B (zh) 硬盘故障检测方法及装置
CN103309775B (zh) 一种高可靠磁盘阵列的容错方法
CN105468484A (zh) 用于在存储系统中确定故障位置的方法和装置
CN100395717C (zh) 硬盘装置损坏监测方法及系统
CN102135925B (zh) 用于检测错误检查和纠正内存的方法和装置
CN109117327A (zh) 一种硬盘检测方法及装置
CN109542752A (zh) 一种服务器PCIe设备故障记录的系统及方法
CN104951383A (zh) 用于监测硬盘的健康状况的方法和装置
CN105468482B (zh) 一种硬盘盘位识别和故障诊断方法及其服务器设备
CN107807862A (zh) 检测硬盘故障点的方法、装置及服务器
CN109684141A (zh) 一种磁盘故障诊断方法、装置、终端及可读存储介质
CN111813585A (zh) 慢盘的预测和处理
CN111048138A (zh) 一种硬盘的故障检测方法及相关装置
CN105892932A (zh) 用于磁盘数据管理的方法和装置
CN109919335A (zh) 基于深度学习的磁盘故障预测系统
US8843781B1 (en) Managing drive error information in data storage systems
CN103049345A (zh) 基于异步通信机制的磁盘状态变迁检测方法及装置
CN112084097B (zh) 一种磁盘告警方法及装置
CN107301109A (zh) 一种硬盘质量筛选方法及装置
CN106886471A (zh) 一种基于linux中磁盘的读写故障检测方法及系统
JP5545771B2 (ja) 診断装置、診断方法および診断プログラム診断方法
CN116627737A (zh) 一种硬盘测试方法、装置、设备及介质
US20230025081A1 (en) Model training method, failure determining method, electronic device, and program product

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180316

RJ01 Rejection of invention patent application after publication