CN105893231B - 一种基于smart的预测硬盘亚健康指标的方法及装置 - Google Patents

一种基于smart的预测硬盘亚健康指标的方法及装置 Download PDF

Info

Publication number
CN105893231B
CN105893231B CN201610298338.9A CN201610298338A CN105893231B CN 105893231 B CN105893231 B CN 105893231B CN 201610298338 A CN201610298338 A CN 201610298338A CN 105893231 B CN105893231 B CN 105893231B
Authority
CN
China
Prior art keywords
hard disk
value
parameter
smart
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610298338.9A
Other languages
English (en)
Other versions
CN105893231A (zh
Inventor
范光彬
刘皙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thinvent Digital Technology Co Ltd
Original Assignee
Thinvent Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thinvent Digital Technology Co Ltd filed Critical Thinvent Digital Technology Co Ltd
Priority to CN201610298338.9A priority Critical patent/CN105893231B/zh
Publication of CN105893231A publication Critical patent/CN105893231A/zh
Application granted granted Critical
Publication of CN105893231B publication Critical patent/CN105893231B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种基于SMART的预测硬盘亚健康指标的方法及装置,其中方法包括:监测硬盘的自我监测分析与报告技术SMART参数,所述SMART参数包括:重分配扇区参数、当前待映射扇区参数、错误无法恢复参数和指令超时参数;根据所述SMART参数中各项参数的监测值判断所述硬盘是否出现状态异常;如果是,根据所述SMART参数中各项参数的监测值调整所述硬盘的健康指标值;根据当前所述硬盘的健康指标值确定所述硬盘当前的健康状态。能够在硬盘状态出现异常时对硬盘健康状态的进行有效预估,给使用者提供准确的参考数据。

Description

一种基于SMART的预测硬盘亚健康指标的方法及装置
技术领域
本发明涉及硬盘监测保护技术领域,具体而言,涉及一种基于SMART的预测硬盘亚健康指标的方法及装置。
背景技术
硬盘在使用的过程中随着时间的推移会逐步产生坏道,坏道足够多时,将影响数据存储的安全,一般解决该问题的方式是对数据进行冗余备份,但即使采用了RAID1,也无法避免数据硬盘和备份硬盘同时出现故障的情况。
SMART(Self-Monitoring Analysis And Reporting Technology,自我监测分析与报告技术)作为一种自动监控硬盘驱动器完好状况和报告潜在问题的技术标准,是硬盘普遍采用的数据安全技术,在硬盘工作的时候监测系统中电极、电路、磁盘、磁头等的状态;现有技术中,硬盘厂商普遍采用阔值判定方法来预测硬盘故障,即利用硬盘SMART技术,采集硬盘运行时的各项监测数据项的指标信息,并分别与预先设定的各项监测数据项的指标信息的硬盘故障预警阔值相比较,超过故障预警阔值时便触发故障报警;但是在设定各项监测数据项的指标信息的故障预警阔值时往往选择将误报率降至最低,此种做法同时也牺牲了预测的准确率,并且上述SMART各项监测数据项的指标信息中大多数指标与硬盘故障不存在关联,因此导致现有技术中在误报率约为0.1%时,其硬盘故障监测准确率仅为3%-10%。
发明内容
有鉴于此,本发明实施例的目的在于提供一种基于SMART的预测硬盘亚健康指标的方法及装置,以实现准确地监测硬盘的健康状态。
有鉴于此,一方面本发明实施例提供了一种基于SMART的预测硬盘亚健康指标的方法,包括:
监测硬盘的自我监测分析与报告技术SMART参数,所述SMART参数包括:重分配扇区参数、当前待映射扇区参数、错误无法恢复参数和指令超时参数;
根据所述SMART参数中各项参数的监测值判断所述硬盘是否出现状态异常;
如果是,根据所述SMART参数中各项参数的监测值调整所述硬盘的健康指标值;
根据当前所述硬盘的健康指标值确定所述硬盘当前的健康状态。
上一个实施例中,根据所述SMART参数中各项参数的监测值判断所述硬盘是否出现状态异常包括:
当所述SMART参数的监测值存在以下情况中的至少一项时,确定所述硬盘出现状态异常:
所述重分配扇区计数参数的监测值非0;
所述当前待映射扇区计数参数的监测值大于第一设定值;
所述无法恢复的错误参数的监测值非0;
所述指令超时参数的监测值大于第二设定值。
上一个实施例中,所述SMART参数还包括:颗粒平均擦写参数;
根据所述SMART参数中各项参数的监测值判断所述硬盘是否出现状态异常还包括:当所述颗粒平均擦写参数的监测值小于第三设定值时,确定所述硬盘出现状态异常。
上一个实施例中,根据所述SMART参数中各项参数的监测值调整所述硬盘的健康指标值包括:根据所述SMART参数中各项参数的监测值查找预先设定的健康指标值调整幅度列表,所述健康指标值调整幅度列表包括所述SMART参数中各项参数的监测值所处区间对应的健康指标调整幅度值;
按照所述监测值查找到的健康指标调整幅度值计算调整所述硬盘的健康指标值。
上一个实施例中,根据当前所述硬盘的健康指标值确定所述硬盘当前的健康状态,还包括:
根据所述健康指标值计算得到硬盘的健康百分比;
读取所述硬盘的累计通电时间;
基于所述健康百分比和所述硬盘的累计通电时间初步计算得到硬盘的剩余寿命;
以及收集硬盘运维数据,形成硬盘运维知识库,在所述硬盘运维知识库中获取所述累计通电时间和硬盘的亚健康指标数据,构建不同类型、品牌、型号硬盘的平衡预测系数模型,根据所述平衡预测系数模型计算得到平衡预测系数,并通过所述平衡预测系数对所述硬盘的剩余寿命作进一步的精确计算。
另一方面,本发明实施例还提供了一种基于SMART的预测硬盘亚健康指标的装置,包括:
监测模块,用于监测硬盘的自我监测分析与报告技术SMART参数,所述SMART参数包括:重分配扇区参数、当前待映射扇区参数、错误无法恢复参数和指令超时参数;
判断模块,用于根据所述SMART参数中各项参数的监测值判断所述硬盘是否出现状态异常;
健康指标值调整模块,用于根据所述SMART参数中各项参数的监测值调整所述硬盘的健康指标值;
健康状态确定模块,用于根据当前所述硬盘的健康指标值确定所述硬盘当前的健康状态。
上一个实施例中,所述判断模块还用于当所述SMART参数的监测值存在以下情况中的至少一项时,确定所述硬盘出现状态异常:
所述重分配扇区计数参数的监测值非0;
所述当前待映射扇区计数参数的监测值大于第一设定值;
所述无法恢复的错误参数的监测值非0;
所述指令超时参数的监测值大于第二设定值。
上一个实施例中,所述判断模块还用于:当所述颗粒平均擦写参数的监测值小于第三设定值时,确定所述硬盘出现状态异常。
上一个实施例中,所述健康指标值调整模块,包括:
查找单元,用于根据所述SMART参数中各项参数的监测值查找预先设定的健康指标值调整幅度列表,所述健康指标值调整幅度列表包括所述SMART参数中各项参数的监测值所处区间对应的健康指标调整幅度值;
第一计算单元,用于按照所述监测值查找到的健康指标调整幅度值计算调整所述硬盘的健康指标值。
上一个实施例中,所述健康状态确定模块,包括:
读取单元,用于读取所述硬盘的累计通电时间;
第二计算单元,用于根据所述健康指标值计算得到硬盘的健康百分比;还用于基于所述健康百分比和所述硬盘的累计通电时间初步计算得到硬盘的剩余寿命;
第三计算单元,用于收集硬盘运维数据,形成硬盘运维知识库,在所述硬盘运维知识库中获取所述累计通电时间和硬盘的亚健康指标数据,构建不同类型、品牌、型号硬盘的平衡预测系数模型,根据所述平衡预测系数模型计算得到平衡预测系数,并通过所述平衡预测系数对所述硬盘的剩余寿命作进一步的精确计算。
本申请实施例中提供的一种基于SMART的预测硬盘亚健康指标的方法,能够在SMART参数基础上获取与硬盘故障密切相关联的有效参数,根据该参数进行判断硬盘是否出现状态异常,并在硬盘状态出现异常时对硬盘健康状态进行有效预估,给使用者提供准确的参考数据。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明一个实施例所提供的一种基于SMART的预测硬盘亚健康指标的方法的流程示意图;
图2示出了本发明一个实施例所提供的预测平衡系数与累计通电时间关系示意图;
图3示出了本发明一个实施例所提供的一种基于SMART的预测硬盘亚健康指标的装置的结构示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
硬盘在使用过程中,硬盘内存储的数据的宝贵性往往远大于硬盘自身的价值,硬盘通常是通过SMART技术进行硬盘故障监测,并且SMART监测信息存储在硬盘的固件区内。
如图1所示的实施例,本实施例中给出了一种基于SMART的预测硬盘亚健康指标的方法,该方法包括以下步骤:
S110、监测硬盘的SMART参数,该SMART参数包括:重分配扇区参数、当前待映射扇区参数、错误无法恢复参数和指令超时参数;
S120、根据上述的SMART参数中各项参数的监测值判断所述硬盘是否出现状态异常;
本实施例中,当所述的SMART参数的监测值存在以下情况中的至少一项时,确定所述硬盘出现状态异常:
所述重分配扇区计数参数的监测值非0;
所述当前待映射扇区计数参数的监测值大于第一设定值;
所述无法恢复的错误参数的监测值非0;
所述指令超时参数的监测值大于第二设定值。
S130、如果是,则根据上述的SMART参数中各项参数的监测值调整所述硬盘的健康指标值;
上述根据SMART参数中各项参数的监测值调整硬盘的健康指标值,按照如下方式实现:根据SMART参数中各项参数的监测值查找预先设定的健康指标值调整幅度列表,该健康指标值调整幅度列表包括SMART参数中各项参数的监测值所处区间对应的健康指标调整幅度值;查找到对应的健康指标值幅度值以后,按照该健康指标调整幅度值计算调整硬盘的健康指标值,直至得到最终的健康指标值,并根据该健康指标值进行确定硬盘当前的健康状态。
此处的健康指标值调整幅度列表包括上述的SMART各项参数的监测值在硬盘出现异常时所处的区间以及该区间对应的健康指标调整幅度值,当查找到某一参数的监测值位于某一区间时,根据该参数的监测值所处的区间对应的健康指标调整幅度值进行对硬盘健康指标值的调整,最终得到硬盘的健康指标值,此种方式与现有技术中设置单一的硬盘故障预警阔值的方式相比较能够更准确给出硬盘的健康指标值,能够为使用者提供更可靠的参考数据,为客户的硬盘使用过程中提供更高的数据存储安全性。
S140、根据当前所述硬盘的健康指标值确定该硬盘当前的健康状态。
上述根据当前所述硬盘的健康指标值确定该硬盘当前的健康状态的过程,通过以下方式实现:
根据上述最终得到的健康指标值计算得到硬盘的健康百分比;并读取所述硬盘的累计通电时间,该硬盘的累计通电时间也可以由监测SMART参数获得,获取上述的硬盘健康百分比和硬盘的累计通电时间以后,基于该健康百分比和该硬盘的累计通电时间初步计算得到硬盘的剩余寿命,进一步的,在对硬盘的运维过程中,收集硬盘运维数据(此处的硬盘运维数据也包括人工输入的硬盘数据),形成硬盘运维知识库,该硬盘运维知识库中的数据包括但不限于:硬盘生产时间、累计运行时间、SMART参数(含:重分配扇区参数、当前待映射扇区参数、错误无法恢复参数和指令超时参数)改变的时间点和当前SMART参数值以及硬盘的亚健康指标数据。在硬盘运维知识库中获取所述累计通电时间以及对硬盘的亚健康指标数据并进行分析,构建不同类型、品牌、型号硬盘的平衡预测系数模型,根据所述平衡预测系数模型计算得到平衡预测系数,并通过所述平衡预测系数对所述硬盘的剩余寿命作进一步的精确计算;并且随着收集到的同类型、同品牌、同型号硬盘数据的积累,该平衡预测系数模型会越来越精确,最终计算得出硬盘的剩余寿命也更加符合硬盘的真实剩余寿命。
本发明法能够十分准确的预测硬盘的剩余寿命,为硬盘使用者提供准确的硬盘剩余寿命信息,一方面提醒使用者在硬盘剩余使用寿命被耗尽前,及时进行对硬盘内的数据进行备份或转存,防止硬盘寿命到尽头时会导致数据丢失而给使用者带来巨大损失的情况发生;另一方面能够满足使用者对硬盘寿命进行充分的利用,避免使用者在硬盘还具有相当多的使用寿命时将硬盘丢弃,因此而造成资源的浪费。
在某一实施例中,根据参数的监测值所处的区间所对应的健康指标调整幅度值进行对硬盘健康指标值的调整,可以是通过以下方式实现:最初先给出某一基数,该基数作为最初的健康指标值,当根据SMART参数中各项参数的监测值判断所述硬盘出现状态异常时,根据该参数的监测值所处的区间对应的调整幅度值来调整健康指标值,如果该基数为健康状态下的最高健康指标值时,在此基数基础上,减去上述调整幅度值,最终得到当前硬盘的健康指标值。
上述的根据当前硬盘的健康指标值确定该硬盘当前的健康状态,该处的健康状态可以包括:健康、亚健康和危险三种状态;并分别划分出满足上述三种状态时的健康指标值所处的三个数值区间,例如三个健康状态的健康指标值分别对应的三个数值区间为:(a,b]、(b,c]以及(c,d],其中如果最终所得到的健康指标值落入到“健康”的健康指标值区间范围内时,即落到(a,b]区间内时,则确定硬盘当前的健康状态为“健康”;进一步的,如果最终所得的健康指标值落入到“危险”的健康指标值区间范围内时,即位于(b,c]区间内时,则确定硬盘当前的健康状态为“危险”;上述“亚健康”的状态以此类推,用此种方式进行判断;需要说明的是此处的三个区间为半开半闭区间,实际操作时也可以根据实际需要设置成为全部开区间、全部闭区间等多种划分方式;在该实施例中,(b,c]区间的右端点值c为“亚健康”区间与“危险”区间的界限值,硬盘的健康百分比可以是用最终得到的健康指标值减去该界限值c后得到的差值占整个健康满分值a(最初的最高健康指标值)的比例计算得到。
需要说明的是,健康指标值和健康百分比的计算方法并不局限于此,健康指标值的计算也可以采用依次累加(减法的逆向运算)的方式,只是最终得到的结论会与上述算法中相反而已;在此不加以叙述。
此实施例中的健康状态预估方法,克服了现有技术中仅通过人为查看SMART的各项参数给出的告警信息来判断硬盘状态所存在的过程麻烦、预估准确度低的缺陷。
需要说明的是,SMART的常用的、关键的监测项主要有:Raw Read Error Rate原始读取错误率、Wear Leveling Count颗粒平均擦写次数、Runtime Bad Block运行时环块计数、End To End Error端到端校验错误、Reported Uncorrect无法恢复的错误、CommandTimeout指令超时、Seek Error Rate寻道错误率、Reallocated Sector Ct重分配扇区计数、Unexpect Power Loss Ct/Power-off Retract Count/Emergency Retract CycleCount异常断电计数、High Fly Writes磁头在异常高度工作、G-sense Error Rate加速度传感器告警、Current Pending Sector当前待映射扇区计数等等,经过反复的测试和统计,分析得出与磁盘故障存在较强关联性的SMART参数为:重分配扇区参数、当前待映射扇区参数、错误无法恢复参数和指令超时参数;因此,本实施例中正是应用上述与磁盘故障具有较强关联性的参数作为依据进行磁盘健康状态的监测,以实现准确的预估硬盘的健康状态。
在某一具体实施例中,上述的SMART参数还包括:颗粒平均擦写参数;当所述颗粒平均擦写参数的监测值小于第三设定值时,确定所述硬盘出现状态异常。
进一步的,当出现上述的如:所述重分配扇区计数参数的监测值非0、所述当前待映射扇区计数参数的监测值大于第一设定值、所述无法恢复的错误参数的监测值非0、所述指令超时参数的监测值大于第二设定值中的情况时,则判断硬盘出现了状态异常,但上述参数的监测值可以进一步进行划分成不同的区间段,不同区间段对应不同的硬盘故障程度,进而予以分配不同的健康指标调整幅度值,以此进一步提高对硬盘健康状态监测的准确性,划分方式包含如下内容:
①第一种情形:
重分配扇区计数参数的监测值非0且增长加速度值为0;
当前待映射扇区计数参数的监测值大于3且小于等于10;
颗粒平均擦写次数参数的监测值大于1且小于15;
②第二种情形:
重分配扇区计数参数的监测值非0且增长加速度值非0;
当前待映射扇区计数参数的监测值值大于10;
指令超时参数的监测值大于10;
无法恢复的错误参数的监测值非0;
颗粒平均擦写次数参数的监测值小于等于1;
上述第一种情形下的各种情况对应第一种健康指标调整幅度值,上述第二种情形下的各种情况对应第二种健康指标调整幅度值,需要说明的是第二种情形下的各种情况出现时代表硬盘的故障程度较第一种情形下的各种情况严重,因此第二种健康指标调整幅度值较大。
下面通过举例进行说明:
在进行一次健康指标值计算过程中,初始时,将硬盘的初始健康值设为10分;
当判断硬盘出现状态异常时,根据SMART各项参数的的监测值查找健康指标值调整幅度列表,该健康指标值调整幅度列表包含以下内容:
当监测到SMART参数的监测值出现以下表1中的某一种情况时,在初始健康值基础上或者在已进行减分操作以后得到的中间值基础上减1分:
重分配扇区计数 非0且增长加速度值为0
当前待映射扇区计数 大于3且小于等于10
颗粒平均擦写次数 WORST数据大于1小于15
表1
当监测到SMART参数的监测值出现以下表2中的某一种情况时,在初始健康值基础上或者在已进行减分操作以后得到的中间值基础上减5分;
重分配扇区计数 非0且增长加速度值非0
当前待映射扇区计数 大于10
指令超时数据 大于10
无法恢复的错误数据 非0
颗粒平均擦写次数 WORST数据小于等于1
表2
最后,在初始健康指标值基础上得到的最终剩余得分即为最终的健康指标值,进一步的,根据该健康指标值确定硬盘的当前健康状态按照如下方式进行:
判断该健康指标值所处的代表不同健康状态的区间范围,由于此例中数值均设置的为整数值,所以区间范围划分状态如下表3所示:
10~8分 健康
7~6分 亚健康
5~0分 危险
表3
当最终得到的健康指标值为8~10分之间(包括8分和10分),则确定硬盘处于健康状态,依次类推。
进一步的,在得到最终健康指标值和硬盘健康状态结果以后,将该健康指标值和健康状态结果进行显示,当处于亚健康或者危险状态时进行告警。
通过健康指标值和硬盘累计通电时间T按照以下方式初步计算出硬盘的剩余寿命:
其中,为硬盘的健康百分比;
然后,基于上述的累计通电时间和得到的硬盘的亚健康指标数据构建不同类型、品牌、型号硬盘的平衡预测系数模型,该亚健康指标数据包括硬盘的故障率、期望值等,根据该平衡预测系数模型计算得到平衡预测系数,并通过所述的平衡预测系数对上述硬盘的剩余寿命作进一步的精确计算以得到硬盘精准剩余寿命,并且随着收集到的同类型、同品牌、同型号硬盘数据的积累,该平衡预测系数模型会越来越精确,最终得出的硬盘精准剩余寿命会更加符合硬盘的真实剩余寿命;
其中,硬盘精准剩余寿命=硬盘的剩余寿命×E,式中E为平衡预测系数。
进一步的,上述的平衡预测系数模型是硬盘累计通电时间与平衡预测系数的关系模型,可以通过对不同的类型或者品牌型号的硬盘的出现故障的时间点分类统计进行分别构建,出现故障频率高的时间点,平衡预测系数相对较低;出现故障频率低的时间点,平衡预测系相对较高;应用该平衡预测系数可以对初步计算得到的硬盘的剩余寿命进一步精确化。
下面通过举例进行介绍:
对同类型某品牌的硬盘累计通电时间和故障硬盘数进行数据统计,会得到如下表4中的结果:
累计通电时间 故障硬盘数
1年内 10
2年内 29
3年内 56
4年内 75
5年内 87
6年内 98
7年内 100
表4
100块硬盘中,累计通电时间一年内出现故障的硬盘有10块,两年内出现故障的硬盘有29块,三年内出现故障的硬盘有56块,四年内出现故障的硬盘有75块,五年内出现故障的硬盘有87块,六年内出现故障的硬盘98块、7年内出现问题硬盘数100;则可以得出每年的当年内出现故障的硬盘数目,进而计算得到当年的故障率。
进一步得出累计通电时间与当年的故障率的关系表如下表5所示,
累计通电时间 当年的故障率
1年内 10%
1~2年内 19%
2~3年内 27%
3~4年内 19%
4~5年内 12%
5~6年内 11%
6~7年内 2%
表5
由表5根据概率论和统计学计算得出硬盘寿命期望值=3.45年,然后构建平衡预测系数模型为:
通过上述平衡预测系数模型计算得到如下关系表6:
表6
并进一步绘制得出如图2所示的预测平衡系数与累计通电时间关系图,得到上述平衡预测系数以后,可以对硬盘的剩余寿命进行进一步的精确化;
例如:有一块硬盘在使用一年时监测到的硬盘健康指标值为8,那么通过计算可以得出:再通过上述平衡预测系数E计算出硬盘精准剩余寿命=1*1.34=1.34年。
需要说明的是上述的平衡预测系数E对于不同型号、品牌的硬盘可能是不同的,在得到硬盘精准剩余寿命以后,设置使硬盘本身或者硬盘检测装置进行显示和提醒,提醒硬盘使用者在剩余寿命被耗尽之前进行数据转存或备份,此处需要说明的是应当在硬盘处于亚健康或者健康状态时进行硬盘剩余寿命的计算,在硬盘处于危险状态时,其剩余寿命可以被判断是0。
进一步需要说明的是,此处仅是通过举例进行对本发明的设计思路的说明,具体实现时并不局限于上述举例中的一种实现方式。
如图3所示的实施例,本实施例中提供了一种基于SMART的预测硬盘亚健康指标的装置,包括:
监测模块210,用于监测硬盘的自我监测分析与报告技术SMART参数,所述SMART参数包括:重分配扇区参数、当前待映射扇区参数、错误无法恢复参数和指令超时参数;
判断模块220,用于根据所述SMART参数中各项参数的监测值判断所述硬盘是否出现状态异常;
健康指标值调整模块230,用于根据所述SMART参数中各项参数的监测值调整所述硬盘的健康指标值;
健康状态确定模块240,用于根据当前所述硬盘的健康指标值确定所述硬盘当前的健康状态。
上述的判断模块220还用于当所述SMART参数的监测值存在以下情况中的至少一项时,确定所述硬盘出现状态异常:
所述重分配扇区计数参数的监测值非0;
所述当前待映射扇区计数参数的监测值大于第一设定值;
所述无法恢复的错误参数的监测值非0;
所述指令超时参数的监测值大于第二设定值。
上述判断模块220还用于:当所述颗粒平均擦写参数的监测值小于第三设定值时,确定所述硬盘出现状态异常。
健康指标值调整模块230,包括:
查找单元,用于根据所述SMART参数中各项参数的监测值查找预先设定的健康指标值调整幅度列表,所述健康指标值调整幅度列表包括所述SMART参数中各项参数的监测值所处区间对应的健康指标调整幅度值;
第一计算单元,用于按照所述监测值查找到的健康指标调整幅度值计算调整所述硬盘的健康指标值。
健康状态确定模块240,包括:
读取单元,用于读取所述硬盘的累计通电时间;
第二计算单元,用于根据所述健康指标值计算得到硬盘的健康百分比;还用于基于所述健康百分比和所述硬盘的累计通电时间初步计算得到硬盘的剩余寿命;
第三计算单元,用于收集硬盘运维数据,形成硬盘运维知识库,在所述硬盘运维知识库中获取所述累计通电时间和硬盘的亚健康指标数据,构建不同类型、品牌、型号硬盘的平衡预测系数模型,根据所述平衡预测系数模型计算得到平衡预测系数,并通过所述平衡预测系数对所述硬盘的剩余寿命作进一步的精确计算。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (6)

1.一种基于SMART的预测硬盘亚健康指标的方法,其特征在于,包括:
监测硬盘的自我监测分析与报告技术SMART参数,所述SMART参数包括:重分配扇区参数、当前待映射扇区参数、错误无法恢复参数和指令超时参数;
根据所述SMART参数中各项参数的监测值判断所述硬盘是否出现状态异常;
如果是,根据所述SMART参数中各项参数的监测值调整所述硬盘的健康指标值;
根据所述健康指标值计算得到硬盘的健康百分比;
读取所述硬盘的累计通电时间;
基于所述健康百分比和所述硬盘的累计通电时间初步计算得到硬盘的剩余寿命;
以及收集硬盘运维数据,形成硬盘运维知识库,在所述硬盘运维知识库中获取所述累计通电时间和硬盘的亚健康指标数据,构建不同类型、品牌、型号硬盘的平衡预测系数模型,根据所述平衡预测系数模型计算得到平衡预测系数,平衡预测系数并通过所述平衡预测系数对所述硬盘的剩余寿命作进一步的精确计算,硬盘精准剩余寿命=硬盘的剩余寿命×E;
所述根据所述SMART参数中各项参数的监测值调整所述硬盘的健康指标值包括:
根据所述SMART参数中各项参数的监测值查找预先设定的健康指标值调整幅度列表,所述健康指标值调整幅度列表包括所述SMART参数中各项参数的监测值所处区间对应的健康指标调整幅度值;
按照所述监测值查找到的健康指标调整幅度值计算调整所述硬盘的健康指标值。
2.根据权利要求1所述的方法,其特征在于,根据所述SMART参数中各项参数的监测值判断所述硬盘是否出现状态异常包括:
当所述SMART参数的监测值存在以下情况中的至少一项时,确定所述硬盘出现状态异常:
所述重分配扇区参数的监测值非0;
所述当前待映射扇区参数的监测值大于第一设定值;
所述错误无法恢复参数的监测值非0;
所述指令超时参数的监测值大于第二设定值。
3.根据权利要求1所述的方法,其特征在于,所述SMART参数还包括:颗粒平均擦写参数;
根据所述SMART参数中各项参数的监测值判断所述硬盘是否出现状态异常还包括:当所述颗粒平均擦写参数的监测值小于第三设定值时,确定所述硬盘出现状态异常。
4.一种基于SMART的预测硬盘亚健康指标的装置,其特征在于,包括:
监测模块,用于监测硬盘的自我监测分析与报告技术SMART参数,所述SMART参数包括:重分配扇区参数、当前待映射扇区参数、错误无法恢复参数和指令超时参数;
判断模块,用于根据所述SMART参数中各项参数的监测值判断所述硬盘是否出现状态异常;
健康指标值调整模块,用于根据所述SMART参数中各项参数的监测值调整所述硬盘的健康指标值;
健康状态确定模块,用于根据当前所述硬盘的健康指标值确定所述硬盘当前的健康状态;
所述健康状态确定模块,包括:
读取单元,用于读取所述硬盘的累计通电时间;
第二计算单元,用于根据所述健康指标值计算得到硬盘的健康百分比;还用于基于所述健康百分比和所述硬盘的累计通电时间初步计算得到硬盘的剩余寿命;
第三计算单元,用于收集硬盘运维数据,形成硬盘运维知识库,在所述硬盘运维知识库中获取所述累计通电时间和硬盘的亚健康指标数据,构建不同类型、品牌、型号硬盘的平衡预测系数模型,根据所述平衡预测系数模型计算得到平衡预测系数,平衡预测系数并通过所述平衡预测系数对所述硬盘的剩余寿命作进一步的精确计算,硬盘精准剩余寿命=硬盘的剩余寿命×E;
其中,所述健康指标值调整模块,包括:
查找单元,用于根据所述SMART参数中各项参数的监测值查找预先设定的健康指标值调整幅度列表,所述健康指标值调整幅度列表包括所述SMART参数中各项参数的监测值所处区间对应的健康指标调整幅度值;
第一计算单元,用于按照所述监测值查找到的健康指标调整幅度值计算调整所述硬盘的健康指标值。
5.根据权利要求4所述的装置,其特征在于,所述判断模块还用于当所述SMART参数的监测值存在以下情况中的至少一项时,确定所述硬盘出现状态异常:
所述重分配扇区参数的监测值非0;
所述当前待映射扇区参数的监测值大于第一设定值;
所述错误无法恢复参数的监测值非0;
所述指令超时参数的监测值大于第二设定值。
6.根据权利要求4所述的装置,其特征在于,所述SMART参数还包括:颗粒平均擦写参数;
所述判断模块还用于:当所述颗粒平均擦写参数的监测值小于第三设定值时,确定所述硬盘出现状态异常。
CN201610298338.9A 2016-05-06 2016-05-06 一种基于smart的预测硬盘亚健康指标的方法及装置 Active CN105893231B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610298338.9A CN105893231B (zh) 2016-05-06 2016-05-06 一种基于smart的预测硬盘亚健康指标的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610298338.9A CN105893231B (zh) 2016-05-06 2016-05-06 一种基于smart的预测硬盘亚健康指标的方法及装置

Publications (2)

Publication Number Publication Date
CN105893231A CN105893231A (zh) 2016-08-24
CN105893231B true CN105893231B (zh) 2019-02-05

Family

ID=56702532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610298338.9A Active CN105893231B (zh) 2016-05-06 2016-05-06 一种基于smart的预测硬盘亚健康指标的方法及装置

Country Status (1)

Country Link
CN (1) CN105893231B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991031B (zh) * 2017-03-07 2020-10-20 记忆科技(深圳)有限公司 一种smart信息监控的实现方法
CN112131071B (zh) * 2017-09-18 2024-05-17 华为技术有限公司 一种内存评估的方法及装置
CN107861829A (zh) * 2017-11-06 2018-03-30 郑州云海信息技术有限公司 一种磁盘故障检测的方法、系统、装置及存储介质
CN109857333B (zh) * 2017-11-30 2022-08-26 深圳市海思半导体有限公司 一种ssd介质的健康度处理方法、ssd控制器及磁盘阵列
CN108073486B (zh) * 2017-12-28 2022-05-10 新华三大数据技术有限公司 一种硬盘故障的预测方法和装置
CN110083470B (zh) * 2018-01-26 2023-07-21 浙江宇视科技有限公司 磁盘分析方法、装置及计算机可读存储介质
EP3747008A4 (en) * 2018-01-31 2021-09-15 Hewlett-Packard Development Company, L.P. FORECASTING THE LIFETIME OF A HARD DISK DRIVE
CN110888763A (zh) * 2018-09-11 2020-03-17 北京奇虎科技有限公司 磁盘故障诊断方法、装置、终端设备及计算机存储介质
CN109240867A (zh) * 2018-09-18 2019-01-18 鸿秦(北京)科技有限公司 硬盘故障预测方法
CN111966569A (zh) * 2019-05-20 2020-11-20 中国电信股份有限公司 硬盘健康度评估方法和装置、计算机可读存储介质
CN110196688A (zh) * 2019-05-30 2019-09-03 深信服科技股份有限公司 一种磁盘检测方法、装置、设备及介质
US11237893B2 (en) 2019-06-26 2022-02-01 Western Digital Technologies, Inc. Use of error correction-based metric for identifying poorly performing data storage devices
CN110471802A (zh) * 2019-07-04 2019-11-19 华为技术有限公司 存储设备健康度检测方法、装置及存储介质
CN113656204B (zh) * 2020-05-12 2023-11-21 中国移动通信集团浙江有限公司 固态硬盘管理方法、装置及计算设备
CN111782143B (zh) * 2020-06-22 2024-06-25 北京计算机技术及应用研究所 一种基于io负载大小的硬盘健康状态估计方法
CN112256535B (zh) * 2020-10-20 2023-08-22 湖南国科微电子股份有限公司 硬盘告警方法、装置、计算机设备及存储介质
CN112737834A (zh) * 2020-12-25 2021-04-30 北京浪潮数据技术有限公司 一种云硬盘故障预测方法、装置、设备及存储介质
CN113778766B (zh) * 2021-08-17 2024-07-09 华中科技大学 基于多维特征的硬盘故障预测模型建立方法及其应用

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101764846A (zh) * 2009-12-18 2010-06-30 西南交通大学 一种远程集中式磁盘阵列运行监控系统及其实现方法
CN102147708A (zh) * 2010-02-10 2011-08-10 成都市华为赛门铁克科技有限公司 一种磁盘检测方法及装置
CN103197995A (zh) * 2012-01-04 2013-07-10 百度在线网络技术(北京)有限公司 硬盘故障检测方法及装置
CN104318936A (zh) * 2014-09-24 2015-01-28 国家电网公司 集中式电子存储介质同步检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5360457B2 (ja) * 2008-02-13 2013-12-04 日本電気株式会社 分散ディレクトリサーバ、分散ディレクトリシステム、分散ディレクトリ方法、およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101764846A (zh) * 2009-12-18 2010-06-30 西南交通大学 一种远程集中式磁盘阵列运行监控系统及其实现方法
CN102147708A (zh) * 2010-02-10 2011-08-10 成都市华为赛门铁克科技有限公司 一种磁盘检测方法及装置
CN103197995A (zh) * 2012-01-04 2013-07-10 百度在线网络技术(北京)有限公司 硬盘故障检测方法及装置
CN104318936A (zh) * 2014-09-24 2015-01-28 国家电网公司 集中式电子存储介质同步检测方法

Also Published As

Publication number Publication date
CN105893231A (zh) 2016-08-24

Similar Documents

Publication Publication Date Title
CN105893231B (zh) 一种基于smart的预测硬盘亚健康指标的方法及装置
CN109524139B (zh) 一种基于设备工况变化的实时设备性能监测方法
CN105718715B (zh) 异常检测方法和设备
US10248114B2 (en) Plant process management system with normalized asset health
CN101764846B (zh) 一种远程集中式磁盘阵列运行监控系统的实现方法
CN105247379B (zh) 用于不间断电源电池监测和数据分析的系统和方法
CN105515820A (zh) 一种用于运维管理的健康分析方法
CN110164501A (zh) 一种硬盘检测方法、装置、存储介质及设备
JP6887361B2 (ja) 監視対象選定装置、監視対象選定方法、およびプログラム
CN105893168A (zh) 硬盘健康状况分析方法和装置
CN108133326A (zh) 一种基于火电设备的状态预警方法及系统
CN111309502A (zh) 固态硬盘寿命预测方法
CN116596322A (zh) 一种基于大数据可视化的物业设备管理方法及系统
JP2010243092A (ja) 冷凍機の劣化検出方法およびシステム
CN114781476A (zh) 一种量测设备故障分析系统和方法
CN115410342A (zh) 一种基于裂缝计实时监测的滑坡灾害智能预警方法
CA3165996A1 (en) Anomaly detection and failure prediction for predictive monitoring of industrial equipment and industrial measurement equipment
CN105183627A (zh) 一种服务器性能预测的方法及系统
CN110687851A (zh) 一种终端运行监控系统及方法
CN110045695A (zh) 一种基于方差分析的工艺参数在线预警方法
CN109976986A (zh) 异常设备的检测方法及装置
US11244235B2 (en) Data analysis device and analysis method
CN110532139A (zh) 预警方法及装置
US9945825B2 (en) Predictive analysis of complex datasets and systems and methods including the same
CN115690681A (zh) 异常判断依据的处理方法、异常判断方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant