CN108845760A - 一种硬盘维护方法、装置、设备及可读存储介质 - Google Patents

一种硬盘维护方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN108845760A
CN108845760A CN201810522673.1A CN201810522673A CN108845760A CN 108845760 A CN108845760 A CN 108845760A CN 201810522673 A CN201810522673 A CN 201810522673A CN 108845760 A CN108845760 A CN 108845760A
Authority
CN
China
Prior art keywords
failure
hard disk
result
prediction
submodel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810522673.1A
Other languages
English (en)
Inventor
张贵勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810522673.1A priority Critical patent/CN108845760A/zh
Publication of CN108845760A publication Critical patent/CN108845760A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0689Disk arrays, e.g. RAID, JBOD

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种硬盘维护方法,该方法包括以下步骤:获取硬盘的目标指标数据并分别输入到不同的预测子模型中进行故障预测,获得各个预测子模型输出的初始预测结果;将各个初始预测结果输入到预设的故障预测模型中进行故障预分析,获得故障预测结果;当故障预测结果满足预设故障修复触发条件时,启动预设故障修复进程对硬盘进行修复。应用本发明实施例提供的硬盘维护方法可以提高硬盘维护效率,减少运维人员的工作量。本发明还公开了一种硬盘维护装置、设备及可读存储介质,具有相应的技术效果。

Description

一种硬盘维护方法、装置、设备及可读存储介质
技术领域
本发明涉及存储技术领域,特别是涉及一种硬盘维护方法、装置、设备及可读存储介质。
背景技术
随着互联网、云计算等技术的快速发展,政府、企业等机构产生了海量的数据。这些海量数据需要大规模的存储设备来存储。
大规模存储设备的核心就是硬盘。确保存储数据不丢失,保护数据安全,就要确保硬盘极少发生故障。虽然现在的制造工艺取得飞速进步,单个硬盘的故障率低,但是在大规模存储设备中,由于硬盘数量庞大,硬盘故障仍然是多发的。硬盘故障率低给硬盘故障预测和运维人员的维护工作带来了很大困难。
目前,对存储系统中的硬盘进行维护的模为利用硬盘故障预测方法进行故障预测,在完成硬盘故障预测后,通知运维人员进行现场维护,维护效率较低。且现有的硬盘故障预测方法大多为使用单一的预测模型,预测结果的准确率较低,这无疑进一步阻碍了硬盘维护的效率。
综上所述,如何有效地提升存储系统中的硬盘维护效率问题,是目前本领域技术人员急需解决的技术问题。
发明内容
本发明的目的是提供一种硬盘维护方法、装置、设备及可读存储介质,以解决存储系统中的硬盘维护效率。
为解决上述技术问题,本发明提供如下技术方案:
一种硬盘维护方法,包括:
获取硬盘的目标指标数据并分别输入到不同的预测子模型中进行故障预测,获得各个所述预测子模型输出的初始预测结果;
将各个所述初始预测结果输入到预设的故障预测模型中进行故障预分析,获得故障预测结果;
当所述故障预测结果满足预设故障修复触发条件时,启动预设故障修复进程对所述硬盘进行修复。
优选地,所述将各个所述初始预测结果输入到预设的故障预测模型中进行故障预分析,获得故障预测结果,包括:
利用故障预测模型并结合各个所述预测子模型的准确率以及对应的初始预测结果进行故障预分析,获得包括故障发生率的故障预测结果。
优选地,还包括:
记录所述硬盘的故障信息,并利用所述故障信息对各个所述预测子模型的准确率进行调整。
优选地,所述分别输入到不同的预测子模型中进行故障预测,获得各个所述预测子模型输出的初始预测结果,包括:
将所述目标指标数据分别输入到包括决策树预测子模型、贝叶斯网络预测子模型、神经网络预测子模型和支持向量机预测子模型的各个不同的预测子模型中进行故障预测,获得各个所述预测子模型输出的初始预测结果。
优选地,当所述故障预测结果满足预设故障修复触发条件时,启动预设故障修复进程对所述硬盘进行修复,包括:
当所述故障预测结果满足预设故障修复触发条件时,在磁盘阵列中确定备用硬盘,并记录所述备用硬盘的ID信息;
将所述硬盘中的数据迁移至所述备用硬盘,并输出数据迁移信息;
对迁移了数据的硬盘进行修复。
优选地,对迁移了数据的硬盘进行修复,包括:
判断所述硬盘是否在设定时段内发生了故障;
如果是,则直接对所述硬盘进行修复;
如果否,则在所述设定时段之后,对所述硬盘进行修复。
优选地,在启动预设故障修复进程对所述硬盘进行修复之后,还包括:
判断所述硬盘是否正常;
如果是,则将所述硬盘作为备用硬盘,加入磁盘阵列,并输出提示信息;
如果否,则输出告警信息。
一种硬盘维护装置,包括:
故障预测模块,用于获取硬盘的目标指标数据并分别输入到不同的预测子模型中进行故障预测,获得各个所述预测子模型输出的初始预测结果;
故障分析模块,用于将各个所述初始预测结果输入到预设的故障预测模型中进行故障预分析,获得故障预测结果;
硬盘修复模块,用于当所述故障预测结果满足预设故障修复触发条件时,启动预设故障修复进程对所述硬盘进行修复。
一种硬盘维护设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述硬盘维护方法的步骤。
一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述硬盘维护方法的步骤。
应用本发明实施例所提供的方法,获取硬盘的目标指标数据并分别输入到不同的预测子模型中进行故障预测,获得各个预测子模型输出的初始预测结果;将各个初始预测结果输入到预设的故障预测模型中进行故障预分析,获得故障预测结果;当故障预测结果满足预设故障修复触发条件时,启动预设故障修复进程对硬盘进行修复。在进行硬盘维护时,首先获取硬盘的目标指标数值,然后利用不同的预测子模型对目标指标数据进行分析,可以得到各个预测子模型输出的初始预测结果。然后利用故障预测模型对获得的这些初始预测结果进行分析,可以避免预测模型单一或预测模型本身的预测结果不准确的问题,得到较为准确的故障发生率。可解决因故障发生率不准确带来的维修不全面或冗余维修(非正常维修)的问题。当故障预测结果满足预设故障修复触发条件时,则启动预设故障修复进程对硬盘进行自动修复,即,对于部分硬盘故障可进行自动维护。也就是说,本发明实施例提供的硬盘维护方法可以提高硬盘维护效率,减少运维人员的工作量。
相应地,本发明实施例还提供了与上述硬盘维护方法相对应的硬盘维护装置、设备和可读存储介质,具有上述技术效果,在此不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种硬盘维护方法的实施流程图;
图2为本发明实施例中另一种硬盘维护方法的实施流程图;
图3为本发明实施例中另一种硬盘维护方法的实施流程图;
图4为本发明实施例中一种硬盘维护方法的模块化后的层次结构示意图;
图5为本发明实施例中一种硬盘维护方法的具体流程示意图;
图6为本发明实施例中一种硬盘维护装置的结构示意图;
图7为本发明实施例中一种硬盘维护设备的结构示意图。
具体实施方式
本发明的核心是提供一种硬盘维护方法,用于维护存储系统中硬盘。该方法主要利用多个不同的故障预测子模型对硬盘的各项性能指标数据进行故障预测。然后利用故障预测模型对各个预测子模型输出的预测结果进行加权分析处理,确定出准确率较高的故障发生率。当故障发生率大于预设阈值时,则进行硬盘故障修复。较高准确率的故障发生率可提升硬盘维护效率。
本发明的另一核心是通过一种硬盘维护装置、设备及可读存储介质,具有相应技术效果,在此不再赘述。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
请参考图1,图1为本发明实施例中一种硬盘维护方法的流程图,该方法包括以下步骤:
S101、获取硬盘的目标指标数据并分别输入到不同的预测子模型中进行故障预测,获得各个预测子模型输出的初始预测结果。
在本发明实施例中,目标指标数据指硬盘的各项性能数据,例如底层数据读取错误率、寻道错误率、寻到性能等。各个预测子模型可以为通过不同的机器学习方法训练获得的,对应各个预测子模型具体为哪种学习方法获得的可根据实际运行环境和训练效果确定,在此不做限定。需要说明的是,不同的预测子模型是指各个预测子模型各不相同,这里的不同还指针对架构相同,但参数数值不同的预测子模型。这里的预测子模型可以为常见的故障预测模型或算法,在此不再赘述。
可通过对硬盘的性能进行监测,获取该硬盘的目标指标数据。然后将目标指标数据输入到不同的预测子模型中进行故障预测,然后分别获得各个预测子模型输出的初始预测结果。对于各个预测子模型输出的初始预测结果可以相同也可以不同。例如,在各个初始预测结果中,可能存在其中一种初始预设结果显示该硬盘将在24小时内发生故障,而一种初始预设结果显示该硬盘正常无故障可能的情况。
需要说明的是,故障预测可以包括纯硬件故障预测和软件故障预测。相对来说,软件引起的硬件故障比较复杂,因为硬盘牵涉到系统软件和应用软件,但是解决的方式有时候却比较简单。例如主引导扇区被非法修改导致系统无法启动、非正常关机后引起的逻辑坏道等,一般通过重新分区格式化即可解决。而纯硬件的故障修复较为困难。具体的,硬件故障又可以分为系统引起的,例如主板的IDE接口松动、与其他硬件设备不兼容、电源不稳定等等,而另一个就是硬盘本身的故障。硬盘故障包括了磁头损坏、电路板问题、芯片信息丢失、马达不转等,最直观的现象就是进入主板BIOS设置后,无法识别硬盘。也就是说,上述的各个预测子模型可以对多种硬盘故障的其中一种或多种进行预测,确定出该硬盘发生故障的概率或得出是否为发生故障的结果。
S102、将各个初始预测结果输入到预设的故障预测模型中进行故障预分析,获得故障预测结果。
在本发明实施例中,可以预先设置一个故障预测模型,该故障预测模型不同与上述的故障预测子模型。该故障预测模型为对多个初始预测结果进行统计分析,最终获得一个故障预测结果的模型。也就是说,利用故障预测模型,可以对多个预测结果进行处理,并确定最终的故障预测结果。例如,可以结合多个不同预测子模型的初始预测结果来确定故障发生率,或确定出硬盘是否会产生故障的结果。如此,便可避免单一子模型进行故障预测时,存在准确率较低的问题。例如,当初始预测结果为是否发生某种硬盘故障的判断结果时,可以根据输出的初始判断结果为会发生故障的初始预测结果在所有初始预测结果中所占的比例作为故障发生率,或将初始预测结果进行统计,将相同的初始预测结果数量最大的初始预测结果作为最终的故障预测结果。
S103、当故障预测结果满足预设故障修复触发条件时,启动预设故障修复进程对硬盘进行修复。
在本发明实施例中,可以预先设置故障修复触发条件,例如当故障预测结果为硬盘会发生故障的结论即为故障修复触发条件,或当故障预测结果为故障发生率时,当故障发生率达到某一个预设阈值即为故障修复触发条件。即具体的故障预测触发条件可根据实际需要且与故障预测结果形式进行匹配设置。另外,还可以针对硬盘常见故障的修复预先编写故障修复进程如格式化,更新软件系统等修复措施。
应用本发明实施例所提供的方法,获取硬盘的目标指标数据并分别输入到不同的预测子模型中进行故障预测,获得各个预测子模型输出的初始预测结果;将各个初始预测结果输入到预设的故障预测模型中进行故障预分析,获得故障预测结果;当故障预测结果满足预设故障修复触发条件时,启动预设故障修复进程对硬盘进行修复。在进行硬盘维护时,首先获取硬盘的目标指标数值,然后利用不同的预测子模型对目标指标数据进行分析,可以得到各个预测子模型输出的初始预测结果。然后利用故障预测模型对获得的这些初始预测结果进行分析,可以避免预测模型单一或预测模型本身的预测结果不准确的问题,得到较为准确的故障发生率。可解决因故障发生率不准确带来的维修不全面或冗余维修(非正常维修)的问题。当故障预测结果满足预设故障修复触发条件时,则启动预设故障修复进程对硬盘进行自动修复,即,对于部分硬盘故障可进行自动维护。也就是说,本发明实施例提供的硬盘维护方法可以提高硬盘维护效率,减少运维人员的工作量。
需要说明的是,基于上述实施例一,本发明实施例还提供了相应的改进方案。在后续实施例中涉及与上述实施例一中相同步骤或相应步骤之间可相互参考,相应的有益效果也可相互参照,在下文的改进实施例中不再一一赘述。
实施例二:
请参考图2,图2为本发明实施例中另一种硬盘维护方法的流程图,该方法包括以下步骤:
S201、获取硬盘的目标指标数据并分别输入到不同的预测子模型中进行故障预测,获得各个预测子模型输出的初始预测结果。
S202、利用故障预测模型并结合各个预测子模型的准确率以及对应的初始预测结果进行故障预分析,获得包括故障发生率的故障预测结果。
在利用各个初始预测结果确定故障发生率时,可以利用故障预测模型并结合各个预测子模型的准确率以及对应的初始预测结果进行分析。具体的,假设有j(j>=2)个预测子模型,记为M1,M2,…Mj;其对应预测准确率为C1,C2,…Cj。即,对应第j个预测子模型Mj,可通过Pj=Cj/(C1+C2+...+Cj)计算预测子模型的预测权重值pj。故障预测模型便可利用各个预测子模型的预测权重值对初始预设结果进行加权计算,最终获得故障发生率。
优选地,为了使得故障发生率更加准确,还可以记录硬盘的故障信息,并利用故障信息对各个预测子模型的准确率进行调整。
具体的,为了使得故障发生率更加准确,可以将硬盘的故障信息进行记录,并利用故障信息对各个预测子模型的准确率进行调整,其中故障信息可以包括硬盘故障发生的时间,故障原因等。
例如,当存在四个不同的预测子模型时,在某次硬盘发生故障前,各个预测子模型分别输出硬盘故障率为80%,70%,90%,10%四种初始预测结果,利用故障预测模型计算故障发生率时,预测权重值分别为0.1,0.2,0.1,0.6,因输出硬盘故障率为10%的预测子模型所占比较较大,使得计算出的故障发生率小于预设阈值。也就是说,确定硬盘不会发生故障的情况下,发生了硬盘故障。此时,可以对与实际故障情况相差最大的输出硬盘故障率为10%的预测子模型的准确率进行调整,也就是说,在后续的故障预测中,降低该预测子模型的权重比例。相应地,将其他预测子模型的准确率也进行匹配性调整。
S203、当故障预测结果满足预设故障修复触发条件时,启动预设故障修复进程对硬盘进行修复。
实施例三:
请参考图3,图3为本发明实施例中一种硬盘维护方法的流程图,该方法包括以下步骤:
S301、获取硬盘的目标指标数据。
S302、将目标指标数据分别输入到包括决策树预测子模型、贝叶斯网络预测子模型、神经网络预测子模型和支持向量机预测子模型的各个不同的预测子模型中进行故障预测,获得各个预测子模型输出的初始预测结果。
其中,决策树预测子模型、贝叶斯网络预测子模型、神经网络预测子模型和支持向量机预测子模型中即为分别利用决策树、贝叶斯网络、神经网络和向量机原理进行故障预测的模型。决策树、贝叶斯网络、神经网络和向量机为常见的算法模型,在此不再赘述其具体的原理及运算过程。需要说明的是,将目标指标数据分别输入到这些不同的预测子模型之后,每一个预测子模型均会对目标指标数据进行处理,并输出各自处理的结果,也就是是初始预测结果。因预测原理不同,所以初始预测结果可以相同也可以不同。另外,预测子模型包括但不仅限于上述列举的决策树预测子模型、贝叶斯网络预测子模型、神经网络预测子模型和支持向量机预测子模型四种预测子模型。也就是说,在本发明的其他实施例中,还可以包括其他预测子模型。
S303、将各个初始预测结果输入到预设的故障预测模型中进行故障预分析,获得故障预测结果。
S304、当故障预测结果满足预设故障修复触发条件时,在磁盘阵列中确定备用硬盘,并记录备用硬盘的ID信息。
S305、将硬盘中的数据迁移至备用硬盘,并输出数据迁移信息。
为便于描述,下面将上述步骤S304和S305结合起来进行说明。
对硬盘修复前,在磁盘阵列中找到备用硬盘,并记录该备用硬盘ID信息。此时,为了运维人员或用户能够及时了解到存储系统中的硬盘资源以及硬盘修复情况。优选地,还可以输出告警显示信息,以便告知运维人员或用户了解到某个硬盘即将发生故障,现已开启数据迁移功能,准故障盘的数据将迁移至指定备用硬盘。告知之后,将准故障盘内存储的数据迁移至选定的备用硬盘。数据迁移完成之后,还可以对应输出数据迁移完成的提示信息,告知运维人员或用户已完成数据迁移。
完成数据迁移之后,可以对迁移了数据的硬盘执行步骤S306的操作,也就是准故障盘进行故障修复。
S306、对迁移了数据的硬盘进行修复。
优选地,步骤S306具体可以包括:
判断硬盘是否在设定时段内发生了故障;如果是,直接对硬盘进行修复;如果否,则在设定时段之后,对硬盘进行修复。
当故障预测结果满足预设故障修复触发条件时,可以对该硬盘进行监测,并判断该硬盘是否在设定时间段内发生了故障。需要说明的是,这里的设定时间段可以与故障预测模式进行匹配。例如,故障预测子模型可以预测设定时间段内故障发生的可能性,例如24小时之内硬盘发生故障的概率。这里的预定时间段即为24小时,当然在本发明的其他实施例中也可以为其他时长。
优选地,在完成故障修复之后,还可以对完成修复之后的硬盘进行评估并利用评估结果进行处理。具体可以包括以下步骤:
步骤一、判断硬盘是否正常。
完成硬盘修复后,可以通过读取硬盘的性能指标数据,判断该硬盘是否正常。如果硬盘正常,则执行步骤二的操作;如果硬盘不正常,则执行步骤三的操作。
步骤二、将硬盘作为备用硬盘,加入磁盘阵列,并输出提示信息。
当该硬盘正常时,则将该硬盘作为备用硬盘加入磁盘阵列,也就是进入待命状态。此时还可以对外输出提示信息,以告知用户或管理人员该硬盘已可投入使用。
步骤三、输出告警信息。
对该硬盘进行判断之后,发现该硬盘不正常,也就是无法正常使用。即可能存在硬盘发生的故障在预设的硬盘修复进程中预先设置的故障修复操作无法解决。此时可以输出告警信息,以便运维人员进行查看维护。
实施例四:
为便于理解,下面以应用上述方法实施例所提供的技术方案进行的软件系统的硬盘维护过程进行详细说明。
请参考图4,图4为本发明实施例中一种硬盘维护方法的模块化后的层次结构示意图。其中,底层包括数据采集模块、数据迁移模块、硬盘修复模块,分别用于采集硬盘性能指标数据,迁移硬盘存储数据,自动修复硬盘;中间层为故障预测模块,应用利用底层上传的硬盘性能指标数据,预测硬盘是否会在未来24h(hour,小时)内发生故障。上层为告警显示模块,用于告知用户硬盘可能发生故障的情况以及提示用户或运维人员介入硬盘修复过程。
请参考图5,图5为本发明实施例中一种硬盘维护方法的具体流程示意图。具体实施过程包括:
采集硬盘性能指标数据。具体的,采集硬盘运行时的各项性能指标数据,例如底层数据读取错误率、寻道错误率、寻到性能等。这些性能指标数据用于输入故障预测模块,以便预测硬盘是否将会发生故障。
预测硬盘故障。具体的,故障预测模块接收硬盘性能指标数据。故障预测模块包含若干预测子模型,这些预测子模型可以为通过机器学习方法训练获得。且每个预测自模型可单独根据硬盘性能指标数据给出一个预测结果。故障预测模块综合各个预测子模型的预测结果,给出最终的预测结果,预测硬盘在未来24h内是否会发生故障,并将结果反馈给数据迁移、告警显示模块。
保护硬盘数据。具体的,如果某个硬盘被预测在未来24h内会发生故障,则数据迁移模块将该硬盘内的存储数据转移至备用硬盘。
自动修复硬盘。具体的,如果某个硬盘被预测在未来24h内会发生故障,待其中存储的数据迁移完成之后,进入自动修复过程。自动修复过程为:等待24h,判断硬盘是否在这24h内发生了故障,并将结果反馈给故障预测模块,统计每个预测模型在一定时间的预测准确率,用于帮助故障预测模块调整各预测模型组合。在硬盘发生故障后或者24h后执行格式化等自动修复过程。完成修复后,评估硬盘是否可继续使用,如果可以,加入磁盘阵列,继续使用。如果不能继续使用,则给告警显示模块发送消息,提示需人为介入修复或更换硬盘。
显示告警结果。具体的,告警显示模块用于显示硬盘故障预测结果信息以及是否需要人为介入,完成硬盘修复过程。
利用采集的硬盘各项指标数据,采用多种机器学习方法,训练出多种相应的预测子模型,并对这些预测子模型进行有效组合,实现对硬盘的故障预测。预测子模型相互独立,一旦某个预测模型需要更新或替换,则可以随时将其下线,并上线新预测模型,保证预测准确率。根据硬盘故障预测结果,对可能发生故障的硬盘进行数据保护和自动修复工作,提高运维效率,实现硬盘自动化运维。
相应于上面的方法实施例,本发明实施例还提供了一种硬盘维护装置,下文描述的硬盘维护装置与上文描述的硬盘维护方法可相互对应参照。
参见图6所示,该装置包括以下模块:
故障预测模块101,用于获取硬盘的目标指标数据并分别输入到不同的预测子模型中进行故障预测,获得各个预测子模型输出的初始预测结果;
故障分析模块102,用于将各个初始预测结果输入到预设的故障预测模型中进行故障预分析,获得故障预测结果;
硬盘修复模块103,用于当故障预测结果满足预设故障修复触发条件时,启动预设故障修复进程对硬盘进行修复。
应用本发明实施例所提供的装置,获取硬盘的目标指标数据并分别输入到不同的预测子模型中进行故障预测,获得各个预测子模型输出的初始预测结果;将各个初始预测结果输入到预设的故障预测模型中进行故障预分析,获得故障预测结果;当故障预测结果满足预设故障修复触发条件时,启动预设故障修复进程对硬盘进行修复。在进行硬盘维护时,首先获取硬盘的目标指标数值,然后利用不同的预测子模型对目标指标数据进行分析,可以得到各个预测子模型输出的初始预测结果。然后利用故障预测模型对获得的这些初始预测结果进行分析,可以避免预测模型单一或预测模型本身的预测结果不准确的问题,得到较为准确的故障发生率。可解决因故障发生率不准确带来的维修不全面或冗余维修(非正常维修)的问题。当故障预测结果满足预设故障修复触发条件时,则启动预设故障修复进程对硬盘进行自动修复,即,对于部分硬盘故障可进行自动维护。也就是说,本发明实施例提供的硬盘维护方法可以提高硬盘维护效率,减少运维人员的工作量。
在本发明的一种具体实施方式中,故障分析模块102,具体用于利用故障预测模型并结合各个预测子模型的准确率以及对应的初始预测结果进行故障预分析,获得包括故障发生率的故障预测结果。
在本发明的一种具体实施方式中,故障分析模块102,还用于记录硬盘的故障信息,并利用故障信息对各个预测子模型的准确率进行调整。
在本发明的一种具体实施方式中,故障预测模块101,具体用于将目标指标数据分别输入到包括决策树预测子模型、贝叶斯网络预测子模型、神经网络预测子模型和支持向量机预测子模型的各个不同的预测子模型中进行故障预测,获得各个预测子模型输出的初始预测结果。
在本发明的一种具体实施方式中,硬盘修复模块103,包括:
备用硬盘确定单元,当故障发生率大于预设阈值时,在磁盘阵列中确定备用硬盘,并记录备用硬盘的ID信息;
数据迁移单元,用于将硬盘中的数据迁移至备用硬盘,并输出数据迁移信息;
硬盘修复单元,用于对迁移了数据的硬盘进行修复。
在本发明的一种具体实施方式中,硬盘修复单元,具体包括:
判断子单元,用于判断硬盘是否在设定时段内发生了故障;
修复子单元,用于当硬盘在设定时段内发生了故障,则直接对硬盘进行修复;当硬盘在设定时段内未发生故障,则在设定时段之后,对硬盘进行修复。
在本发明的一种具体实施方式中,还包括:
修复后反馈处理模块,用于在启动预设故障修复进程对硬盘进行修复之后,还包括:判断硬盘是否正常;如果是,则将硬盘作为备用硬盘,加入磁盘阵列,并输出提示信息;如果否,则输出告警信息。
相应于上面的方法实施例,本发明实施例还提供了一种硬盘维护设备,下文描述的一种硬盘维护设备与上文描述的一种硬盘维护方法可相互对应参照。
参见图7所示,该硬盘维护设备包括:
存储器D1,用于存储计算机程序;
处理器D2,用于执行计算机程序时实现上述方法实施例的硬盘维护方法的步骤。
相应于上面的方法实施例,本发明实施例还提供了一种可读存储介质,下文描述的一种可读存储介质与上文描述的一种硬盘维护方法可相互对应参照。
一种可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例的硬盘维护方法的步骤。
该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动硬盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种硬盘维护方法,其特征在于,包括:
获取硬盘的目标指标数据并分别输入到不同的预测子模型中进行故障预测,获得各个所述预测子模型输出的初始预测结果;
将各个所述初始预测结果输入到预设的故障预测模型中进行故障预分析,获得故障预测结果;
当所述故障预测结果满足预设故障修复触发条件时,启动预设故障修复进程对所述硬盘进行修复。
2.根据权利要求1所述的硬盘维护方法,其特征在于,所述将各个所述初始预测结果输入到预设的故障预测模型中进行故障预分析,获得故障预测结果,包括:
利用故障预测模型并结合各个所述预测子模型的准确率以及对应的初始预测结果进行故障预分析,获得包括故障发生率的故障预测结果。
3.根据权利要求2所述的硬盘维护方法,其特征在于,还包括:
记录所述硬盘的故障信息,并利用所述故障信息对各个所述预测子模型的准确率进行调整。
4.根据权利要求1所述的硬盘维护方法,其特征在于,所述分别输入到不同的预测子模型中进行故障预测,获得各个所述预测子模型输出的初始预测结果,包括:
将所述目标指标数据分别输入到包括决策树预测子模型、贝叶斯网络预测子模型、神经网络预测子模型和支持向量机预测子模型的各个不同的预测子模型中进行故障预测,获得各个所述预测子模型输出的初始预测结果。
5.根据权利要求1所述的硬盘维护方法,其特征在于,当所述故障预测结果满足预设故障修复触发条件时,启动预设故障修复进程对所述硬盘进行修复,包括:
当所述故障预测结果满足预设故障修复触发条件时,在磁盘阵列中确定备用硬盘,并记录所述备用硬盘的ID信息;
将所述硬盘中的数据迁移至所述备用硬盘,并输出数据迁移信息;
对迁移了数据的硬盘进行修复。
6.根据权利要求5所述的硬盘维护方法,其特征在于,对迁移了数据的硬盘进行修复,包括:
判断所述硬盘是否在设定时段内发生了故障;
如果是,则直接对所述硬盘进行修复;
如果否,则在所述设定时段之后,对所述硬盘进行修复。
7.根据权利要求1至6任一项所述的硬盘维护方法,其特征在于,在启动预设故障修复进程对所述硬盘进行修复之后,还包括:
判断所述硬盘是否正常;
如果是,则将所述硬盘作为备用硬盘,加入磁盘阵列,并输出提示信息;
如果否,则输出告警信息。
8.一种硬盘维护装置,其特征在于,包括:
故障预测模块,用于获取硬盘的目标指标数据并分别输入到不同的预测子模型中进行故障预测,获得各个所述预测子模型输出的初始预测结果;
故障分析模块,用于将各个所述初始预测结果输入到预设的故障预测模型中进行故障预分析,获得故障预测结果;
硬盘修复模块,用于当所述故障预测结果满足预设故障修复触发条件时,启动预设故障修复进程对所述硬盘进行修复。
9.一种硬盘维护设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述硬盘维护方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述硬盘维护方法的步骤。
CN201810522673.1A 2018-05-28 2018-05-28 一种硬盘维护方法、装置、设备及可读存储介质 Pending CN108845760A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810522673.1A CN108845760A (zh) 2018-05-28 2018-05-28 一种硬盘维护方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810522673.1A CN108845760A (zh) 2018-05-28 2018-05-28 一种硬盘维护方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN108845760A true CN108845760A (zh) 2018-11-20

Family

ID=64207839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810522673.1A Pending CN108845760A (zh) 2018-05-28 2018-05-28 一种硬盘维护方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN108845760A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582237A (zh) * 2018-11-30 2019-04-05 上海工程技术大学 一种基于机械硬盘的坏扇区映射方法
CN109739739A (zh) * 2018-12-28 2019-05-10 中兴通讯股份有限公司 磁盘故障的预测方法、设备及存储介质
CN110069810A (zh) * 2019-03-11 2019-07-30 北京百度网讯科技有限公司 电池故障预测方法、装置、设备和可读存储介质
CN111008119A (zh) * 2019-12-13 2020-04-14 浪潮电子信息产业股份有限公司 一种硬盘预测模型的更新方法、装置、设备及介质
CN111158964A (zh) * 2019-11-26 2020-05-15 北京邮电大学 一种磁盘故障预测方法、系统、装置及存储介质
CN111949488A (zh) * 2020-08-14 2020-11-17 山东英信计算机技术有限公司 一种硬盘故障预测方法、系统及电子设备和存储介质
CN113626242A (zh) * 2021-08-11 2021-11-09 中国银行股份有限公司 一种数据处理方法、装置及电子设备
WO2022227373A1 (zh) * 2021-04-26 2022-11-03 华为技术有限公司 一种硬盘健康评估方法和存储设备
WO2023236753A1 (zh) * 2022-06-09 2023-12-14 中兴通讯股份有限公司 一种硬盘故障预测方法、装置、存储介质及电子装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103389918A (zh) * 2013-07-24 2013-11-13 北京鲸鲨软件科技有限公司 一种适用于raid系统中假性故障的修复方法
CN104503874A (zh) * 2014-12-29 2015-04-08 南京大学 一种云计算平台的硬盘故障预测方法
CN107391301A (zh) * 2017-08-16 2017-11-24 北京奇虎科技有限公司 存储系统的数据管理方法、装置、计算设备及存储介质
CN107577545A (zh) * 2016-07-05 2018-01-12 北京金山云网络技术有限公司 一种故障磁盘检测与修复方法和装置
CN108052528A (zh) * 2017-11-09 2018-05-18 华中科技大学 一种存储设备时序分类预警方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103389918A (zh) * 2013-07-24 2013-11-13 北京鲸鲨软件科技有限公司 一种适用于raid系统中假性故障的修复方法
CN104503874A (zh) * 2014-12-29 2015-04-08 南京大学 一种云计算平台的硬盘故障预测方法
CN107577545A (zh) * 2016-07-05 2018-01-12 北京金山云网络技术有限公司 一种故障磁盘检测与修复方法和装置
CN107391301A (zh) * 2017-08-16 2017-11-24 北京奇虎科技有限公司 存储系统的数据管理方法、装置、计算设备及存储介质
CN108052528A (zh) * 2017-11-09 2018-05-18 华中科技大学 一种存储设备时序分类预警方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
许丽佳等: "故障组合预测模型研究", 《电子测量与仪器学报》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582237A (zh) * 2018-11-30 2019-04-05 上海工程技术大学 一种基于机械硬盘的坏扇区映射方法
CN109582237B (zh) * 2018-11-30 2021-12-17 上海工程技术大学 一种基于机械硬盘的坏扇区映射方法
CN109739739A (zh) * 2018-12-28 2019-05-10 中兴通讯股份有限公司 磁盘故障的预测方法、设备及存储介质
CN110069810A (zh) * 2019-03-11 2019-07-30 北京百度网讯科技有限公司 电池故障预测方法、装置、设备和可读存储介质
CN111158964A (zh) * 2019-11-26 2020-05-15 北京邮电大学 一种磁盘故障预测方法、系统、装置及存储介质
CN111158964B (zh) * 2019-11-26 2021-06-08 北京邮电大学 一种磁盘故障预测方法、系统、装置及存储介质
CN111008119A (zh) * 2019-12-13 2020-04-14 浪潮电子信息产业股份有限公司 一种硬盘预测模型的更新方法、装置、设备及介质
CN111949488A (zh) * 2020-08-14 2020-11-17 山东英信计算机技术有限公司 一种硬盘故障预测方法、系统及电子设备和存储介质
WO2022227373A1 (zh) * 2021-04-26 2022-11-03 华为技术有限公司 一种硬盘健康评估方法和存储设备
CN113626242A (zh) * 2021-08-11 2021-11-09 中国银行股份有限公司 一种数据处理方法、装置及电子设备
WO2023236753A1 (zh) * 2022-06-09 2023-12-14 中兴通讯股份有限公司 一种硬盘故障预测方法、装置、存储介质及电子装置

Similar Documents

Publication Publication Date Title
CN108845760A (zh) 一种硬盘维护方法、装置、设备及可读存储介质
CN110413227B (zh) 一种硬盘设备的剩余使用寿命在线预测方法和系统
CN102591591B (zh) 磁盘检测系统、磁盘检测方法以及网络存储系统
US10606722B2 (en) Method and system for diagnosing remaining lifetime of storages in data center
US20230297243A1 (en) Method and apparatus for predicting service life of solid-state disk, and computer-readable storage medium
CN108803576A (zh) 一种温控系统的故障预警方法及相关装置
CN112214369A (zh) 基于模型融合的硬盘故障预测模型建立方法及其应用
CN110164501A (zh) 一种硬盘检测方法、装置、存储介质及设备
EP4078380B1 (en) Behavior-driven die management on solid-state drives
CN108415810B (zh) 一种硬盘状态监控方法和装置
WO2024164713A1 (zh) 存储器健康状态确定方法、装置、电子设备及存储介质
Levitin et al. Non-Homogeneous 1-Out-of-${N} $ Warm Standby Systems With Random Replacement Times
JP7273669B2 (ja) ストレージシステム及びその制御方法
CN108519940A (zh) 一种存储设备告警方法、系统及计算机可读存储介质
CN109032891A (zh) 一种云计算服务器硬盘故障预测方法及装置
CN108415819B (zh) 一种硬盘故障追踪方法和装置
US9678824B2 (en) Durability and availability evaluation for distributed storage systems
CN118174292A (zh) 智慧后勤信息管理方法
CN117591351A (zh) 磁盘故障检测模型的训练方法以及磁盘故障检测方法
Jiang et al. Scrub unleveling: Achieving high data reliability at low scrubbing cost
CN107861829A (zh) 一种磁盘故障检测的方法、系统、装置及存储介质
CN106571969B (zh) 一种云服务可用性评估方法和系统
JP6811066B2 (ja) リスク評価装置、リスク変化量の評価方法及びプログラム
CN107122254A (zh) 一种计算机修复控制方法及系统、修复方法及系统
CN108959027A (zh) 一种非易失性内存的预警方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181120