CN116578459A - 一种慢盘监测及处理方法、装置及计算机可读存储介质 - Google Patents

一种慢盘监测及处理方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN116578459A
CN116578459A CN202310576208.7A CN202310576208A CN116578459A CN 116578459 A CN116578459 A CN 116578459A CN 202310576208 A CN202310576208 A CN 202310576208A CN 116578459 A CN116578459 A CN 116578459A
Authority
CN
China
Prior art keywords
hard disk
disk
target hard
input
slow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310576208.7A
Other languages
English (en)
Inventor
陈远喆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Inspur Data Technology Co Ltd
Original Assignee
Jinan Inspur Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Inspur Data Technology Co Ltd filed Critical Jinan Inspur Data Technology Co Ltd
Priority to CN202310576208.7A priority Critical patent/CN116578459A/zh
Publication of CN116578459A publication Critical patent/CN116578459A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种慢盘监测及处理方法、装置及计算机可读存储介质,涉及存储系统领域,首先在目标硬盘进行输入/输出操作时判断目标硬盘是否为慢盘,若为慢盘,暂停目标硬盘的输入/输出操作,考虑到慢盘的产生可能是硬件故障导致的,而硬盘和该硬盘所在的硬件环境具有针对硬件故障的自修复功能,若目标硬盘本身没有达到坏盘标准,自修复后目标硬盘就可能从慢盘恢复成正常硬盘,因此在硬件环境自修复完成后再次判断目标硬盘是否为坏盘,若不是坏盘,则恢复目标硬盘的输入/输出操作。因为性能恢复后继续使用的慢盘本身不是坏盘,是由于硬件故障出现异常产生的慢盘,降低了存储系统中硬盘的整体故障率和返修率,提高了存储系统的可靠性和稳定性。

Description

一种慢盘监测及处理方法、装置及计算机可读存储介质
技术领域
本发明涉及存储系统领域,特别是涉及一种慢盘监测及处理方法、装置及计算机可读存储介质。
背景技术
存储系统中的慢盘通常是指存储系统中性能较低的硬盘,慢盘的存在会影响存储系统的性能,为了使存储系统的性能更加稳定,需要及时对存储系统是否存在慢盘进行检测。
相关技术中,针对存储系统中慢盘的检测的技术问题采取的方案是设置SAS(Serial Attached SCSI,串行连接SCSI)链路和硬盘健康监控,但这是一种提前监控的预防措施,例如,当存储系统中出现了慢盘,慢盘的异常参数值可能还没有产生变化,但是监控已经结束了。由此可见,由于这种监控方案的监控的时间是超前的,而异常的参数值变化的时间是滞后的,因此对于已经出现参数值变化的慢盘问题无法进行监测。
并且由于这是一种提前监控的预防措施,通常在存储系统中一旦检测出慢盘,就将慢盘进行业务隔离处理,并对检测出的慢盘进行更换,但是由于检测出的慢盘的情况除了硬盘本身出现异常所导致的之外,还有可能是由于硬盘所在SAS链路出现异常,进而影响了硬盘本身的性能,导致检测出了慢盘,而由于慢盘所在SAS链路或硬盘的硬件环境具备一定可修复性,有些慢盘可以在SAS链路或硬件环境自修复后恢复性能,因此如果仅通过上述方案区分慢盘并对慢盘进行隔离,就会提高存储系统中硬盘的整体故障率和返修率,对存储系统的可用性造成不利影响。
发明内容
本发明的目的是提供一种慢盘监测及处理方法、装置及计算机可读存储介质,首先在目标硬盘进行输入/输出操作时判断目标硬盘是否为慢盘,若目标硬盘为慢盘,为避免影响存储系统的性能,先暂停目标硬盘的输入/输出操作,考虑到慢盘的产生可能是硬件故障导致的,而硬盘和该硬盘所在的硬件环境具有针对硬件故障的自修复功能,若目标硬盘本身没有达到坏盘标准,自修复后目标硬盘就有从慢盘恢复成正常硬盘的可能性,因此等待目标硬盘所在的硬件环境自修复完成后进一步判断目标硬盘是否为坏盘,若目标硬盘不是坏盘,则恢复目标硬盘的输入/输出操作。本发明可以实现将一部分慢盘的性能恢复正常后继续使用,因为这些慢盘本身并不是坏盘,而是由于硬件故障出现异常产生的慢盘,降低了存储系统中硬盘的整体故障率和返修率,提高了存储系统的可靠性和稳定性。
为解决上述技术问题,本发明提供了一种慢盘监测及处理方法,包括:
在目标硬盘进行输入/输出操作时判断所述目标硬盘是否为慢盘;
若所述目标硬盘为慢盘,则暂停所述目标硬盘的输入/输出操作并在预设时间后判断所述目标硬盘是否为坏盘,所述预设时间不小于所述目标硬盘所在的硬件环境的修复时间;
若所述目标硬盘不是坏盘,则恢复所述目标硬盘的输入/输出操作。
在一些实施例中,在目标硬盘进行输入/输出操作时判断所述目标硬盘是否为慢盘,包括:
获取目标硬盘进行输入/输出操作时的输入/输出状态;
根据所述输入/输出状态判断所述目标硬盘是否为慢盘。
在一些实施例中,获取目标硬盘进行输入/输出操作时的输入/输出状态,包括:
获取目标硬盘进行输入/输出操作时平均每次输入/输出操作的服务时间以及单位时间内向文件系统发出的最小操作数;
根据所述输入/输出状态判断所述目标硬盘是否为慢盘,包括:
判断所述平均每次输入/输出操作的服务时间是否不小于预设服务时间;
判断所述单位时间内向文件系统发出的最小操作数是否不小于预设操作数;
若平均每次输入/输出操作的服务时间不小于预设服务时间且单位时间内向文件系统发出的最小操作数不小于预设操作数,则判定所述目标硬盘为慢盘。
在一些实施例中,获取目标硬盘进行输入/输出操作时的输入/输出状态,包括:
获取目标硬盘进行输入/输出操作时平均每次输入/输出操作的等待时间以及单位时间内处理的输入/输出操作的最小数目;
根据所述输入/输出状态判断所述目标硬盘是否为慢盘,包括:
判断所述平均每次输入/输出操作的等待时间是否不小于预设等待时间;
判断所述单位时间内处理的输入/输出操作的最小数目是否不大于预设操作数目;
若平均每次输入/输出操作的等待时间不小于预设等待时间且单位时间内处理的输入/输出操作的最小数目不大于预设操作数目,则判定所述目标硬盘为慢盘。
在一些实施例中,获取目标硬盘进行输入/输出操作时的输入/输出状态,包括:
获取目标硬盘进行输入/输出操作时命令下发超时时间;
根据所述输入/输出状态判断所述目标硬盘是否为慢盘,包括:
判断所述命令下发超时时间是否大于预设命令下发超时时间;
若是,则判定所述目标硬盘为慢盘。
在一些实施例中,在预设时间后判断所述目标硬盘是否为坏盘,包括:
在预设时间后通过自动检测、分析及报告技术获取所述目标硬盘的状态信息,所述状态信息包括硬盘重映射扇区数、硬盘寻道故障率、硬盘不可纠正错误数以及硬盘温度中的一种或者多种的组合;
判断各所述状态信息是否在各自对应的预设阈值内;
若是,则判定所述目标硬盘不是坏盘。
在一些实施例中,还包括:
若判定所述目标硬盘是坏盘,则不再恢复所述目标硬盘的输入/输出操作。
在一些实施例中,暂停所述目标硬盘的输入/输出操作之前,还包括:
获取所述目标硬盘的恢复次数;
判断所述目标硬盘的恢复次数是否达到预设恢复次数;
若所述目标硬盘的恢复次数达到预设恢复次数,则对所述目标硬盘进行隔离;
若所述目标硬盘的恢复次数未达到预设恢复次数,则进入暂停所述目标硬盘的输入/输出操作的步骤。
为解决上述技术问题,本发明还提供了一种慢盘监测及处理装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现所述慢盘监测及处理方法的步骤。
为解决上述技术问题,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述慢盘监测及处理方法的步骤。
本发明提供的一种慢盘监测及处理方法、装置及计算机可读存储介质,首先在目标硬盘进行输入/输出操作时判断目标硬盘是否为慢盘,若目标硬盘为慢盘,为避免影响存储系统的性能,先暂停目标硬盘的输入/输出操作,考虑到慢盘的产生可能是硬件故障导致的,而硬盘和该硬盘所在的硬件环境具有针对硬件故障的自修复功能,若目标硬盘本身没有达到坏盘标准,自修复后目标硬盘就有从慢盘恢复成正常硬盘的可能性,因此等待目标硬盘所在的硬件环境自修复完成后进一步判断目标硬盘是否为坏盘,若目标硬盘不是坏盘,则恢复目标硬盘的输入/输出操作。本发明可以实现将一部分慢盘的性能恢复正常后继续使用,因为这些慢盘本身并不是坏盘,而是由于硬件故障出现异常产生的慢盘,降低了存储系统中硬盘的整体故障率和返修率,提高了存储系统的可靠性和稳定性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种慢盘监测及处理方法的流程示意图;
图2为本发明提供的另一种慢盘监测及处理方法的流程示意图;
图3为本发明提供的一种慢盘监测及处理装置的结构示意图。
具体实施方式
本发明的核心是提供一种慢盘监测及处理方法、装置及计算机可读存储介质,首先在目标硬盘进行输入/输出操作时判断目标硬盘是否为慢盘,若目标硬盘为慢盘,为避免影响存储系统的性能,先暂停目标硬盘的输入/输出操作,考虑到慢盘的产生可能是硬件故障导致的,而硬盘和该硬盘所在的硬件环境具有针对硬件故障的自修复功能,若目标硬盘本身没有达到坏盘标准,自修复后目标硬盘就有从慢盘恢复成正常硬盘的可能性,因此等待目标硬盘所在的硬件环境自修复完成后进一步判断目标硬盘是否为坏盘,若目标硬盘不是坏盘,则恢复目标硬盘的输入/输出操作。本发明可以实现将一部分慢盘的性能恢复正常后继续使用,因为这些慢盘本身并不是坏盘,而是由于硬件故障出现异常产生的慢盘,降低了存储系统中硬盘的整体故障率和返修率,提高了存储系统的可靠性和稳定性。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种慢盘监测及处理方法,请参考图1,图1为本发明提供的一种慢盘监测及处理方法的流程示意图,包括:
S11:在目标硬盘进行输入/输出操作时判断目标硬盘是否为慢盘,若目标硬盘为慢盘,则进入S12;
本步骤中的目标硬盘指的是存储系统中的硬盘,并不特指某个硬盘,对于目标硬盘的数量也不做限定,此处的慢盘指的是存储系统中性能较低的硬盘。在一些实施例中,可以在存储系统业务层慢盘检测过程中监控所有硬盘。具体地,当硬盘变为慢盘后,会体现在进行输入/输出操作的过程中,例如,慢盘在进行输入/输出操作时,输入/输出状态与正常的硬盘是不同的,因此,在一些实施例中,在判断目标硬盘是否为慢盘时,可以监控目标硬盘的输入/输出状态,具体地,可以借助iostat(用于报告中央处理器统计信息)工具,设定符合慢盘标准的条件和阈值,若目标硬盘的输入/输出状态符合慢盘标准的条件和阈值,说明目标硬盘为慢盘。判定目标硬盘为慢盘后,可以将异常硬盘的业务隔离,不再对异常硬盘下发输入/输出操作,并且生成慢盘告警,记录慢盘相关信息日志。对于告警的具体方式不做限定。
其中,iostat工具是用于报告中央处理器统计信息和整个系统、适配器、tty设备(TeleTYpe,终端设备)、磁盘和CD-ROM(Compact Disc Read-Only Memory,只读光盘)的输入/输出统计信息的。iostat命令用来监视系统输入/输出设备负载,可以通过观察与它们的平均传送速率相关的物理磁盘的活动时间来实现。并且iostat命令生成的报告可以用来更改系统配置来更好地平衡物理磁盘和适配器之间的输入/输出负载。
S12:暂停目标硬盘的输入/输出操作并在预设时间后判断目标硬盘是否为坏盘,预设时间不小于目标硬盘所在的硬件环境的修复时间,若目标硬盘不是坏盘,则进入S13;
本步骤在SAS链路或硬盘所在的硬件环境可修复场景提供了慢盘恢复判断方法,对现有通用慢盘判断机制进行补充,更准确的判断是否存在异常。判定目标硬盘为慢盘后,为避免影响存储系统的性能,首先暂停目标硬盘的输入/输出操作,由于目标硬盘被判定为慢盘后,仅能表征该目标硬盘的性能较低,但是并不能表征该目标硬盘是坏盘,因此需要判断目标硬盘是否为坏盘,即判断目标硬盘是否达到坏盘的标准,再决定是否隔离该目标硬盘。
又考虑到SAS链路及硬盘所在的硬件环境往往具有自修复功能,若目标硬盘本身不是坏盘的话,SAS链路或硬盘所在的硬件环境自修复后可能能够恢复目标硬盘的性能,因此不立刻判断目标硬盘是否为坏盘,而是在预设时间后判断,并且由于SAS链路恢复正常通常需要几十秒,硬件环境自修复例如硬盘出现重映射扇区等故障恢复需要几秒,因此预设时间不小于目标硬盘所在的硬件环境的修复时间,需要覆盖硬件修复过程。例如,当出现慢盘时,业务恢复进程开始运行并开始计时,当计时到5分钟时,判断目标硬盘是否为坏盘。对于具体的判断目标硬盘是否为坏盘的方式不做限定,在一些实施例中可以检测目标硬盘的状态信息。
其中,SAS是新一代的SCSI(Small Computer System Interface,小型计算机系统接口)技术,和现在流行的Serial ATA(Serial Advanced Technology Attachment,串行ATA)硬盘相同,都是采用串行技术以获得更高的传输速度,并通过缩短连结线改善内部空间等。SAS是并行SCSI接口之后开发出的全新接口。此接口的设计是为了改善存储系统的效能、可用性和扩充性,并且提供与SATA硬盘的兼容性。
S13:恢复目标硬盘的输入/输出操作。
若目标硬盘不是坏盘,说明目标硬盘的性能恢复了,可以继续使用,因此恢复目标硬盘的输入/输出操作。在一些实施例中,还可以对恢复次数进行记录。
本发明提供了一种慢盘监测及处理方法,首先在目标硬盘进行输入/输出操作时判断目标硬盘是否为慢盘,若目标硬盘为慢盘,为避免影响存储系统的性能,先暂停目标硬盘的输入/输出操作,考虑到慢盘的产生可能是硬件故障导致的,而硬盘和该硬盘所在的硬件环境具有针对硬件故障的自修复功能,若目标硬盘本身没有达到坏盘标准,自修复后目标硬盘就有从慢盘恢复成正常硬盘的可能性,因此等待目标硬盘所在的硬件环境自修复完成后进一步判断目标硬盘是否为坏盘,若目标硬盘不是坏盘,则恢复目标硬盘的输入/输出操作。本发明可以实现将一部分慢盘的性能恢复正常后继续使用,因为这些慢盘本身并不是坏盘,而是由于硬件故障出现异常产生的慢盘,降低了存储系统中硬盘的整体故障率和返修率,提高了存储系统的可靠性和稳定性。
在上述实施例的基础上:
请参考图2,图2为本发明提供的另一种慢盘监测及处理方法的流程示意图。正常业务硬盘检测:在存储系统业务层慢盘检测过程中监控所有硬盘进行输入/输出操作的延时,即监控硬盘的输入/输出状态,生成慢盘告警,记录慢盘相关信息日志。业务恢复进程:当出现慢盘时,业务恢复进程开始运行并开始计时,计时到5分钟时,检测硬盘的smart(Self-Monitoring Analysis and Reporting Technology自动检测、分析及报告技术)信息并判断硬盘的smart信息是否正常,如果smart信息均正常,尝试将业务隔离的慢盘业务恢复,并记录恢复次数。如果硬盘smart信息任一检查项超出阈值范围情况,说明满足坏盘标准,不需要将业务恢复,保持慢盘告警等待更换。慢盘告警、业务隔离、退出恢复进程:如果慢盘恢复业务后,再次被判定为慢盘,重复上述步骤,累计尝试恢复业务3次,如果第3次业务恢复后还满足慢盘条件,保持业务隔离和慢盘告警,业务恢复进程结束。
作为一种优选的实施例,在目标硬盘进行输入/输出操作时判断目标硬盘是否为慢盘,包括:
获取目标硬盘进行输入/输出操作时的输入/输出状态;
根据输入/输出状态判断目标硬盘是否为慢盘。
本实施例中给出了如何在目标硬盘进行输入/输出操作时判断目标硬盘是否为慢盘,由于目标硬盘进行输入/输出操作时会生成输入/输出状态,通过获取一些表征目标硬盘的性能的输入/输出状态就可以判断目标硬盘是否为慢盘,本实施例中对于具体的输入/输出状态不做限定。
本实施例中采用的通过获取目标硬盘进行输入/输出操作时的输入/输出状态,再根据输入/输出状态判断目标硬盘是否为慢盘的方式为滞后检测,与相关技术中的SAS链路和硬盘健康监控不同,SAS链路和硬盘健康监控是一种提前监控反馈异常的参数值的预防措施,不能对反馈异常的参数值还没有变化的慢盘问题进行检测,而本实施例通过滞后检测的方法,可以对这种慢盘问题进行检测,能更准确的判断是否存在慢盘异常,从而提高存储服务器的可用性。
作为一种优选的实施例,获取目标硬盘进行输入/输出操作时的输入/输出状态,包括:
获取目标硬盘进行输入/输出操作时平均每次输入/输出操作的服务时间以及单位时间内向文件系统发出的最小操作数;
根据输入/输出状态判断目标硬盘是否为慢盘,包括:
判断平均每次输入/输出操作的服务时间是否不小于预设服务时间;
判断单位时间内向文件系统发出的最小操作数是否不小于预设操作数;
若平均每次输入/输出操作的服务时间不小于预设服务时间且单位时间内向文件系统发出的最小操作数不小于预设操作数,则判定目标硬盘为慢盘。
本实施例给出了一种具体的通过输入/输出状态判断目标硬盘是否为慢盘的方式,其中,通过获取目标硬盘进行输入/输出操作时平均每次输入/输出操作的服务时间以及单位时间内向文件系统发出的最小操作数,然后将上述参数与预设相关阈值进行比较。在一些实施例中,当svctm(平均每次输入/输出操作的服务时间)>=90ms且min_util(每秒内向文件系统发出的最小操作数)>=50时,说明平均每次输入/输出操作的服务时间较长但是每秒内向文件系统发出的最小操作数较多,此时说明目标硬盘的性能出现了异常,此时判定目标硬盘为慢盘。
本实施例通过获取预设的参数,即平均每次输入/输出操作的服务时间以及单位时间内向文件系统发出的最小操作数,并且针对上述参数预设相关阈值即可判断目标硬盘是否为慢盘,判断的结果较为准确,提高了对于慢盘判断的准确性和存储系统的可靠性。
作为一种优选的实施例,获取目标硬盘进行输入/输出操作时的输入/输出状态,包括:
获取目标硬盘进行输入/输出操作时平均每次输入/输出操作的等待时间以及单位时间内处理的输入/输出操作的最小数目;
根据输入/输出状态判断目标硬盘是否为慢盘,包括:
判断平均每次输入/输出操作的等待时间是否不小于预设等待时间;
判断单位时间内处理的输入/输出操作的最小数目是否不大于预设操作数目;
若平均每次输入/输出操作的等待时间不小于预设等待时间且单位时间内处理的输入/输出操作的最小数目不大于预设操作数目,则判定目标硬盘为慢盘。
本实施例给出了另一种具体的通过输入/输出状态判断目标硬盘是否为慢盘的方式,其中,通过获取目标硬盘进行输入/输出操作时平均每次输入/输出操作的等待时间以及单位时间内处理的输入/输出操作的最小数目,然后将上述参数与预设相关阈值进行比较。在一些实施例中,当await(平均每次输入/输出操作的等待时间)>=600ms且min_ops(每秒内处理的输入/输出操作的最小数目)<=50时,说明平均每次输入/输出操作的等待时间较长且每秒内处理的输入/输出操作的最小数目较小,此时说明目标硬盘的性能出现了异常,此时判定目标硬盘为慢盘。
本实施例通过获取预设的参数,即平均每次输入/输出操作的等待时间以及单位时间内处理的输入/输出操作的最小数目,并且针对上述参数预设相关阈值即可判断目标硬盘是否为慢盘,判断的结果较为准确,提高了对于慢盘判断的准确性和存储系统的可靠性。
作为一种优选的实施例,获取目标硬盘进行输入/输出操作时的输入/输出状态,包括:
获取目标硬盘进行输入/输出操作时命令下发超时时间;
根据输入/输出状态判断目标硬盘是否为慢盘,包括:
判断命令下发超时时间是否大于预设命令下发超时时间;
若是,则判定目标硬盘为慢盘。
本实施例给出了另一种具体的通过输入/输出状态判断目标硬盘是否为慢盘的方式,其中,通过获取目标硬盘进行输入/输出操作时命令下发时间,然后将上述参数与预设相关阈值进行比较。在一些实施例中,当输入/输出命令下发超时>10s,说明输入/输出命令下发超时时间较长,此时说明目标硬盘的性能出现了异常,此时判定目标硬盘为慢盘。
本实施例通过获取预设的参数,即命令下发超时时间,并且针对上述参数预设相关阈值即可判断目标硬盘是否为慢盘,判断的结果较为准确,提高了对于慢盘判断的准确性和存储系统的可靠性。
作为一种优选的实施例,在预设时间后判断目标硬盘是否为坏盘,包括:
在预设时间后通过自动检测、分析及报告技术获取目标硬盘的状态信息,状态信息包括硬盘重映射扇区数、硬盘寻道故障率、硬盘不可纠正错误数以及硬盘温度中的一种或者多种的组合;
判断各状态信息是否在各自对应的预设阈值内;
若是,则判定目标硬盘不是坏盘。
本实施例给出了如何判断目标硬盘是否为坏盘,可以是获取判断目标硬盘的状态参数,在一些实施例中,通过检测暂停输入/输出操作的慢盘的(对应盘符/dev/sdX)smart信息,命令为smartctl-a/dev/sdX。在一些实施例中,可以检查smart信息中硬盘重映射扇区数(Elements in grown defect list)、硬盘寻道故障率、硬盘不可纠正错误、硬盘温度是否均在阈值范围内。如果硬盘的smart信息均正常,尝试将业务隔离的慢盘业务恢复,并记录恢复次数。如果硬盘smart信息任一检查项超出阈值范围情况,说明满足坏盘标准,不需要将业务恢复,保持慢盘告警等待更换。
其中,自动检测分析及报告技术可以对硬盘的磁头单元、盘片电机驱动系统、硬盘内部电路以及盘片表面媒介材料等进行监测,当自动检测分析及报告技术监测并分析出硬盘可能出现问题时会及时向用户报警以避免电脑数据受到损失。不过自动检测分析及报告技术必须在主板支持的前提下才能发生作用,而且也不能保证能预报出所有可能发生的硬盘故障。
本实施例中通过在预设时间后通过自动检测、分析及报告技术获取目标硬盘的状态信息实现了对目标硬盘是否是坏盘的检测,对现有通用慢盘判断机制进行补充,提高了存储服务器的可用性,降低硬件整体故障率和返修率。
作为一种优选的实施例,还包括:
若判定目标硬盘是坏盘,则不再恢复目标硬盘的输入/输出操作。
上述实施例并未考虑若判定目标硬盘是坏盘时如何动作,本实施例中若判定目标硬盘是坏盘,则不再恢复目标硬盘的输入/输出操作,等待技术人员对目标硬盘进行更换。
本实施例给出了若判定目标硬盘是坏盘时的动作,提高了存储系统的可靠性和稳定性。
作为一种优选的实施例,暂停目标硬盘的输入/输出操作之前,还包括:
获取目标硬盘的恢复次数;
判断目标硬盘的恢复次数是否达到预设恢复次数;
若目标硬盘的恢复次数达到预设恢复次数,则对目标硬盘进行隔离;
若目标硬盘的恢复次数未达到预设恢复次数,则进入暂停目标硬盘的输入/输出操作的步骤。
上述实施例并未考虑到若目标硬盘多次恢复输入/输出操作后仍会变为慢盘的情况,此时说明目标硬盘不适合继续使用了,因此在暂停目标硬盘的输入/输出操作之前,先获取目标硬盘的恢复次数,若目标硬盘的恢复次数达到预设恢复次数,则不再考虑恢复目标硬盘的输入/输出操作,而是直接对目标硬盘进行隔离,等待更换;若目标硬盘的恢复次数未达到预设恢复次数,再考虑上述实施例的后续步骤。在一些实施例中,如果慢盘恢复后,再次被判定为慢盘,重复上述实施例的步骤,累计尝试恢复3次,如果第3次恢复后还满足慢盘条件,保持隔离和慢盘告警,不再进行恢复。在一些实施例中,要适时对目标硬盘的恢复次数进行初始化,并且每次对慢盘恢复后要将该目标硬盘的恢复次数加1。
本实施例通过增加获取目标硬盘的恢复次数并判断目标硬盘的恢复次数是否达到预设恢复次数进一步对目标硬盘的性能进行判断,若目标硬盘的恢复次数达到预设恢复次数,则对目标硬盘进行隔离,不再继续恢复目标硬盘的输入/输出操作;若目标硬盘的恢复次数未达到预设恢复次数,则进入暂停目标硬盘的输入/输出操作的步骤,避免了对不适合继续使用的慢盘继续恢复的情况,提高了存储系统的可靠性和稳定性。
本发明还提供了一种慢盘监测及处理装置,请参考图3,图3为本发明提供的一种慢盘监测及处理装置的结构示意图,包括:
存储器1,用于存储计算机程序;
处理器2,用于执行计算机程序时实现慢盘监测及处理方法的步骤。
其中,存储器1至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。
处理器2在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器中存储的程序代码或处理数据。
本发明提供了一种慢盘监测及处理装置,首先在目标硬盘进行输入/输出操作时判断目标硬盘是否为慢盘,若目标硬盘为慢盘,为避免影响存储系统的性能,先暂停目标硬盘的输入/输出操作,考虑到慢盘的产生可能是硬件故障导致的,而硬盘所在的硬件环境具有针对硬件故障的自修复功能,若目标硬盘本身没有达到坏盘标准,自修复后目标硬盘就有从慢盘恢复成正常硬盘的可能性,因此等待目标硬盘所在的硬件环境自修复完成后进一步判断目标硬盘是否为坏盘,若目标硬盘不是坏盘,则恢复目标硬盘的输入/输出操作。本发明可以实现将一部分慢盘的性能恢复正常后继续使用,因为这些慢盘本身并不是坏盘,而是由于硬件故障出现异常产生的慢盘,降低了存储系统中硬盘的整体故障率和返修率,提高了存储系统的可靠性和稳定性。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现慢盘监测及处理方法的步骤。
可以理解的是,如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
具体实施例如上,具有与上述慢盘监测及处理方法相同的效果。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

Claims (10)

1.一种慢盘监测及处理方法,其特征在于,包括:
在目标硬盘进行输入/输出操作时判断所述目标硬盘是否为慢盘;
若所述目标硬盘为慢盘,则暂停所述目标硬盘的输入/输出操作并在预设时间后判断所述目标硬盘是否为坏盘,所述预设时间不小于所述目标硬盘所在的硬件环境的修复时间;
若所述目标硬盘不是坏盘,则恢复所述目标硬盘的输入/输出操作。
2.如权利要求1所述的慢盘监测及处理方法,其特征在于,在目标硬盘进行输入/输出操作时判断所述目标硬盘是否为慢盘,包括:
获取目标硬盘进行输入/输出操作时的输入/输出状态;
根据所述输入/输出状态判断所述目标硬盘是否为慢盘。
3.如权利要求2所述的慢盘监测及处理方法,其特征在于,获取目标硬盘进行输入/输出操作时的输入/输出状态,包括:
获取目标硬盘进行输入/输出操作时平均每次输入/输出操作的服务时间以及单位时间内向文件系统发出的最小操作数;
根据所述输入/输出状态判断所述目标硬盘是否为慢盘,包括:
判断所述平均每次输入/输出操作的服务时间是否不小于预设服务时间;
判断所述单位时间内向文件系统发出的最小操作数是否不小于预设操作数;
若平均每次输入/输出操作的服务时间不小于预设服务时间且单位时间内向文件系统发出的最小操作数不小于预设操作数,则判定所述目标硬盘为慢盘。
4.如权利要求2所述的慢盘监测及处理方法,其特征在于,获取目标硬盘进行输入/输出操作时的输入/输出状态,包括:
获取目标硬盘进行输入/输出操作时平均每次输入/输出操作的等待时间以及单位时间内处理的输入/输出操作的最小数目;
根据所述输入/输出状态判断所述目标硬盘是否为慢盘,包括:
判断所述平均每次输入/输出操作的等待时间是否不小于预设等待时间;
判断所述单位时间内处理的输入/输出操作的最小数目是否不大于预设操作数目;
若平均每次输入/输出操作的等待时间不小于预设等待时间且单位时间内处理的输入/输出操作的最小数目不大于预设操作数目,则判定所述目标硬盘为慢盘。
5.如权利要求2所述的慢盘监测及处理方法,其特征在于,获取目标硬盘进行输入/输出操作时的输入/输出状态,包括:
获取目标硬盘进行输入/输出操作时命令下发超时时间;
根据所述输入/输出状态判断所述目标硬盘是否为慢盘,包括:
判断所述命令下发超时时间是否大于预设命令下发超时时间;
若是,则判定所述目标硬盘为慢盘。
6.如权利要求1所述的慢盘监测及处理方法,其特征在于,在预设时间后判断所述目标硬盘是否为坏盘,包括:
在预设时间后通过自动检测、分析及报告技术获取所述目标硬盘的状态信息,所述状态信息包括硬盘重映射扇区数、硬盘寻道故障率、硬盘不可纠正错误数以及硬盘温度中的一种或者多种的组合;
判断各所述状态信息是否在各自对应的预设阈值内;
若是,则判定所述目标硬盘不是坏盘。
7.如权利要求1所述的慢盘监测及处理方法,其特征在于,还包括:
若判定所述目标硬盘是坏盘,则不再恢复所述目标硬盘的输入/输出操作。
8.如权利要求1至7任一项所述的慢盘监测及处理方法,其特征在于,暂停所述目标硬盘的输入/输出操作之前,还包括:
获取所述目标硬盘的恢复次数;
判断所述目标硬盘的恢复次数是否达到预设恢复次数;
若所述目标硬盘的恢复次数达到预设恢复次数,则对所述目标硬盘进行隔离;
若所述目标硬盘的恢复次数未达到预设恢复次数,则进入暂停所述目标硬盘的输入/输出操作的步骤。
9.一种慢盘监测及处理装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至8任一项所述慢盘监测及处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述慢盘监测及处理方法的步骤。
CN202310576208.7A 2023-05-19 2023-05-19 一种慢盘监测及处理方法、装置及计算机可读存储介质 Pending CN116578459A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310576208.7A CN116578459A (zh) 2023-05-19 2023-05-19 一种慢盘监测及处理方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310576208.7A CN116578459A (zh) 2023-05-19 2023-05-19 一种慢盘监测及处理方法、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN116578459A true CN116578459A (zh) 2023-08-11

Family

ID=87533685

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310576208.7A Pending CN116578459A (zh) 2023-05-19 2023-05-19 一种慢盘监测及处理方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN116578459A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117785074A (zh) * 2024-02-28 2024-03-29 济南浪潮数据技术有限公司 一种输入输出超时处理的方法、装置、服务器及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117785074A (zh) * 2024-02-28 2024-03-29 济南浪潮数据技术有限公司 一种输入输出超时处理的方法、装置、服务器及介质

Similar Documents

Publication Publication Date Title
CN108647136B (zh) 基于smart信息和深度学习的硬盘损坏预测方法及装置
CN109684140B (zh) 一种慢盘检测方法、装置、设备及计算机可读存储介质
US7802019B2 (en) Hard disk drive condition reporting and error correction
US7506314B2 (en) Method for automatically collecting trace detail and history data
JP2005322399A (ja) 磁気ディスク記憶装置におけるトラック・データ完全性の維持方法
CN110164501B (zh) 一种硬盘检测方法、装置、存储介质及设备
US20050210161A1 (en) Computer device with mass storage peripheral (s) which is/are monitored during operation
US8234526B2 (en) Computer system and monitoring device
CN110119344B (zh) 基于s.m.a.r.t参数的硬盘健康状态分析方法
US20230136274A1 (en) Ceph Media Failure and Remediation
JP5488709B2 (ja) ストレージ制御装置における基準時間設定方法
CN114758714A (zh) 一种硬盘故障预测方法、装置、电子设备及存储介质
US7590801B1 (en) Identifying suspect disks
CN108899059B (zh) 一种固态硬盘的检测方法和设备
US8799608B1 (en) Techniques involving flaky path detection
WO1999023562A1 (en) Automatic backup based on disk drive condition
CN116578459A (zh) 一种慢盘监测及处理方法、装置及计算机可读存储介质
JP4627327B2 (ja) 異常判定装置
US20070277059A1 (en) Storage device, control device, and error reporting method
CN115454703A (zh) 一种慢盘隔离控制方法及装置、设备、存储介质
CN113625957B (zh) 一种硬盘故障的检测方法、装置及设备
CN115470059A (zh) 一种磁盘检测方法、装置、设备及存储介质
JP2012038362A (ja) ハードディスク故障予兆検出方法
JP2004118397A (ja) 磁気ディスク装置の障害発生予測システム
CN114237957A (zh) 异常磁盘分区的处理方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination