CN111045881A - 一种慢盘检测方法及系统 - Google Patents

一种慢盘检测方法及系统 Download PDF

Info

Publication number
CN111045881A
CN111045881A CN201811198252.4A CN201811198252A CN111045881A CN 111045881 A CN111045881 A CN 111045881A CN 201811198252 A CN201811198252 A CN 201811198252A CN 111045881 A CN111045881 A CN 111045881A
Authority
CN
China
Prior art keywords
hard disk
response time
information table
trusted
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811198252.4A
Other languages
English (en)
Inventor
古亮
李诗逸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN201811198252.4A priority Critical patent/CN111045881A/zh
Publication of CN111045881A publication Critical patent/CN111045881A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例公开了一种慢盘检测方法及系统,用于提高慢盘检测的准确率,降低慢盘检测的漏判率和误判率。本发明实施例方法包括:采集硬盘的IO性能指标,所述IO性能指标至少包括硬盘的随机输入输出IO响应时间及硬盘每个预设分区的输入输出IO响应时间;判断所述硬盘的IO性能指标是否异常:若是,则记录所述异常的持续时间和/或所述异常在预设时间内的持续次数;分别判断所述持续时间和/或所述持续次数是否大于对应的预设阈值;若是,则确定所述硬盘为慢盘。

Description

一种慢盘检测方法及系统
技术领域
本发明涉及数据存储技术领域,尤其涉及一种慢盘的检测方法及系统。
背景技术
硬盘由于磁头退化或者其他机械、环境问题,会导致硬盘输入输出(IO,input/output)响应时间变长,成为慢盘。在存储系统中,用户数据可以存储至一系列硬盘中,若一个硬盘很慢,会导致整体的读写操作变慢,严重的情况下,会导致业务中断。因此,需要对存储系统中的各盘进行实时检测确定慢盘,以便及时对慢盘进行隔离或备份。
现有的慢盘检测方法只是将整个硬盘的IO响应时间与慢盘事件判断门限进行比较来确定慢盘事件,并在预设周期内某个硬盘的慢盘事件次数超过一定次数时将该硬盘确定为慢盘的方法来检测,其中,多用整个硬盘的IO响应时间的平均值来作为慢盘事件的判断门限来确定存储系统中的慢盘事件。
而现有技术中时常将正常的硬盘判断为慢盘,误判率较高。
发明内容
本发明实施例提供了一种慢盘检测方法及系统,用于采用随机检测和分区检测的方法,对硬盘中的慢盘现象进行检测,并在慢盘现象持续时间超出预设阈值时,才确定该硬盘为慢盘,提高了慢盘检测的准确率,降低了慢盘检测的漏判率及误判率。
本申请实施例第一方面提供了一种慢盘检测方法,包括:
采集硬盘的IO性能指标,所述IO性能指标至少包括硬盘的随机输入输出IO响应时间及硬盘每个预设分区的输入输出IO响应时间;
判断所述硬盘的IO性能指标是否异常:
若是,则记录所述异常的持续时间和/或所述异常在预设时间内的持续次数;
分别判断所述持续时间和/或所述持续次数是否大于对应的预设阈值;
若是,则确定所述硬盘为慢盘。
优选的,所述判断所述硬盘的IO性能指标是否异常,包括:
获取所述硬盘的随机IO响应时间;
判断所述随机IO响应时间是否大于第一时间阈值;
若否,则读取所述硬盘预设分区的可信IO信息表,所述可信IO信息表至少包括所述硬盘每个预设分区对应的可信IO响应时间;
采集所述硬盘预设分区的IO响应时间;
判断所述预设分区的IO响应时间与对应分区的可信IO响应时间的时间差是否大于第二时间阈值;
若是,则确定所述IO性能指标异常。
优选的,在所述读取所述硬盘预设分区的可信IO信息表之前,所述
方法还包括:
判断是否存在所述可信IO信息表;
若不存在,则统计所述硬盘每个预设分区的IO性能指标采集次数,及每次IO性能指标中的IO响应时间;
当所述采集次数大于第一阈值时,则按照第一预设算法从所述采集次数对应的多个IO响应时间中确定每个预设分区对应的可信IO响应时间,从而生成所述可信IO信息表。
优选的,所述方法还包括:
更新每个硬盘的可信IO信息表。
优选的,所述方法还包括:
当存在多个同种类型的硬盘时,则判断是否存在同类可信IO信息表,所述同类可信IO信息表用于存储同种类型硬盘对应分区的可信IO性能指标,且所述可信IO性能指标至少包括可信IO响应时间;
若不存在,则读取每个硬盘预设分区的可信IO信息表,并统计每个硬盘预设分区可信IO信息表的写入次数;
当所述写入次数大于第二阈值时,则按照第二预设算法从多个硬盘对应分区的可信IO信息表中确定同类可信IO信息表;
判断每个硬盘对应分区可信IO信息表中的第一可信IO响应时间与同类可信IO信息表中的第二可信IO响应时间的时间差是否大于第三时间阈值;
若是,则确定所述硬盘的IO性能指标异常。
优选的,所述方法还包括:
更新同种类型硬盘的同类可信IO信息表。
本申请实施例第二方面提供了一种慢盘检测系统,包括:
采集单元,用于采集硬盘的IO性能指标,所述IO性能指标至少包括硬盘的随机输入输出IO响应时间及硬盘每个预设分区的输入输出IO响应时间;
第一判断单元,用于判断所述硬盘的IO性能指标是否异常:
记录单元,用于在所述IO性能指标异常时,记录所述异常的持续时间和/或所述异常在预设时间内的持续次数;
第二判断单元,用于分别判断所述持续时间和/或所述持续次数是否大于对应的预设阈值;
第一确定单元,用于在所述持续时间和/或所述持续次数大于对应的预设阈值时,确定所述硬盘为慢盘。
优选的,所述第一判断单元,包括:
获取模块,用于获取所述硬盘的随机IO响应时间;
第一判断模块,用于判断所述随机IO响应时间是否大于第一时间阈值;
读取模块,用于在所述随机IO响应时间不大于所述第一时间阈值时,读取所述硬盘预设分区的可信IO信息表,所述可信IO信息表至少包括所述硬盘每个预设分区对应的可信IO响应时间;
采集模块,用于采集所述硬盘预设分区的IO响应时间;
第二判断模块,用于判断所述预设分区的IO响应时间与对应分区的可信IO响应时间的时间差是否大于第二时间阈值;
确定模块,用于在所述预设分区的IO响应时间与对应分区的可信IO响应时间的时间差大于所述第二时间阈值时,确定所述硬盘的IO性能指标异常。
优选的,所述第一判断单元,还包括:
第三判断模块,用于判断是否存在所述可信IO信息表;
统计模块,用于在不存在所述可信IO信息表时,统计所述硬盘每个预设分区的IO性能指标采集次数,及每次IO性能指标中的IO响应时间;
生成模块,用于在所述采集次数大于第一阈值时,则按照第一预设算法从所述采集次数对应的多个IO响应时间中确定每个预设分区对应的可信IO响应时间,从而生成所述可信IO信息表。
优选的,所述系统还包括:
第一更新单元,用于更新每个硬盘的可信IO信息表。
优选的,所述系统还包括:
第三判断单元,用于当存在多个同种类型的硬盘时,判断是否存在同类可信IO信息表,所述同类可信IO信息表用于存储同种类型硬盘对应分区的可信IO性能指标,且所述可信IO性能指标至少包括可信IO响应时间;
读取统计单元,用于在不存在所述同类可信IO信息表时,读取每个硬盘预设分区的可信IO信息表,并统计每个硬盘预设分区可信IO信息表的写入次数;
第二确定单元,用于当所述写入次数大于第二阈值时,按照第二预设算法从多个硬盘对应分区的可信IO信息表中确定同类可信IO信息表;
第四判断单元,用于判断每个硬盘对应分区可信IO信息表中的第一可信IO响应时间与同类可信IO信息表中的第二可信IO响应时间的时间差是否大于第三时间阈值;
第三确定单元,用于在所述第一可信IO响应时间与所述第二可信IO响应时间的时间差大于所述第三时间阈值时,确定所述硬盘的IO性能指标异常。
优选的,所述系统还包括:
第二更新单元,用于更新同种类型硬盘的同类可信IO信息表。
本申请实施例还提供了一种慢盘检测系统,包括处理器,该处理器在执行存储于存储器上的计算机程序时,用于实现本申请第一方面提供的慢盘检测方法。
本申请实施例还提供了一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,用于实现本申请第一方面提供的慢盘检测方法。
从以上技术方案可以看出,本发明实施例具有以下优点:
本申请实施例中,采集硬盘的IO性能指标,其中该IO性能指标至少包括硬盘的的随机IO响应时间和每个预设分区对应的IO响应时间,即本实施例不仅采用硬盘的随机IO响应时间作为慢盘的衡量指标,还将硬盘每个预设分区的IO响应时间作为慢盘的衡量指标,并判断该IO性能指标是否异常,并在出现异常时,记录该异常的持续时间和/或在预设时间段内异常的持续次数,并在异常的持续时间和/或在预设时间段内异常的持续次数大于预设的阈值时,才判定该硬盘为慢盘,提高了慢盘检测的准确率,降低了慢盘检测的漏判率及误判率。
附图说明
图1为本申请实施例中一种慢盘检测方法的一个实施例示意图;
图2为图1中步骤102的细化步骤;
图3为本申请实施例中硬盘每个预设分区可信IO响应时间表的生成过程的一个实施例示意图;
图4为本申请实施例中多硬盘的同类可信IO信息表的生成过程的实施例示意图;
图5为本申请实施例中一种慢盘检测系统的一个实施例示意图;
图6为图5中第一判断单元功能模块细化的一个实施例示意图;
图7为图6中第一判断单元功能模块细化的另一个实施例示意图;
图8为本申请实施例中一种慢盘检测系统的另一个实施例示意图。
具体实施方式
本发明实施例提供了一种慢盘检测方法及系统,用于采用随机检测和分区检测的方法,对硬盘中的慢盘现象进行检测,并在慢盘现象持续时间超出预设阈值时,才确定该硬盘为慢盘,提高了慢盘检测的准确率,降低了慢盘检测的漏判率及误判率。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为方便理解,下面对本申请中的慢盘检测方法进行描述,请参阅图1,图1为本申请中一种慢盘检测方法的一个实施例示意图;
101、采集硬盘的IO性能指标,所述IO性能指标至少包括硬盘的随机输入输出IO响应时间及硬盘每个预设分区的输入输出IO响应时间;
硬盘作为一种数据存储工具,一般在出厂时,会有相应的性能指标,包括最大IO吞吐率IOPS、平均延时latency、最大带宽MB/s等。但随着磁盘的使用,在使用过程中会发现磁盘变得越来越慢,有可能是平均延时latency明显增加,也有可能是最大IO吞吐率IOPS降低,还有可能是最大带宽MB/s降低。无论哪种情况都会造成上层业务的性能下降、延时增加、服务能力变差。这些情况都是慢盘的体现,此外还有单次访问的超长卡顿。
对于硬盘而言,硬盘的IO性能指标是衡量硬盘数据读写速度的重要标志,其中,IO性能指标包括:IO响应时间(IO延时)、最大IO吞吐率、最大带宽等,其中,IO响应时间是硬盘单个IO在硬盘内部的处理时间,与单个IO操作在IO等待队列中所花费的等待时间之和;最大IO吞吐率为硬盘在实际使用中从硬盘系统总线上流过的数据量,大小为IO系统每秒所执行IO操作的次数(IOPS)与单个IO操作数据大小的乘积;而硬盘的最大带宽一般为定值,该带宽一般由硬盘与南桥之间的接口类型而决定。
而慢盘主要体现在硬盘单个IO的响应时间较长,故一般以单个IO的响应时间来作为硬盘是否为慢盘的标志,本申请区别于现有技术的是,本实施例不仅采用硬盘的单个随机IO响应时间来作为慢盘的衡量标准,还将硬盘划分为预设的多个分区,并以多个预设分区中每个预设分区的IO响应时间作为慢盘的衡量标准,其中,分区的大小可以是32k、64k、128K或其他大小,此处对分区的大小不做具体限制。
102、判断所述硬盘的IO性能指标是否异常,若是,则执行步骤103,若否,执行步骤106;
步骤101中得到硬盘性能指标中的的随机IO响应时间及多个预设分区对应的IO响应时间后,分别判断整个硬盘的随机IO响应时间和/或多个预设分区对应的IO响应时间是否异常,若异常,则执行步骤103,若非异常,则执行步骤106。
103、记录所述异常的持续时间和/或所述异常在预设时间内的持续次数;
为了避免随机异常的出现,而将硬盘误判为慢盘,故在步骤102中出现IO性能指标异常时,则记录该异常的持续时间,或记录该异常在预设时间段内的持续次数,并根据异常的持续时间和/或异常在预设时间段内的持续次数,执行步骤104。
104、分别判断所述持续时间和/或所述持续次数是否大于对应的预设阈值,若是,则执行步骤105,若否,则执行步骤106;
为了避免将硬盘误判为慢盘,则在步骤103中记录了异常的持续时间和/或异常在预设时间段内的持续次数后,分别判断异常的持续时间和/或异常在预设时间段内的持续次数是否大于各自对应的预设阈值,若是,则执行步骤105,若否,则执行步骤106。
假设:将异常持续时间对应的阈值设置为15分钟,而将采集并判断硬盘IO性能指标的时间间隔设置为10s,则对应的在15分钟内采集并判断IO性能指标的次数为(15*60/10=90次),则可以将异常在预设时间段(如15分钟)内异常持续次数对应的阈值设置为45次,60次、80次或其他值等,此处不做具体限制。
需要说明的是,本实施例中异常持续次数对应的预设时间段和异常的持续时间可以相同,即同时为15分钟,也可以不同,如异常持续时间为15分钟,而异常持续次数对应的预设时间段可以为30分钟或1个小时,可以根据具体的应用场景来自行设置,此处不做具体限制。
105、确定所述硬盘为慢盘;
若步骤104中得到异常的持续时间和/或异常在预设时间段内的持续次数大于对应的阈值,则判定该硬盘为慢盘,否则,则执行步骤106。
106、确定所述硬盘为非慢盘。
若硬盘的IO性能指标出现异常,但出现异常的持续时间和/或异常的持续次数都不大于对应的阈值,则判定可能是因为操作原因而引起的意外异常,而并非硬盘出现实质性异常,则判定该硬盘为非慢盘。
本申请实施例中,采集硬盘的IO性能指标,其中该IO性能指标至少包括硬盘的的随机IO响应时间和预设分区对应的IO响应时间,即本实施例不仅采用硬盘的随机IO响应时间作为慢盘的衡量指标,还将硬盘预设分区的IO响应时间作为慢盘的衡量指标,并判断该IO性能指标是否异常,并在出现异常时,记录该异常的持续时间和/或在预设时间段内异常的持续次数,并在异常的持续时间和/或在预设时间段内异常的持续次数大于预设的阈值时,才判定该硬盘为慢盘,提高了慢盘检测的准确率,降低了慢盘检测的漏判率及误判率。
基于图1所述的实施例,下面详细描述图1所述实施例中的步骤102,请参阅图2,图2为图1中步骤102的细化步骤:
1021、采集所述硬盘的随机IO响应时间;
对于硬盘而言,随机IO响应时间,包括随机写IO操作响应时间或随机读IO操作响应时间,因为随机IO操作指的是本次IO所提供的扇区地址和上次IO给出扇区地址相差较大,以至磁头在两个IO操作之间要有比较大的移动动作才能重新开始读或写,而如果当次IO给出的扇区地址与上次IO结束的扇区地址一致或者是接近的话,那磁头就能很快的开始这次IO操作,这样的多个IO操作称为连续IO操作,故一般都将随机IO响应时间作为硬盘IO性能的衡量指标。
故本实施例,采集的是硬盘的随机IO响应时间,并在采集该时间后,执行步骤1022。
1022、判断所述随机IO响应时间是否大于第一时间阈值,若是,则执行步骤1026,若否,则执行步骤1023;
将采集到硬盘的随机IO响应时间与第一时间阈值(一般情况下设置为2000ms)进行比较,若该随机IO响应时间大于第一时间阈值,则直接执行步骤1026,若该随机IO响应时间不大于第一时间阈值,也不能直接判定该硬盘为非慢盘,还需执行步骤1023,即进一步判断该硬盘的每个预设分区的IO响应时间是否大于各自对应的可信IO响应时间。
1023、读取所述硬盘预设分区的可信IO信息表,所述可信IO信息表至少包括所述硬盘每个预设分区对应的可信IO响应时间;
当硬盘的随机IO响应时间不大于第一时间阈值时,则读取该硬盘预设分区的可信IO信息表,其中,该可信IO信息表至少包括硬盘每个预设分区对应的可信IO响应时间,此外,还可以包括每个预设分区的最大数据吞吐量等,此处不做具体限制。
1024、采集所述硬盘预设分区的IO响应时间;
得到硬盘每个预设分区分别对应的可信IO响应时间后,即可采集该硬盘预设分区(如该硬盘多个分区中的任一个分区)对应的IO响应时间,并将该预设分区的IO响应时间与对应分区的可信IO响应时间进行对比,以确定每个预设分区的IO响应时间是否异常。
1025、判断所述预设分区的IO响应时间与对应分区的可信IO响应时间的时间差是否大于第二时间阈值,若是,则执行步骤1026,若否,则执行步骤1027;
在得到每个预设分区的IO响应时间,及每个预设分区对应的可信IO响应时间后,可以判断预设分区(如该硬盘多个分区中的任一个分区)的IO响应时间与对应分区的可信IO响应时间的时间差是否大于第二时间阈值,若是,则执行步骤1026,若否,则执行步骤1027。
1026、确定所述IO性能指标异常;
若硬盘的随机IO响应时间大于第一时间阈值,或硬盘任一个预设分区的IO响应时间与对应分区的可信IO响应时间的时间差大于第二时间阈值,则确定该硬盘的IO性能指标异常。
1027、确定所述IO性能指标正常。
若硬盘的随机IO响应时间不大于第一时间阈值,且硬盘每个预设分区的IO响应时间与对应分区的可信IO响应时间的时间差都不大于第二时间阈值时,则确定该硬盘的IO性能指标正常。
本实施例中详细描述了对硬盘IO性能指标异常的判断过程,且该判断过程不仅对整个硬盘的随机IO响应时间进行判断,还对硬盘每个预设分区的IO响应时间进行了判断,提高了慢盘检测的准确率,降低了漏判率及误判率。
基于图2所述的实施例,在步骤1023之前,还包括如下的步骤,请参阅图3,图3为硬盘每个预设分区可信IO响应时间表的生成过程的一个实施例:
1028、判断是否存在硬盘每个预设分区的可信IO信息表,若是,则执行图2所述实施例中的步骤1023,若否,则执行步骤1029;
在图2所述的实施例中的步骤1023前,即读取硬盘预设分区的可信IO信息表之前,还需执行步骤1028,即判断是否存在硬盘预设分区的可信IO信息表,若是,则执行图2所述实施例中的步骤1023,即读取硬盘预设分区的可信IO信息表,若否,则执行步骤1029。
1029、统计所述硬盘每个预设分区的IO性能指标采集次数,及每次IO性能指标中的IO响应时间;
当不存在硬盘预设分区的可信IO信息表之前,则需要统计该硬盘每个预设分区的IO性能指标采集次数,及每个预设分区每次采集到的的IO响应时间。
具体的,假设硬盘为1G,而将该硬盘分为4个分区(假设为A、B、C、D四个分区),则每个分区的大小为128K,则当不存在该硬盘预设分区的可信IO信息表之前,则分别统计每个分区的IO性能指标采集次数,及每个预设分区每次采集到的IO响应时间,具体的,每个预设分区每次采集到的IO响应时间如表1所示。
Figure BDA0001829365320000101
1030、当所述采集次数大于第一阈值时,则按照第一预设算法从所述采集次数对应的多个IO响应时间中确定每个预设分区对应的可信IO响应时间,从而生成所述可信IO信息表。
当每个分区的采集次数大于第一阈值时(如500次),则按照第一预设算法从每个预设分区的采集次数对应的多个IO响应时间表中确定每个预设分区对应的可信IO响应时间,从而生成可信IO信息表。
具体的,可以是按照平均算法从每个分区对应的多个IO响应时间表中选取出每个预设分区的可信IO响应时间,也可以是按照加权平均算法从每个分区对应的多个IO响应时间表中选取出每个预设分区的可信IO响应时间,从而生成该硬盘每个预设分区对应的可信IO信息表,容易理解的是,每个硬盘都对应一个自身预设分区的可信IO信息表。
需要说明的是,随着硬盘使用时间的增长,每个硬盘可能会有一定的磨损,故每个硬盘还可以定时或实时更新自身的可信IO信息表,如每隔2天、一周或一个月更新一次自身的可信IO信息表,或者每个硬盘还可以实时更新自身的可信IO信息表,使得每个硬盘的可信IO信息表更准确,这样的话,每个硬盘在更新周期内都会对应一个临时的可信IO信息表。
本实施例中,详细描述了硬盘预设分区的可信IO信息表的生成过程,且每个硬盘的可信IO信息表还可以定时或实时更新,提高了硬盘可信IO信息表的准确性,也进一步提高了慢盘判断的准确性。
图3描述的单硬盘存储系统中可信IO信息表的生成过程,而当在多硬盘的存储阵列中,本实施例还进一步描述了多硬盘的同类可信IO信息表的生成过程,请参阅图4,图4为存储阵列中同类可信IO信息表的生成过程的实施例:
401、当存在多个同种类型的硬盘时,判断是否存在同类可信IO信息表,所述同类可信IO信息表用于存储同种类型硬盘对应分区的可信IO性能指标,且所述可信IO性能指标至少包括可信IO响应时间,若否,则执行步骤402,若是,则执行步骤404;
容易理解的是,随着存储容量的增大,存储系统可以包括多个同种类型,或多个不同类型的硬盘,如一个存储系统可以包括一个或多个同种类型的磁盘,还可以包括一个或多个同种类型的固态盘。
当存储系统中存在多个同种类型的硬盘时,为了更能体现硬盘预设分区可信IO信息表的准确性,可以在存在多个同种类型的硬盘时,判断是否存在同类可信IO信息表,其中,同类可信IO信息表用于存储同种类型的硬盘对应分区的可信IO性能指标,且该IO性能指标中至少包括可信IO响应时间。
具体的,假设存储系统中有2个硬盘,第1个硬盘的分区为A、B、C、D,而第2个硬盘的分区为A1、B1、C1及D1;其中,A与A1、B与B1、C与C1、D与D1在两个硬盘中的物理地址相互对应,且存储的数据内容也相同或相似,则同类可信IO信息表即为根据第1硬盘预设分区的可信IO信息表和第2硬盘预设分区的可信IO信息表,而确定的对应分区的同类可信IO信息表。
402、读取每个硬盘预设分区的可信IO信息表,并统计每个硬盘预设分区的可信IO信息表的写入次数;
当存储系统中不存在同类可信IO信息表时,则读取每个硬盘预设分区的可信IO信息表,并统计每个硬盘预设分区的可信IO信息表的写入次数,并在每个硬盘预设分区的可信IO信息表的写入次数超出第二阈值时,执行步骤403。
403、当每个硬盘预设分区的可信IO信息表的写入次数大于第二阈值时,则按照第二预设算法从多个硬盘对应的分区可信IO信息表中确定同类可信IO信息表;
对应于图3所述实施例中的步骤1030,随着硬盘使用时间的增长,硬盘会有所磨损,故每个硬盘会定时或实时更新自身预设分区的可信IO信息表,而步骤402中不仅读取每个硬盘预设分区的可信IO信息表,还统计该可信IO信息表的写入次数(即更新次数),并在每个硬盘的可信IO信息表的写入次数超出第二阈值时,按照预设算法从多个硬盘对应分区的可信IO信息表中确定同类可信IO信息表。容易理解的是,该同类可信IO信息表主要是用于比较同类数据的IO信息表。
具体的,从多个硬盘对应的分区可信IO信息表中,确定同类可信IO信息表的预设算法可以是平均算法,也可以是加权平均算法,如可以根据硬盘使用时长,给予不同硬盘不同的的加权系数,从而来确定同类可信IO信息表中的同类可信IO响应时间,此处对计算同类可信IO信息表的具体预设算法不做具体限制。
其中,表2给出了多个硬盘预设分区的可信IO信息表的示意图:
表2
Figure BDA0001829365320000131
类似于图3所述实施例步骤中的1030,随着硬盘使用时间的增长,每个硬盘可能会有一定的磨损,故每个硬盘还可以定时或实时更新自身的可信IO信息表,如每隔2天、一周或一个月更新一次自身的可信IO信息表,使得每个硬盘的可信IO信息表更准确,这样的话,当存在同种类型的多个硬盘时,在某个(同种类型硬盘中的任一个)硬盘的可信IO信息表更新时,对应的,也需要定时或实时的对多个硬盘的同类可信IO信息表执行更新。
404、读取所述同类可信IO信息表;
当存储系统中有同类可信IO信息表时,则直接读取该同类可信IO信息表,并根据该同类可信IO信息表,执行步骤405。
405、判断每个硬盘预设分区可信IO信息表中的第一可信IO响应时间与同类可信IO信息表中的第二可信IO响应时间的时间差是否大于第三时间阈值,若是,则执行步骤406,否则,执行步骤407;
当得到同类硬盘的可信IO信息表后,可以判断每个硬盘预设分区的可信IO信息表中的第一可信IO响应时间与同类可信IO信息表中的第二可信IO响应时间的时间差是否大于第三时间阈值,若是,则执行步骤406,若否,则执行步骤407。
406、确定所述硬盘的IO性能指标异常;
当每个硬盘对预设分区的可信IO信息表中的第一可信IO响应时间与同类可信IO信息表中的第二可信IO响应时间的时间差大于第三时间阈值时,则表明该硬盘的IO性能指标异常。
需要说明的是,区别于现有技术的是,本实施例不仅采用每个硬盘预设分区的可信IO信息表来判断每个硬盘的IO性能指标,还进一步在存储系统中存在多个同种类型的硬盘时,采用同类可信IO性能表来判断每个硬盘的IO性能指标,进一步提高了硬盘IO性能指标判断的准确性,降低了误判率。
407、确定所述硬盘的IO性能指标正常。
若每个硬盘预设分区的可信IO信息表中的第一可信IO响应时间与同类可信IO信息表中的第二可信IO响应时间的时间差不大于第三时间阈值时,则确定该硬盘的IO性能指标正常。
本实施例中,在存储系统中存在多个同种类型的硬盘时,不仅采用每个硬盘预设分区的可信IO信息表来判断每个硬盘的IO性能指标,还进一步在存储系统中存在多个同种类型的硬盘时,采用同类可信IO性能表来判断每个硬盘的IO性能指标,进一步提高了硬盘IO性能指标判断的准确性,降低了误判率。
上面详细描述了本申请实施例中的慢盘检测方法,下面来描述本申请实施例中的慢盘检测系统,请参阅图5,本申请实施例中的慢盘检测系统的一个实施例,包括:
采集单元501,用于采集硬盘的IO性能指标,所述IO性能指标至少包括硬盘的随机输入输出IO响应时间及硬盘每个预设分区的输入输出IO响应时间;
第一判断单元502,用于判断所述硬盘的IO性能指标是否异常:
记录单元503,用于在所述IO性能指标异常时,记录所述异常的持续时间和/或所述异常在预设时间内的持续次数;
第二判断单元504,用于分别判断所述持续时间和/或所述持续次数是否大于对应的预设阈值;
第一确定单元505,用于在所述持续时间和/或所述持续次数大于对应的预设阈值时,确定所述硬盘为慢盘。
需要说明的是,本实施例中各单元的作用与图1所述实施例中描述的类似,此处不再赘述。
本申请实施例中,通过采集单元501采集硬盘的IO性能指标,其中该IO性能指标至少包括硬盘的的随机IO响应时间和预设分区对应的IO响应时间,即本实施例不仅采用硬盘的随机IO响应时间作为慢盘的衡量指标,还将硬盘预设分区的IO响应时间作为慢盘的衡量指标,通过第一判断单元502判断该IO性能指标是否异常,并在出现异常时,记录该异常的持续时间和/或在预设时间段内异常的持续次数,并在异常的持续时间和/或在预设时间段内异常的持续次数大于预设的阈值时,才判定该硬盘为慢盘,提高了慢盘检测的准确率,降低了慢盘检测的漏判率及误判率。
基于图5所述的慢盘检测系统,图6为图5中第一判断单元的功能模块的一个细化图,其中,第一判断单元502,具体包括:
获取模块5021,用于获取所述硬盘的随机IO响应时间;
第一判断模块5022,用于判断所述随机IO响应时间是否大于第一时间阈值;
读取模块5023,用于在所述随机IO响应时间不大于所述第一时间阈值时,读取所述硬盘预设分区的可信IO信息表,所述可信IO信息表至少包括所述硬盘每个预设分区对应的可信IO响应时间;
采集模块5024,用于采集所述硬盘预设分区的IO响应时间;
第二判断模块5025,用于判断所述预设分区的IO响应时间与对应分区的可信IO响应时间的时间差是否大于第二时间阈值;
确定模块5026,用于在所述预设分区的IO响应时间与对应分区的可信IO响应时间的时间差大于所述第二时间阈值时,确定所述硬盘的IO性能指标异常。
需要说明的是,本实施例中各模块的作用与图2所述实施例中描述的类似,此处不再赘述。
本实施例中详细描述了第一判断单元的细化功能模块,且第一判断单元不仅通过第一判断模块5022对整个硬盘的随机IO响应时间进行判断,还通过第二判断模块5025对硬盘每个预设分区的IO响应时间进行了判断,提高了慢盘检测的准确率,降低了漏判率及误判率。
基于图6所述的慢盘检测系统,图7为图6中第一判断单元功能模块的另一个细化图,其中,第一判断单元502,还可以包括:
第三判断模块5027,用于判断是否存在所述可信IO信息表;
统计模块5028,用于在不存在所述可信IO信息表时,统计所述硬盘每个预设分区的IO性能指标采集次数,及每次IO性能指标中的IO响应时间;
生成模块5029,用于在所述采集次数大于第一阈值时,则按照第一预设算法从所述采集次数对应的多个IO响应时间中确定每个预设分区对应的可信IO响应时间,从而生成所述可信IO信息表。
本实施例中,详细描述了硬盘预设分区的可信IO信息表的生成过程,且每个硬盘的可信IO信息表还可以定时或实时更新,提高了硬盘可信IO信息表的准确性,也进一步提高了慢盘判断的准确性。
下面基于图5至图7所述的慢盘检测系统,下面详细描述慢盘检测系统,请参阅图8,慢盘检测系统的另一个实施例,包括:
采集单元801,用于采集硬盘的IO性能指标,所述IO性能指标至少包括硬盘的随机输入输出IO响应时间及硬盘每个预设分区的输入输出IO响应时间;
第一判断单元802,用于判断所述硬盘的IO性能指标是否异常:
记录单元803,用于在所述IO性能指标异常时,记录所述异常的持续时间和/或所述异常在预设时间内的持续次数;
第二判断单元804,用于分别判断所述持续时间和/或所述持续次数是否大于对应的预设阈值;
第一确定单元805,用于在所述持续时间和/或所述持续次数大于对应的预设阈值时,确定所述硬盘为慢盘。
优选的,该慢盘检测系统,还包括:
第一更新单元806,用于更新每个硬盘的可信IO信息表。
优选的,所述系统还包括:
第三判断单元807,用于当存在多个同种类型的硬盘时,判断是否存在同类可信IO信息表,所述同类可信IO信息表用于存储同种类型硬盘对应分区的可信IO性能指标,且所述可信IO性能指标至少包括可信IO响应时间;
读取统计单元808,用于在不存在所述同类可信IO信息表时,读取每个硬盘预设分区的可信IO信息表,并统计每个硬盘预设分区可信IO信息表的写入次数;
第二确定单元809,用于当所述写入次数大于第二阈值时,按照第二预设算法从多个硬盘对应分区的可信IO信息表中确定同类可信IO信息表;
第四判断单元810,用于判断每个硬盘对应分区可信IO信息表中的第一可信IO响应时间与同类可信IO信息表中的第二可信IO响应时间的时间差是否大于第三时间阈值;
第三确定单元811,用于在所述第一可信IO响应时间与所述第二可信IO响应时间的时间差大于所述第三时间阈值时,确定所述硬盘的IO性能指标异常。
优选的,所述系统还包括:
第二更新单元812,用于更新同种类型硬盘的同类可信IO信息表。
本申请实施例中,通过采集单元801采集硬盘的IO性能指标,其中该IO性能指标至少包括硬盘的的随机IO响应时间和预设分区对应的IO响应时间,即本实施例不仅采用硬盘的随机IO响应时间作为慢盘的衡量指标,还将硬盘预设分区的IO响应时间作为慢盘的衡量指标,通过第一判断单元802判断该IO性能指标是否异常,并在出现异常时,记录该异常的持续时间和/或在预设时间段内异常的持续次数,并在异常的持续时间和/或在预设时间段内异常的持续次数大于预设的阈值时,才判定该硬盘为慢盘,提高了慢盘检测的准确率,降低了慢盘检测的漏判率及误判率。
其次,在存储系统中存在多个同种类型的硬盘时,不仅通过第一判断单元采用每个硬盘预设分区的可信IO信息表来判断每个硬盘的IO性能指标,还进一步在存储系统中存在多个同种类型的硬盘时,通过第四判断单元810采用同类可信IO性能表来判断每个硬盘的IO性能指标,进一步提高了硬盘IO性能指标判断的准确性,降低了误判率。
上面从模块化功能实体的角度对本发明实施例中的慢盘检测系统进行了描述,下面从硬件处理的角度对本发明实施例中的慢盘检测系统进行描述:
本发明实施例中慢盘检测系统一个实施例包括:
处理器以及存储器;
存储器用于存储计算机程序,处理器用于执行存储器中存储的计算机程序时,可以实现如下步骤:
采集硬盘的IO性能指标,所述IO性能指标至少包括硬盘的随机输入输出IO响应时间及硬盘每个预设分区的输入输出IO响应时间;
判断所述硬盘的IO性能指标是否异常:
若是,则记录所述异常的持续时间和/或所述异常在预设时间内的持续次数;
分别判断所述持续时间和/或所述持续次数是否大于对应的预设阈值;
若是,则确定所述硬盘为慢盘。
在本发明的一些实施例中,处理器,还可以用于实现如下步骤:
获取所述硬盘的随机IO响应时间;
判断所述随机IO响应时间是否大于第一时间阈值;
若否,则读取所述硬盘预设分区的可信IO信息表,所述可信IO信息表至少包括所述硬盘每个预设分区对应的可信IO响应时间;
采集所述硬盘预设分区的IO响应时间;
判断所述预设分区的IO响应时间与对应分区的可信IO响应时间的时间差是否大于第二时间阈值;
若是,则确定所述IO性能指标异常。
在本发明的一些实施例中,处理器,还可以用于实现如下步骤:
判断是否存在所述可信IO信息表;
若不存在,则统计所述硬盘每个预设分区的IO性能指标采集次数,及每次IO性能指标中的IO响应时间;
当所述采集次数大于第一阈值时,则按照第一预设算法从所述采集次数对应的多个IO响应时间中确定每个预设分区对应的可信IO响应时间,从而生成所述可信IO信息表。
在本发明的一些实施例中,处理器,还可以用于实现如下步骤:
更新每个硬盘的可信IO信息表。
在本发明的一些实施例中,处理器,还可以用于实现如下步骤:
当存在多个同种类型的硬盘时,则判断是否存在同类可信IO信息表,所述同类可信IO信息表用于存储同种类型硬盘对应分区的可信IO性能指标,且所述可信IO性能指标至少包括可信IO响应时间;
若不存在,则读取每个硬盘预设分区的可信IO信息表,并统计每个硬盘预设分区可信IO信息表的写入次数;
当所述写入次数大于第二阈值时,则按照第二预设算法从多个硬盘对应分区的可信IO信息表中确定同类可信IO信息表;
判断每个硬盘对应分区可信IO信息表中的第一可信IO响应时间与同类可信IO信息表中的第二可信IO响应时间的时间差是否大于第三时间阈值;
若是,则确定所述硬盘的IO性能指标异常。
在本发明的一些实施例中,处理器,还可以用于实现如下步骤:
更新同种类型硬盘的同类可信IO信息表。
可以理解的是,上述说明的慢盘检测系统中的处理器执行所述计算机程序时,也可以实现上述对应的各装置实施例中各单元的功能,此处不再赘述。示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述慢盘检测系统中的执行过程。例如,所述计算机程序可以被分割成上述慢盘检测系统中的各单元,各单元可以实现如上述相应慢盘检测系统说明的具体功能。
所述计算机装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机装置可包括但不仅限于处理器、存储器。本领域技术人员可以理解,处理器、存储器仅仅是计算机装置的示例,并不构成对计算机装置的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述计算机装置还可以包括输入输出设备、网络接入设备、总线等。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质用于实现慢盘检测系统的功能,其上存储有计算机程序,计算机程序被处理器执行时,处理器,可以用于执行如下步骤:
采集硬盘的IO性能指标,所述IO性能指标至少包括硬盘的随机输入输出IO响应时间及硬盘每个预设分区的输入输出IO响应时间;
判断所述硬盘的IO性能指标是否异常:
若是,则记录所述异常的持续时间和/或所述异常在预设时间内的持续次数;
分别判断所述持续时间和/或所述持续次数是否大于对应的预设阈值;
若是,则确定所述硬盘为慢盘。
在本发明的一些实施例中,计算机可读存储介质存储的计算机程序被处理器执行时,处理器,可以具体用于执行如下步骤:
获取所述硬盘的随机IO响应时间;
判断所述随机IO响应时间是否大于第一时间阈值;
若否,则读取所述硬盘预设分区的可信IO信息表,所述可信IO信息表至少包括所述硬盘每个预设分区对应的可信IO响应时间;
采集所述硬盘预设分区的IO响应时间;
判断所述预设分区的IO响应时间与对应分区的可信IO响应时间的时间差是否大于第二时间阈值;
若是,则确定所述IO性能指标异常。
在本发明的一些实施例中,计算机可读存储介质存储的计算机程序被处理器执行时,处理器,可以具体用于执行如下步骤:
判断是否存在所述可信IO信息表;
若不存在,则统计所述硬盘每个预设分区的IO性能指标采集次数,及每次IO性能指标中的IO响应时间;
当所述采集次数大于第一阈值时,则按照第一预设算法从所述采集次数对应的多个IO响应时间中确定每个预设分区对应的可信IO响应时间,从而生成所述可信IO信息表。
在本发明的一些实施例中,计算机可读存储介质存储的计算机程序被处理器执行时,处理器,可以具体用于执行如下步骤:
更新每个硬盘的可信IO信息表。
在本发明的一些实施例中,计算机可读存储介质存储的计算机程序被处理器执行时,处理器,可以具体用于执行如下步骤:
当存在多个同种类型的硬盘时,则判断是否存在同类可信IO信息表,所述同类可信IO信息表用于存储同种类型硬盘对应分区的可信IO性能指标,且所述可信IO性能指标至少包括可信IO响应时间;
若不存在,则读取每个硬盘预设分区的可信IO信息表,并统计每个硬盘预设分区可信IO信息表的写入次数;
当所述写入次数大于第二阈值时,则按照第二预设算法从多个硬盘对应分区的可信IO信息表中确定同类可信IO信息表;
判断每个硬盘对应分区可信IO信息表中的第一可信IO响应时间与同类可信IO信息表中的第二可信IO响应时间的时间差是否大于第三时间阈值;
若是,则确定所述硬盘的IO性能指标异常。
在本发明的一些实施例中,计算机可读存储介质存储的计算机程序被处理器执行时,处理器,可以具体用于执行如下步骤:
更新同种类型硬盘的同类可信IO信息表。
可以理解的是,所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在相应的一个计算机可读取存储介质中。基于这样的理解,本发明实现上述相应的实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (14)

1.一种慢盘检测方法,其特征在于,包括:
采集硬盘的IO性能指标,所述IO性能指标至少包括硬盘的随机输入输出IO响应时间及硬盘每个预设分区的输入输出IO响应时间;
判断所述硬盘的IO性能指标是否异常;
若是,则记录所述异常的持续时间和/或所述异常在预设时间内的持续次数;
分别判断所述持续时间和/或所述持续次数是否大于对应的预设阈值;
若是,则确定所述硬盘为慢盘。
2.根据权利要求1所述的方法,其特征在于,所述判断所述硬盘的IO性能指标是否异常,包括:
获取所述硬盘的随机IO响应时间;
判断所述随机IO响应时间是否大于第一时间阈值;
若否,则读取所述硬盘预设分区的可信IO信息表,所述可信IO信息表至少包括所述硬盘每个预设分区对应的可信IO响应时间;
采集所述硬盘预设分区的IO响应时间;
判断所述预设分区的IO响应时间与对应分区的可信IO响应时间的时间差是否大于第二时间阈值;
若是,则确定所述IO性能指标异常。
3.根据权利要求2所述的方法,其特征在于,在所述读取所述硬盘预设分区的可信IO信息表之前,所述方法还包括:
判断是否存在所述可信IO信息表;
若不存在,则统计所述硬盘每个预设分区的IO性能指标采集次数,及每次IO性能指标中的IO响应时间;
当所述采集次数大于第一阈值时,则按照第一预设算法从所述采集次数对应的多个IO响应时间中确定每个预设分区对应的可信IO响应时间,从而生成所述可信IO信息表。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
更新每个硬盘的可信IO信息表。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
当存在多个同种类型的硬盘时,则判断是否存在同类可信IO信息表,所述同类可信IO信息表用于存储同种类型硬盘对应分区的可信IO性能指标,且所述可信IO性能指标至少包括可信IO响应时间;
若不存在,则读取每个硬盘预设分区的可信IO信息表,并统计每个硬盘预设分区可信IO信息表的写入次数;
当所述写入次数大于第二阈值时,则按照第二预设算法从多个硬盘预设分区的可信IO信息表中确定同类可信IO信息表;
判断每个硬盘对应分区可信IO信息表中的第一可信IO响应时间与同类可信IO信息表中的第二可信IO响应时间的时间差是否大于第三时间阈值;
若是,则确定所述硬盘的IO性能指标异常。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
更新同种类型硬盘的同类可信IO信息表。
7.一种慢盘检测系统,其特征在于,包括:
采集单元,用于采集硬盘的IO性能指标,所述IO性能指标至少包括硬盘的随机输入输出IO响应时间及硬盘每个预设分区的输入输出IO响应时间;
第一判断单元,用于判断所述硬盘的IO性能指标是否异常:
记录单元,用于在所述IO性能指标异常时,记录所述异常的持续时间和/或所述异常在预设时间内的持续次数;
第二判断单元,用于分别判断所述持续时间和/或所述持续次数是否大于对应的预设阈值;
第一确定单元,用于在所述持续时间和/或所述持续次数大于对应的预设阈值时,确定所述硬盘为慢盘。
8.根据权利要求7所述的系统,其特征在于,所述第一判断单元,包括:
获取模块,用于获取所述硬盘的随机IO响应时间;
第一判断模块,用于判断所述随机IO响应时间是否大于第一时间阈值;
读取模块,用于在所述随机IO响应时间不大于所述第一时间阈值时,读取所述硬盘预设分区的可信IO信息表,所述可信IO信息表至少包括所述硬盘每个预设分区对应的可信IO响应时间;
采集模块,用于采集所述硬盘预设分区的IO响应时间;
第二判断模块,用于判断所述预设分区的IO响应时间与对应分区的可信IO响应时间的时间差是否大于第二时间阈值;
确定模块,用于在所述预设分区的IO响应时间与对应分区的可信IO响应时间的时间差大于所述第二时间阈值时,确定所述硬盘的IO性能指标异常。
9.根据权利要求8所述的系统,其特征在于,所述第一判断单元,还包括:
第三判断模块,用于判断是否存在所述可信IO信息表;
统计模块,用于在不存在所述可信IO信息表时,统计所述硬盘每个预设分区的IO性能指标采集次数,及每次IO性能指标中的IO响应时间;
生成模块,用于在所述采集次数大于第一阈值时,则按照第一预设算法从所述采集次数对应的多个IO响应时间中确定每个预设分区对应的可信IO响应时间,从而生成所述可信IO信息表。
10.根据权利要求9所述的系统,其特征在于,所述系统还包括:
第一更新单元,用于更新每个硬盘的可信IO信息表。
11.根据权利要求10所述的系统,其特征在于,所述系统还包括:
第三判断单元,用于当存在多个同种类型的硬盘时,判断是否存在同类可信IO信息表,所述同类可信IO信息表用于存储同种类型硬盘对应分区的可信IO性能指标,且所述可信IO性能指标至少包括可信IO响应时间;
读取统计单元,用于在不存在所述同类可信IO信息表时,读取每个硬盘预设分区的可信IO信息表,并统计每个硬盘预设分区可信IO信息表的写入次数;
第二确定单元,用于当所述写入次数大于第二阈值时,按照第二预设算法从多个硬盘对应分区的可信IO信息表中确定同类可信IO信息表;
第四判断单元,用于判断每个硬盘对应分区可信IO信息表中的第一可信IO响应时间与同类可信IO信息表中的第二可信IO响应时间的时间差是否大于第三时间阈值;
第三确定单元,用于在所述第一可信IO响应时间与所述第二可信IO响应时间的时间差大于所述第三时间阈值时,确定所述硬盘的IO性能指标异常。
12.根据权利要求11所述的系统,其特征在于,所述系统还包括:
第二更新单元,用于更新同种类型硬盘的同类可信IO信息表。
13.一种慢盘检测系统,包括处理器,其特征在于,所述处理器在执行存储于存储器上的计算机程序时,用于实现如权利要求1至6中任一项所述的慢盘检测方法。
14.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,用于实现如权利要求1至6中任一项所述的慢盘检测方法。
CN201811198252.4A 2018-10-15 2018-10-15 一种慢盘检测方法及系统 Pending CN111045881A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811198252.4A CN111045881A (zh) 2018-10-15 2018-10-15 一种慢盘检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811198252.4A CN111045881A (zh) 2018-10-15 2018-10-15 一种慢盘检测方法及系统

Publications (1)

Publication Number Publication Date
CN111045881A true CN111045881A (zh) 2020-04-21

Family

ID=70230390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811198252.4A Pending CN111045881A (zh) 2018-10-15 2018-10-15 一种慢盘检测方法及系统

Country Status (1)

Country Link
CN (1) CN111045881A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984481A (zh) * 2020-08-14 2020-11-24 苏州浪潮智能科技有限公司 一种基于分布式存储的慢盘检测方法及装置
CN112199046A (zh) * 2020-10-12 2021-01-08 苏州浪潮智能科技有限公司 一种分布式集群性能的优化方法、装置、终端及存储介质
CN112416639A (zh) * 2020-11-16 2021-02-26 新华三技术有限公司成都分公司 一种慢盘检测方法、装置、设备及存储介质
CN112579379A (zh) * 2020-12-24 2021-03-30 深信服科技股份有限公司 一种卡慢盘的识别处理方法、系统、装置及可读存储介质
CN114003477A (zh) * 2021-10-27 2022-02-01 苏州浪潮智能科技有限公司 慢盘诊断信息收集方法、系统、终端及存储介质
CN115934003A (zh) * 2023-03-09 2023-04-07 浪潮电子信息产业股份有限公司 磁盘阵列中的慢盘识别方法、装置、设备及可读存储介质
CN116149557A (zh) * 2023-02-21 2023-05-23 北京志凌海纳科技有限公司 一种面向制造业的慢盘检测策略系统及方法
CN117573483A (zh) * 2024-01-16 2024-02-20 苏州元脑智能科技有限公司 硬盘的移除方法和装置、存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102568522A (zh) * 2011-12-31 2012-07-11 曙光信息产业股份有限公司 硬盘性能的测试方法和装置
CN103810062A (zh) * 2014-03-05 2014-05-21 华为技术有限公司 慢盘检测方法和装置
CN105573888A (zh) * 2015-12-14 2016-05-11 曙光信息产业股份有限公司 一种分布式文件系统中的磁盘性能检测方法及装置
WO2017012392A1 (zh) * 2015-07-17 2017-01-26 中兴通讯股份有限公司 一种磁盘检测的方法和装置
CN106897178A (zh) * 2017-02-21 2017-06-27 曲阜师范大学 一种基于极限学习机的慢盘检测方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102568522A (zh) * 2011-12-31 2012-07-11 曙光信息产业股份有限公司 硬盘性能的测试方法和装置
CN103810062A (zh) * 2014-03-05 2014-05-21 华为技术有限公司 慢盘检测方法和装置
WO2017012392A1 (zh) * 2015-07-17 2017-01-26 中兴通讯股份有限公司 一种磁盘检测的方法和装置
CN105573888A (zh) * 2015-12-14 2016-05-11 曙光信息产业股份有限公司 一种分布式文件系统中的磁盘性能检测方法及装置
CN106897178A (zh) * 2017-02-21 2017-06-27 曲阜师范大学 一种基于极限学习机的慢盘检测方法及系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984481A (zh) * 2020-08-14 2020-11-24 苏州浪潮智能科技有限公司 一种基于分布式存储的慢盘检测方法及装置
CN112199046A (zh) * 2020-10-12 2021-01-08 苏州浪潮智能科技有限公司 一种分布式集群性能的优化方法、装置、终端及存储介质
CN112416639A (zh) * 2020-11-16 2021-02-26 新华三技术有限公司成都分公司 一种慢盘检测方法、装置、设备及存储介质
CN112579379A (zh) * 2020-12-24 2021-03-30 深信服科技股份有限公司 一种卡慢盘的识别处理方法、系统、装置及可读存储介质
CN112579379B (zh) * 2020-12-24 2024-02-23 深信服科技股份有限公司 一种卡慢盘的识别处理方法、系统、装置及可读存储介质
CN114003477A (zh) * 2021-10-27 2022-02-01 苏州浪潮智能科技有限公司 慢盘诊断信息收集方法、系统、终端及存储介质
CN114003477B (zh) * 2021-10-27 2023-08-22 苏州浪潮智能科技有限公司 慢盘诊断信息收集方法、系统、终端及存储介质
CN116149557A (zh) * 2023-02-21 2023-05-23 北京志凌海纳科技有限公司 一种面向制造业的慢盘检测策略系统及方法
CN116149557B (zh) * 2023-02-21 2023-07-18 北京志凌海纳科技有限公司 一种面向制造业的慢盘检测策略系统及方法
CN115934003A (zh) * 2023-03-09 2023-04-07 浪潮电子信息产业股份有限公司 磁盘阵列中的慢盘识别方法、装置、设备及可读存储介质
CN117573483A (zh) * 2024-01-16 2024-02-20 苏州元脑智能科技有限公司 硬盘的移除方法和装置、存储介质及电子设备
CN117573483B (zh) * 2024-01-16 2024-04-02 苏州元脑智能科技有限公司 硬盘的移除方法和装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN111045881A (zh) 一种慢盘检测方法及系统
CN109328340B (zh) 内存故障的检测方法、装置和服务器
WO2017012392A1 (zh) 一种磁盘检测的方法和装置
US20180157438A1 (en) Slow-disk detection method and apparatus
US20140379953A1 (en) Continuous in-memory accumulation of hardware performance counter data
US10789148B2 (en) Electronic device and method for event logging
CN113220239A (zh) 一种flash存储的擦写方法、装置、设备及可读存储介质
CN111813585A (zh) 慢盘的预测和处理
CN116775362A (zh) 独立冗余磁盘阵列的通路阻塞处理方法、系统
CN113590405A (zh) 硬盘错误的检测方法、装置、存储介质和电子装置
CN112579327A (zh) 一种故障检测方法、装置及设备
CN109426598B (zh) 一种硬盘状态指示灯控制方法及装置
CN113177045A (zh) 数据提取方法、装置、可计算存储设备及数据请求设备
WO2021027271A1 (zh) 坏块信息保护方法、装置、计算机设备及存储介质
CN112053009A (zh) 一种故障预测方法、装置、系统及存储介质
CN110955587A (zh) 一种待更换设备确定方法及装置
CN107844273B (zh) 一种数据写入方法及装置、验证方法及装置
CN110020744A (zh) 动态预测方法及其系统
CN115629708A (zh) 一种存储系统中冷热数据监测方法、装置、终端及介质
CN111835593B (zh) 基于非易失性存储介质的检测方法、存储介质及电子设备
CN112882659B (zh) 一种信息获得方法、装置、电子设备及存储介质
CN114327266A (zh) 一种存储装置的卡慢识别方法、装置、介质
CN109857333B (zh) 一种ssd介质的健康度处理方法、ssd控制器及磁盘阵列
CN115691636B (zh) 一种慢盘检测方法以及装置
CN112395179B (zh) 一种模型训练方法、磁盘预测方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination