CN115470059A - 一种磁盘检测方法、装置、设备及存储介质 - Google Patents
一种磁盘检测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115470059A CN115470059A CN202211156973.5A CN202211156973A CN115470059A CN 115470059 A CN115470059 A CN 115470059A CN 202211156973 A CN202211156973 A CN 202211156973A CN 115470059 A CN115470059 A CN 115470059A
- Authority
- CN
- China
- Prior art keywords
- disk
- time
- target
- preset
- consuming
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000004590 computer program Methods 0.000 claims description 17
- 238000007689 inspection Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000009825 accumulation Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2205—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
- G06F11/2221—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test input/output devices or peripheral units
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2273—Test methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/061—Improving I/O performance
- G06F3/0611—Improving I/O performance in relation to response time
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0655—Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
- G06F3/0659—Command handling arrangements, e.g. command buffers, queues, command scheduling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/0671—In-line storage system
- G06F3/0673—Single storage device
- G06F3/0674—Disk device
- G06F3/0676—Magnetic disk device
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请公开了一种磁盘检测方法、装置、设备及存储介质,涉及磁盘存储技术领域,包括:获取预设时间内磁盘的当前每秒读写次数,判断所述当前每秒读写次数是否大于预设阈值,得到判断结果;基于所述判断结果判断所述磁盘是否满足预设条件;若所述磁盘满足所述预设条件,则获取目标IO的目标耗时时长,并将所述目标耗时时长与所述目标IO对应的标准耗时时长比较;若所述目标耗时时长大于所述标准耗时时长,则判定所述磁盘是慢盘。本申请通过判断磁盘是否满足预设条件来决定是否对目标IO的耗时时长进行比较,若目标耗时时长大于所述标准耗时时长,则判定所述磁盘是慢盘,有效区分磁盘存在的问题,提高了问题判断的准确性,更好的平衡了存储业务的功能。
Description
技术领域
本发明涉及磁盘存储技术领域,特别涉及一种磁盘检测方法、装置、设备及存储介质。
背景技术
随着磁盘在存储设备上的广泛使用,存储系统为了检测磁盘是否异常,目前已经产生一些硬盘故障检测的方案,通常是检测介质错误、盘体访问故障等磁盘问题,但没有针对磁盘性能的诊断工具。当硬盘Glist(增长坏道表)写满被弃用、碟片滑落、震动、高温等情况时,会导致硬盘性能下降,这些问题不能被smart等磁盘诊断工具发现,在一定时间内磁盘还能正常访问,但是性能会受到一定影响,这些盘还会继续使用。
当磁盘访问性能变慢、跟不上系统的处理能力时,就会产生一些问题,比如raid(Redundant Arrays of Independent Disks,磁盘阵列)发现有的条带访问较慢,导致raid的性能下降,进而导致系统的性能下降。另外当磁盘本身正常,只是当上层下来的压力过载时,磁盘响应变慢,导致未处理过来的IO(Input/Output,输入/输出)在上层累积,新来的IO要排队,累积的越多排队的就越久,从而造成IO超时。因此不易区分磁盘性能不佳是慢盘导致的还是压力过载导致的。
发明内容
有鉴于此,本发明的目的在于提供一种磁盘检测方法、装置、设备和存储介质,能够有效区分磁盘存在的问题,提高问题判断的准确性,更好的平衡存储业务的功能。其具体方案如下:
第一方面,本申请公开了一种磁盘检测方法,包括:
获取预设时间内磁盘的当前每秒读写次数,并判断所述当前每秒读写次数是否大于预设阈值,以得到判断结果;
基于所述判断结果判断所述磁盘是否满足预设条件;
若所述磁盘满足所述预设条件,则获取目标IO的目标耗时时长,并将所述目标耗时时长与所述目标IO对应的标准耗时时长比较;
若所述目标耗时时长大于所述标准耗时时长,则判定所述磁盘是慢盘。
可选的,所述基于所述判断结果判断所述磁盘是否满足预设条件,包括:
若所述判断结果为所述当前每秒读写次数大于所述预设阈值,则直接判定所述磁盘不满足所述预设条件,并判定所述磁盘不是慢盘;
若所述判断结果为所述当前每秒读写次数小于或等于所述预设阈值,则获取所述磁盘在第一单位时间内的耗时总和,并基于所述耗时总和判断所述磁盘是否满足所述预设条件。
可选的,所述若所述判断结果为所述当前每秒读写次数大于所述预设阈值,则直接判定所述磁盘不满足所述预设条件,并判定所述磁盘不是慢盘之后,还包括:
获取第二单位时间内的IO排队时长总和;
将所述IO排队时长总和与预设的IO排队时长总和标准值进行比较;
若所述IO排队时长总和大于所述IO排队时长总和标准值,则判定上层压力超出预设压力阈值,并执行预设磁盘调整操作;
若所述IO排队时长总和小于或等于所述IO排队时长总和标准值,则保持。
可选的,所述基于所述耗时总和判断所述磁盘是否满足所述预设条件,包括:
将所述耗时总和与预设耗时总和标准值进行比较;
若所述耗时总和大于所述预设耗时总和标准值,则判定所述磁盘不满足所述预设条件,并判定所述磁盘是慢盘;
若所述耗时总和小于所述预设耗时总和标准值,则获取对应的耗时峰值;
若所述耗时峰值不满足预设慢盘峰值判断规则,则判定所述磁盘满足所述预设条件;
若所述耗时峰值满足所述预设慢盘峰值判断规则,则判定所述磁盘不满足所述预设条件,并判定所述磁盘是慢盘。
可选的,所述获取目标IO的目标耗时时长之前,还包括:
向所述磁盘发送第一OTUR指令,以便所述磁盘在执行完全部的IO时生成对应的第一OTUR结果并返回。
可选的,所述若所述磁盘满足所述预设条件,则获取目标IO的目标耗时时长,包括:
当所述磁盘满足所述预设条件并且接收到所述第一OTUR结果时,从IO排队队列中获取预设数量的所述目标IO,并将全部所述目标IO并发下发至所述磁盘;
向所述磁盘发送第二OTUR指令,以便所述磁盘在执行完全部所述目标IO后生成第二OTUR结果并返回;
当接收到所述第二OTUR结果时,基于IO发送时间与第二OTUR结果接收时间计算差值,以得到执行完全部所述目标IO所需的目标耗时时长。
可选的,所述将所述目标耗时时长与所述目标IO对应的标准耗时时长比较之前,还包括:
计算在预设标准情况下执行完全部所述目标IO所需的标准耗时时长;
相应的,所述将所述目标耗时时长与所述目标IO对应的标准耗时时长比较之后,还包括:
若所述目标耗时时长小于或等于所述标准耗时时长,则判定所述磁盘不是慢盘。
第二方面,本申请公开了一种磁盘检测装置,包括:
第一判断模块,用于获取预设时间内磁盘的当前每秒读写次数,并判断所述当前每秒读写次数是否大于预设阈值,以得到判断结果;
第二判断模块,用于基于所述判断结果判断所述磁盘是否满足预设条件;
时长比较模块,用于若所述磁盘满足所述预设条件,则获取目标IO的目标耗时时长,并将所述目标耗时时长与所述目标IO对应的标准耗时时长比较;
慢盘判定模块,用于若所述目标耗时时长大于所述标准耗时时长,则判定所述磁盘是慢盘。
第三方面,本申请公开了一种电子设备,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现如前述公开的磁盘检测方法的步骤。
第四方面,本申请公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现如前述公开的磁盘检测方法。
可见,本申请提供了一种磁盘检测方法,包括:获取预设时间内磁盘的当前每秒读写次数,并判断所述当前每秒读写次数是否大于预设阈值,以得到判断结果;基于所述判断结果判断所述磁盘是否满足预设条件;若所述磁盘满足所述预设条件,则获取目标IO的目标耗时时长,并将所述目标耗时时长与所述目标IO对应的标准耗时时长比较;若所述目标耗时时长大于所述标准耗时时长,则判定所述磁盘是慢盘。由此可见,本申请通过判断磁盘是否满足预设条件来决定是否对目标IO的耗时时长进行比较,若目标耗时时长大于所述标准耗时时长,则判定所述磁盘是慢盘,有效区分磁盘存在的问题,提高了问题判断的准确性,更好的平衡了存储业务的功能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种磁盘检测方法流程图;
图2为本申请公开的一种具体的磁盘检测方法流程图;
图3为本申请公开的一种具体的磁盘检测方法流程图;
图4为本申请提供的磁盘检测装置结构示意图;
图5为本申请提供的一种电子设备结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,当磁盘访问性能变慢、跟不上系统的处理能力时,就会产生一些问题,比如raid发现有的条带访问较慢,导致raid的性能下降,进而导致系统的性能下降。另外当磁盘本身正常,只是当上层下来的压力过载时,磁盘响应变慢,导致未处理过来的IO在上层累积,新来的IO要排队,累积的越多排队的就越久,从而造成IO超时。因此不易区分磁盘性能不佳是慢盘导致的还是压力过载导致的。为此,本申请提供了一种磁盘检测方法,能够有效区分磁盘存在的问题,提高问题判断的准确性,更好的平衡存储业务的功能。
本发明实施例公开了一种磁盘检测方法,参见图1所示,该方法包括:
步骤S11:获取预设时间内磁盘的当前每秒读写次数,并判断所述当前每秒读写次数是否大于预设阈值,以得到判断结果。
本实施例中,获取预设时间内磁盘的当前每秒读写次数,并判断所述当前每秒读写次数是否大于预设阈值,以得到判断结果。例如获取过去1s内磁盘的iops(Input/OutputOperations Per Second,每秒读写I/O的次数),根据磁盘厂商给定的磁盘iops极限,对照是否在正常范围内。若预设阈值为1s内极限值100,则获取1s内磁盘的当前每秒读写次数,将所述当前每秒读写次数与极限值100进行比较,得到对应的判断结果。可以理解的是,在上层发现IO超时的时候开始执行获取预设时间内磁盘的当前每秒读写次数的步骤。另外,在进行磁盘性能统计时,需要统计磁盘iops、带宽、盘上耗时总和、最大耗时、读写的块长度信息、发给磁盘前IO排队的耗时时长以及排队IO个数,粒度越精确越好,例如可以获取1s内的上述全部数据。
步骤S12:基于所述判断结果判断所述磁盘是否满足预设条件。
本实施例中,判断所述当前每秒读写次数是否大于预设阈值,得到判断结果之后,基于所述判断结果判断所述磁盘是否满足预设条件。可以理解的是,本方案分为两个阶段,基于所述判断结果判断所述磁盘是否满足预设条件为第一阶段,若所述磁盘满足所述预设条件则进入第二阶段的判断。其中第一阶段可以检测磁盘的上层压力是否过大,也可以根据判断结果检测磁盘是否为慢盘。需要指出的是,判断结果也可以是存在磁盘是慢盘的概率,即当前磁盘可能是慢盘,此时则进入第二阶段进行慢盘检测的流程,从而诊断当前磁盘是否为慢盘。
步骤S13:若所述磁盘满足所述预设条件,则获取目标IO的目标耗时时长,并将所述目标耗时时长与所述目标IO对应的标准耗时时长比较。
本实施例中,基于所述判断结果判断所述磁盘是否满足预设条件之后,若所述磁盘满足所述预设条件,则获取目标IO的目标耗时时长,并将所述目标耗时时长与所述目标IO对应的标准耗时时长比较。可以理解的是,若所述磁盘满足所述预设条件,则表明无法明确的判定磁盘是慢盘或不是慢盘,即当前磁盘存在是慢盘的可能性,此时需要进入阶段二进行进一步的慢盘检测。具体的,获取目标IO的目标耗时时长,并将所述目标耗时时长与所述目标IO对应的标准耗时时长比较,根据目标耗时时长与标准耗时时长的比较结果判断当前磁盘是否是慢盘。
步骤S14:若所述目标耗时时长大于所述标准耗时时长,则判定所述磁盘是慢盘。
本实施例中,将所述目标耗时时长与所述目标IO对应的标准耗时时长比较之后,若所述目标耗时时长大于所述标准耗时时长,则判定所述磁盘是慢盘。可以理解的是,由于在现有技术中无法确定磁盘性能不佳的原因是磁盘为慢盘还是压力过载,因此通过第一阶段确定磁盘是否压力过载,若是则无需再次进行阶段二的慢盘检测流程,若不是压力过载则进入阶段二的慢盘检测流程,根据目标耗时时长与标准耗时时长的比较结果判断磁盘是否是慢盘,完成了磁盘是否是慢盘的检测,有效的减少了慢盘误判问题,并且根据是哪类问题来提示用户来调整或控制存储系统上的业务,例如若是压力过载则提示用户调整或控制存储系统上的业务,或更换其他的磁盘来缓解压力,简单便捷的促使磁盘性能跟业务IO相协调、充分发挥磁盘功效、更好的平衡存储业务的功能。需要指出的是,本方案采用C语言进行实现,使用IO统计信息、磁盘性能数据、磁盘厂商提供的性能极限值等,使得抽取数据范围合理,保证判断的正确性。
可见,本申请提供了一种磁盘检测方法,包括:获取预设时间内磁盘的当前每秒读写次数,并判断所述当前每秒读写次数是否大于预设阈值,以得到判断结果;基于所述判断结果判断所述磁盘是否满足预设条件;若所述磁盘满足所述预设条件,则获取目标IO的目标耗时时长,并将所述目标耗时时长与所述目标IO对应的标准耗时时长比较;若所述目标耗时时长大于所述标准耗时时长,则判定所述磁盘是慢盘。由此可见,本申请通过判断磁盘是否满足预设条件来决定是否对目标IO的耗时时长进行比较,若目标耗时时长大于所述标准耗时时长,则判定所述磁盘是慢盘,有效区分磁盘存在的问题,提高了问题判断的准确性,更好的平衡了存储业务的功能。
参见图2所示,本发明实施例公开了一种磁盘检测方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。
步骤S21:获取预设时间内磁盘的当前每秒读写次数,并判断所述当前每秒读写次数是否大于预设阈值,以得到判断结果。
步骤S22:若所述判断结果为所述当前每秒读写次数大于所述预设阈值,则直接判定所述磁盘不满足所述预设条件,并判定所述磁盘不是慢盘。
本实施例中,判断所述当前每秒读写次数是否大于预设阈值,得到判断结果之后,若所述判断结果为所述当前每秒读写次数大于所述预设阈值,则直接判定所述磁盘不满足所述预设条件,并判定所述磁盘不是慢盘。可以理解的是,若当前预设阈值为100,则在当前每秒读写次数大于100时,可以直接判定所述磁盘不是慢盘,同时判定所述磁盘不满足所述预设条件。需要指出的是,所述预设条件为无法准确确定当前磁盘是否为慢盘。而当前每秒读写次数大于所述预设阈值可以准确判断当前磁盘不是慢盘,因此不满足所述预设条件。
步骤S23:获取第二单位时间内的IO排队时长总和,将所述IO排队时长总和与预设的IO排队时长总和标准值进行比较。
本实施例中,若所述判断结果为所述当前每秒读写次数大于所述预设阈值,则直接判定所述磁盘不满足所述预设条件,并判定所述磁盘不是慢盘之后,获取第二单位时间内的IO排队时长总和,将所述IO排队时长总和与预设的IO排队时长总和标准值进行比较。可以理解的是,在当前每秒读写次数大于100时,需要进行判断是否压力过载的步骤,即通过IO排队时长总和判断压力是否过载。具体的,例如预先获取每次IO等待标准时长(即排队时长)400ms,预设阈值为100,则可以计算出标准情况下1s内100个IO的排队时长总和为100*400ms=40000ms=40s,即标准排队时长总和为40s。然后获取此刻第二单位时间内的IO排队时长总和,即获取当前100个IO的排队时长总和,将IO排队时长总和与标准排队时长总和40s进行比较,得到对应的比较结果。若所述IO排队时长总和小于或等于所述IO排队时长总和标准值(即标准排队时长总和40s),说明磁盘性能正常的,不进入阶段二检测磁盘是否慢盘。
步骤S24:若所述IO排队时长总和大于所述IO排队时长总和标准值,则判定上层压力超出预设压力阈值,并执行预设磁盘调整操作。
本实施例中,将所述IO排队时长总和与预设的IO排队时长总和标准值进行比较之后,若所述IO排队时长总和大于所述IO排队时长总和标准值,则判定上层压力超出预设压力阈值,并执行预设磁盘调整操作。即所述IO排队时长总和大于40s,此时认为是上层压力过大(即压力过载),因为盘上性能正常,因此判定上层下发的IO过多,导致很多IO排队,从而导致排队时长过长。可以理解的是,如果上层压力过大,则不再检测磁盘是否慢盘,即不再进入阶段二,而是直接提示用户调整上层压力,例如更换磁盘、或增加高性能的磁盘如SSD(Solid State Drives,固态硬盘),或增加HDD(Hard Disk Drive,硬盘驱动器)等。
步骤S25:若所述磁盘满足所述预设条件,则获取目标IO的目标耗时时长,并将所述目标耗时时长与所述目标IO对应的标准耗时时长比较。
步骤S26:若所述目标耗时时长大于所述标准耗时时长,则判定所述磁盘是慢盘。
关于上述步骤S21、S25、S26的具体内容可以参考前述实施例中公开的相应内容,在此不再进行赘述。
可见,本申请实施例通过获取预设时间内磁盘的当前每秒读写次数,并判断所述当前每秒读写次数是否大于预设阈值,以得到判断结果;若所述判断结果为所述当前每秒读写次数大于所述预设阈值,则直接判定所述磁盘不满足所述预设条件,并判定所述磁盘不是慢盘;获取第二单位时间内的IO排队时长总和,将所述IO排队时长总和与预设的IO排队时长总和标准值进行比较;若所述IO排队时长总和大于所述IO排队时长总和标准值,则判定上层压力超出预设压力阈值,并执行预设磁盘调整操作;若所述磁盘满足所述预设条件,则获取目标IO的目标耗时时长,并将所述目标耗时时长与所述目标IO对应的标准耗时时长比较;若所述目标耗时时长大于所述标准耗时时长,则判定所述磁盘是慢盘,有效区分磁盘存在的问题,提高了问题判断的准确性,更好的平衡了存储业务的功能。
参见图3所示,本发明实施例公开了一种磁盘检测方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。
步骤S31:获取预设时间内磁盘的当前每秒读写次数,并判断所述当前每秒读写次数是否大于预设阈值,以得到判断结果。
步骤S32:若所述判断结果为所述当前每秒读写次数小于或等于所述预设阈值,则获取所述磁盘在第一单位时间内的耗时总和,并基于所述耗时总和判断所述磁盘是否满足所述预设条件。
本实施例中,判断所述当前每秒读写次数是否大于预设阈值,得到判断结果之后,若所述判断结果为所述当前每秒读写次数小于或等于所述预设阈值,则获取所述磁盘在第一单位时间内的耗时总和,并基于所述耗时总和判断所述磁盘是否满足所述预设条件。具体的,将所述耗时总和与预设耗时总和标准值进行比较,若所述耗时总和大于所述预设耗时总和标准值,则判定所述磁盘不满足所述预设条件,并判定所述磁盘是慢盘,若所述耗时总和小于所述预设耗时总和标准值,则获取对应的耗时峰值,若所述耗时峰值不满足预设慢盘峰值判断规则,则判定所述磁盘满足所述预设条件,若所述耗时峰值满足所述预设慢盘峰值判断规则,则判定所述磁盘不满足所述预设条件,并判定所述磁盘是慢盘。
可以理解的是,获取预先计算的预设耗时总和标准值,例如预设阈值为100,每次IO的耗时标准值为10ms,则计算1s内100个IO的耗时总和标准值为100*10ms=1000ms。然后获取当前1s内的耗时总和,若耗时总和大于耗时总和标准值1000ms,则直接判断磁盘为慢盘,此时已准确确定磁盘为慢盘,即磁盘不满足所述预设条件,因此无需进入阶段二。若耗时总和小于耗时总和标准值1000ms,此时可能是前面没有IO流量下来,直到1s中靠后的时间才有IO流量下来,例如到最后一个IO时耗时突然变长,此时检查最近的耗时峰值,即获取1s内对应的耗时峰值,若所述耗时峰值不满足预设慢盘峰值判断规则,则判定所述磁盘满足所述预设条件,若所述耗时峰值满足所述预设慢盘峰值判断规则,则判定所述磁盘不满足所述预设条件,并判定所述磁盘是慢盘。例如,若是单个的IO耗时长,则不能说明磁盘是慢盘,而是可能是慢盘,并且观察是否有连续的IO慢,若连续的IO慢满足预设慢盘峰值判断规则,则判定所述磁盘不满足所述预设条件,即磁盘是慢盘;若连续的IO慢不满足预设慢盘峰值判断规则,则判定所述磁盘满足所述预设条件,即磁盘可能是慢盘。
步骤S33:当所述磁盘满足所述预设条件时,向所述磁盘发送第一OTUR指令。
本实施例中,基于所述耗时总和判断所述磁盘是否满足所述预设条件之后,当所述磁盘满足所述预设条件时,向所述磁盘发送第一OTUR(OrderedTest Unit Ready,顺序的自测试指令)指令。可以理解的是,当所述磁盘满足所述预设条件时进入阶段二,首先向所述磁盘发送第一OTUR指令,当磁盘在处理完当前磁盘上的全部IO时会生成对应的第一OTUR结果并返回。
步骤S34:接收到所述第一OTUR结果时,获取目标IO的目标耗时时长。
本实施例中,向所述磁盘发送第一OTUR指令之后,接收到所述第一OTUR结果时,获取目标IO的目标耗时时长。可以理解的是,当接收到所述第一OTUR结果时,表面所述磁盘当前没有待处理的IO,此时从IO排队队列中获取预设数量的所述目标IO,并将全部所述目标IO并发下发至所述磁盘,然后向所述磁盘发送第二OTUR指令,以便所述磁盘在执行完全部所述目标IO后生成第二OTUR结果并返回,当接收到所述第二OTUR结果时,基于IO发送时间与第二OTUR结果接收时间计算差值,以得到执行完全部所述目标IO所需的目标耗时时长。
例如,从排队IO里选取排队队列里的前26(盘队列IO个数)个IO做标记,即获得26个目标IO,然后将这26个目标IO并发下发至磁盘,目标IO下发完成后,再次向磁盘发送OTUR指令(即第二OTUR指令),当磁盘在处理完这26个目标IO之后,会生成第二OTUR结果并返回,然后基于IO发送时间与第二OTUR结果接收时间计算差值,即可获得执行完全部所述目标IO所需的目标耗时时长,所述目标耗时时长即为这次OTUR的盘耗时。可以理解的是,这次OTUR的盘耗时等于这26个目标IO的盘上耗时,将盘上耗时时长与标准耗时时长比较,若盘上耗时时长大于标准耗时时长,则判定磁盘为慢盘。
步骤S35:计算在预设标准情况下执行完全部所述目标IO所需的标准耗时时长。
本实施例中,计算在预设标准情况下执行完全部所述目标IO所需的标准耗时时长。可以理解的是,26个目标IO的标准耗时时长=(1+2+3+…+26)*单个目标IO的盘处理平均耗时。例如iops极限值为100,单个目标IO的盘处理平均耗时10ms,那这26个IO的总耗时=351*10ms=3510ms,即标准耗时时长为3510ms。需要指出的是,第二个IO耗时时长为等待第一个IO的时长加第二个IO自己本身的耗时时长,依次类推。
步骤S36:将所述目标耗时时长与所述目标IO对应的标准耗时时长比较。
本实施例中,计算在预设标准情况下执行完全部所述目标IO所需的标准耗时时长之后,将所述目标耗时时长与所述目标IO对应的标准耗时时长比较。若所述目标耗时时长小于或等于所述标准耗时时长(3510ms),则判定所述磁盘不是慢盘。
步骤S37:若所述目标耗时时长大于所述标准耗时时长,则判定所述磁盘是慢盘。
关于上述步骤S31、S37的具体内容可以参考前述实施例中公开的相应内容,在此不再进行赘述。
可见,本申请实施例通过获取预设时间内磁盘的当前每秒读写次数,并判断所述当前每秒读写次数是否大于预设阈值,以得到判断结果;若所述判断结果为所述当前每秒读写次数小于或等于所述预设阈值,则获取所述磁盘在第一单位时间内的耗时总和,并基于所述耗时总和判断所述磁盘是否满足所述预设条件;当所述磁盘满足所述预设条件时,向所述磁盘发送第一OTUR指令;接收到所述第一OTUR结果时,获取目标IO的目标耗时时长;计算在预设标准情况下执行完全部所述目标IO所需的标准耗时时长;将所述目标耗时时长与所述目标IO对应的标准耗时时长比较;若所述目标耗时时长大于所述标准耗时时长,则判定所述磁盘是慢盘,有效区分磁盘存在的问题,提高了问题判断的准确性,更好的平衡了存储业务的功能。
参见图4所示,本申请实施例还相应公开了一种磁盘检测装置,包括:
第一判断模块11,用于获取预设时间内磁盘的当前每秒读写次数,并判断所述当前每秒读写次数是否大于预设阈值,以得到判断结果;
第二判断模块12,用于基于所述判断结果判断所述磁盘是否满足预设条件;
时长比较模块13,用于若所述磁盘满足所述预设条件,则获取目标IO的目标耗时时长,并将所述目标耗时时长与所述目标IO对应的标准耗时时长比较;
慢盘判定模块14,用于若所述目标耗时时长大于所述标准耗时时长,则判定所述磁盘是慢盘。
可见,本申请包括:获取预设时间内磁盘的当前每秒读写次数,并判断所述当前每秒读写次数是否大于预设阈值,以得到判断结果;基于所述判断结果判断所述磁盘是否满足预设条件;若所述磁盘满足所述预设条件,则获取目标IO的目标耗时时长,并将所述目标耗时时长与所述目标IO对应的标准耗时时长比较;若所述目标耗时时长大于所述标准耗时时长,则判定所述磁盘是慢盘。由此可见,本申请通过判断磁盘是否满足预设条件来决定是否对目标IO的耗时时长进行比较,若目标耗时时长大于所述标准耗时时长,则判定所述磁盘是慢盘,有效区分磁盘存在的问题,提高了问题判断的准确性,更好的平衡了存储业务的功能。
在一些具体实施例中,所述第一判断模块11,具体包括:
第一判断单元,用于获取预设时间内磁盘的当前每秒读写次数,并判断所述当前每秒读写次数是否大于预设阈值,以得到判断结果。
在一些具体实施例中,所述第二判断模块12,具体包括:
第一磁盘判定单元,用于若所述判断结果为所述当前每秒读写次数大于所述预设阈值,则直接判定所述磁盘不满足所述预设条件,并判定所述磁盘不是慢盘;
排队时长总和获取单元,用于获取第二单位时间内的IO排队时长总和;
排队时长总和比较单元,用于将所述IO排队时长总和与预设的IO排队时长总和标准值进行比较;
磁盘调整单元,用于若所述IO排队时长总和大于所述IO排队时长总和标准值,则判定上层压力超出预设压力阈值,并执行预设磁盘调整操作;
磁盘保持单元,用于若所述IO排队时长总和小于或等于所述IO排队时长总和标准值,则保持;
耗时总和获取单元,用于若所述判断结果为所述当前每秒读写次数小于或等于所述预设阈值,则获取所述磁盘在第一单位时间内的耗时总和;
耗时总和比较单元,用于将所述耗时总和与预设耗时总和标准值进行比较;
第二磁盘判定单元,用于若所述耗时总和大于所述预设耗时总和标准值,则判定所述磁盘不满足所述预设条件,并判定所述磁盘是慢盘;
耗时峰值获取单元,用于若所述耗时总和小于所述预设耗时总和标准值,则获取对应的耗时峰值;
第三磁盘判定单元,用于若所述耗时峰值不满足预设慢盘峰值判断规则,则判定所述磁盘满足所述预设条件;
第四磁盘判定单元,用于若所述耗时峰值满足所述预设慢盘峰值判断规则,则判定所述磁盘不满足所述预设条件,并判定所述磁盘是慢盘。
在一些具体实施例中,所述时长比较模块13,具体包括:
第一指令发送单元,用于若所述磁盘满足所述预设条件,则向所述磁盘发送第一OTUR指令,以便所述磁盘在执行完全部的IO时生成对应的第一OTUR结果并返回;
目标IO获取单元,用于接收到所述第一OTUR结果时,从IO排队队列中获取预设数量的所述目标IO;
目标IO下发单元,用于将全部所述目标IO并发下发至所述磁盘;
第二指令发送单元,用于向所述磁盘发送第二OTUR指令,以便所述磁盘在执行完全部所述目标IO后生成第二OTUR结果并返回;
目标耗时时长计算单元,用于当接收到所述第二OTUR结果时,基于IO发送时间与第二OTUR结果接收时间计算差值,以得到执行完全部所述目标IO所需的目标耗时时长;
标准耗时时长计算单元,用于计算在预设标准情况下执行完全部所述目标IO所需的标准耗时时长;
耗时时长比较单元,用于将所述目标耗时时长与所述目标IO对应的标准耗时时长比较。
在一些具体实施例中,所述慢盘判定模块14,具体包括:
第五磁盘判定单元,用于若所述目标耗时时长小于或等于所述标准耗时时长,则判定所述磁盘不是慢盘;
第六磁盘判定单元,用于若所述目标耗时时长大于所述标准耗时时长,则判定所述磁盘是慢盘。
进一步的,本申请实施例还提供了一种电子设备。图5是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本申请的使用范围的任何限制。
图5为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的磁盘检测方法中的相关步骤。另外,本实施例中的电子设备20具体可以为电子计算机。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的磁盘检测方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
进一步的,本申请实施例还公开了一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行时,实现前述任一实施例公开的磁盘检测方法步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种磁盘检测方法、装置、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种磁盘检测方法,其特征在于包括:
获取预设时间内磁盘的当前每秒读写次数,并判断所述当前每秒读写次数是否大于预设阈值,以得到判断结果;
基于所述判断结果判断所述磁盘是否满足预设条件;
若所述磁盘满足所述预设条件,则获取目标IO的目标耗时时长,并将所述目标耗时时长与所述目标IO对应的标准耗时时长比较;
若所述目标耗时时长大于所述标准耗时时长,则判定所述磁盘是慢盘。
2.根据权利要求1所述的磁盘检测方法,其特征在于,所述基于所述判断结果判断所述磁盘是否满足预设条件,包括:
若所述判断结果为所述当前每秒读写次数大于所述预设阈值,则直接判定所述磁盘不满足所述预设条件,并判定所述磁盘不是慢盘;
若所述判断结果为所述当前每秒读写次数小于或等于所述预设阈值,则获取所述磁盘在第一单位时间内的耗时总和,并基于所述耗时总和判断所述磁盘是否满足所述预设条件。
3.根据权利要求2所述的磁盘检测方法,其特征在于,所述若所述判断结果为所述当前每秒读写次数大于所述预设阈值,则直接判定所述磁盘不满足所述预设条件,并判定所述磁盘不是慢盘之后,还包括:
获取第二单位时间内的IO排队时长总和;
将所述IO排队时长总和与预设的IO排队时长总和标准值进行比较;
若所述IO排队时长总和大于所述IO排队时长总和标准值,则判定上层压力超出预设压力阈值,并执行预设磁盘调整操作;
若所述IO排队时长总和小于或等于所述IO排队时长总和标准值,则保持。
4.根据权利要求2所述的磁盘检测方法,其特征在于,所述基于所述耗时总和判断所述磁盘是否满足所述预设条件,包括:
将所述耗时总和与预设耗时总和标准值进行比较;
若所述耗时总和大于所述预设耗时总和标准值,则判定所述磁盘不满足所述预设条件,并判定所述磁盘是慢盘;
若所述耗时总和小于所述预设耗时总和标准值,则获取对应的耗时峰值;
若所述耗时峰值不满足预设慢盘峰值判断规则,则判定所述磁盘满足所述预设条件;
若所述耗时峰值满足所述预设慢盘峰值判断规则,则判定所述磁盘不满足所述预设条件,并判定所述磁盘是慢盘。
5.根据权利要求1至4任一项所述的磁盘检测方法,其特征在于,所述获取目标IO的目标耗时时长之前,还包括:
向所述磁盘发送第一OTUR指令,以便所述磁盘在执行完全部的IO时生成对应的第一OTUR结果并返回。
6.根据权利要求5所述的磁盘检测方法,其特征在于,所述若所述磁盘满足所述预设条件,则获取目标IO的目标耗时时长,包括:
当所述磁盘满足所述预设条件并且接收到所述第一OTUR结果时,从IO排队队列中获取预设数量的所述目标IO,并将全部所述目标IO并发下发至所述磁盘;
向所述磁盘发送第二OTUR指令,以便所述磁盘在执行完全部所述目标IO后生成第二OTUR结果并返回;
当接收到所述第二OTUR结果时,基于IO发送时间与第二OTUR结果接收时间计算差值,以得到执行完全部所述目标IO所需的目标耗时时长。
7.根据权利要求6所述的磁盘检测方法,其特征在于,所述将所述目标耗时时长与所述目标IO对应的标准耗时时长比较之前,还包括:
计算在预设标准情况下执行完全部所述目标IO所需的标准耗时时长;
相应的,所述将所述目标耗时时长与所述目标IO对应的标准耗时时长比较之后,还包括:
若所述目标耗时时长小于或等于所述标准耗时时长,则判定所述磁盘不是慢盘。
8.一种磁盘检测装置,其特征在于,包括:
第一判断模块,用于获取预设时间内磁盘的当前每秒读写次数,并判断所述当前每秒读写次数是否大于预设阈值,以得到判断结果;
第二判断模块,用于基于所述判断结果判断所述磁盘是否满足预设条件;
时长比较模块,用于若所述磁盘满足所述预设条件,则获取目标IO的目标耗时时长,并将所述目标耗时时长与所述目标IO对应的标准耗时时长比较;
慢盘判定模块,用于若所述目标耗时时长大于所述标准耗时时长,则判定所述磁盘是慢盘。
9.一种电子设备,其特征在于,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现如权利要求1至7任一项所述的磁盘检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的磁盘检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211156973.5A CN115470059A (zh) | 2022-09-22 | 2022-09-22 | 一种磁盘检测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211156973.5A CN115470059A (zh) | 2022-09-22 | 2022-09-22 | 一种磁盘检测方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115470059A true CN115470059A (zh) | 2022-12-13 |
Family
ID=84334260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211156973.5A Pending CN115470059A (zh) | 2022-09-22 | 2022-09-22 | 一种磁盘检测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115470059A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115934003A (zh) * | 2023-03-09 | 2023-04-07 | 浪潮电子信息产业股份有限公司 | 磁盘阵列中的慢盘识别方法、装置、设备及可读存储介质 |
CN118260144A (zh) * | 2024-05-31 | 2024-06-28 | 济南浪潮数据技术有限公司 | 一种硬盘测试方法、设备、存储介质以及计算机程序产品 |
-
2022
- 2022-09-22 CN CN202211156973.5A patent/CN115470059A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115934003A (zh) * | 2023-03-09 | 2023-04-07 | 浪潮电子信息产业股份有限公司 | 磁盘阵列中的慢盘识别方法、装置、设备及可读存储介质 |
CN118260144A (zh) * | 2024-05-31 | 2024-06-28 | 济南浪潮数据技术有限公司 | 一种硬盘测试方法、设备、存储介质以及计算机程序产品 |
CN118260144B (zh) * | 2024-05-31 | 2024-09-03 | 济南浪潮数据技术有限公司 | 一种硬盘测试方法、设备、存储介质以及计算机程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7533292B2 (en) | Management method for spare disk drives in a raid system | |
CN115470059A (zh) | 一种磁盘检测方法、装置、设备及存储介质 | |
US5894583A (en) | Variable timeout method for improving missing-interrupt-handler operations in an environment having I/O devices shared by one or more systems | |
US7506314B2 (en) | Method for automatically collecting trace detail and history data | |
US5768620A (en) | Variable timeout method in a missing-interrupt-handler for I/O requests issued by the same operating system | |
US5758190A (en) | Control unit threshold timeout controls for software missing interrupt handlers in operating systems | |
US8015327B1 (en) | Techniques for monitoring and managing wait queues | |
CN109684140B (zh) | 一种慢盘检测方法、装置、设备及计算机可读存储介质 | |
US20090235110A1 (en) | Input/output control method, information processing apparatus, computer readable recording medium | |
US8122158B1 (en) | Method for improving I/O performance of host systems by applying future time interval policies when using external storage systems | |
US8244934B2 (en) | Data storage network management | |
US20080126831A1 (en) | System and Method for Caching Client Requests to an Application Server Based on the Application Server's Reliability | |
EP3208715A2 (en) | Method and apparatus for performing data scrubbing management in storage system | |
US20070168201A1 (en) | Formula for automatic prioritization of the business impact based on a failure on a service in a loosely coupled application | |
KR20120102664A (ko) | 미래 사용 추정에 기반한 저장 메모리 할당 | |
WO2005017735A1 (ja) | ディスクアレイ装置におけるボトルネックを検出するシステムおよびプログラム | |
US20030135439A1 (en) | Computer system for central management of asset information | |
CN113903389A (zh) | 一种慢盘检测方法、装置及计算机可读写存储介质 | |
CN115793963A (zh) | 一种硬盘故障处理方法、装置、设备及存储介质 | |
US20150286548A1 (en) | Information processing device and method | |
RU2697961C1 (ru) | Система и способ оценки деградации устройства хранения данных и обеспечения сохранности наиболее важных данных | |
CN113590405A (zh) | 硬盘错误的检测方法、装置、存储介质和电子装置 | |
US8089712B2 (en) | Abnormality determining apparatus | |
CN116680104A (zh) | 硬盘管理方法以及计算设备 | |
CN110837428A (zh) | 存储设备管理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |