CN115691636B - 一种慢盘检测方法以及装置 - Google Patents

一种慢盘检测方法以及装置 Download PDF

Info

Publication number
CN115691636B
CN115691636B CN202211284577.0A CN202211284577A CN115691636B CN 115691636 B CN115691636 B CN 115691636B CN 202211284577 A CN202211284577 A CN 202211284577A CN 115691636 B CN115691636 B CN 115691636B
Authority
CN
China
Prior art keywords
physical disk
disk
self
physical
checking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211284577.0A
Other languages
English (en)
Other versions
CN115691636A (zh
Inventor
王钦东
刘国霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XFusion Digital Technologies Co Ltd
Original Assignee
XFusion Digital Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XFusion Digital Technologies Co Ltd filed Critical XFusion Digital Technologies Co Ltd
Priority to CN202211284577.0A priority Critical patent/CN115691636B/zh
Publication of CN115691636A publication Critical patent/CN115691636A/zh
Application granted granted Critical
Publication of CN115691636B publication Critical patent/CN115691636B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种慢盘检测方法以及装置,该方法包括:服务器对确定慢盘的系统盘对应的多个物理盘获取自检报告,然后从自检报告分析各个物理盘的风险等级,将风险等级最高的物理盘确定为故障盘,通过使用风险等级对系统盘对应的多个物理盘进行排序,避免服务器同时对多个物理盘进行报错的情况,直接识别出现慢盘风险的物理盘,而无需逐一更换硬盘来判定故障盘,节省业务时延。

Description

一种慢盘检测方法以及装置
技术领域
本申请实施例涉及通信领域,尤其涉及一种慢盘检测方法以及装置。
背景技术
硬盘由于磁头老化、磁性退化、坏道、碎片、振动和节能设计等硬件和环境问题,会导致读写性能恶化,输入输出(input/output,IO)响应时间变长,进而成为慢盘,这种现象称为慢盘现象。系统盘出现慢盘,会大幅降低系统盘的读写速度,进而影响到系统盘相关的业务,响应不及时会引发业务瓶颈问题,甚至引发客户业务中断;提前预测和识别到慢盘问题并定位到具体的物理盘,至关重要。
当前通过系统盘IO性能,根据IO吞吐量以及IO耗时,计算出IO平均时延,然后根据该时延制定判断标准,在一个滑窗周期内,IO平均时延超时达到一定的次数,就确定故障的系统盘。由于出现慢盘故障后需要定位问题物理盘,当前多是采用更换所有硬盘,或者逐一更换硬盘的方式确认那块硬盘出现了问题。
但是,更换所有硬盘或者逐一更换硬盘的方式可能会带来业务较长时间的影响,而且会带来硬盘返还率的提升。
发明内容
本申请提供了一种慢盘检测方法以及装置,用于节省业务时延。
本申请第一方面提供了一种慢盘检测方法,该方法包括:确定慢盘的系统盘;根据系统盘确定对应的多个物理盘;获取多个物理盘中每个物理盘的自检报告;根据每个物理盘的自检报告确定每个物理盘的风险等级;确定风险等级最高的物理盘为故障盘。
上述方面中,服务器对确定慢盘的系统盘对应的多个物理盘获取自检报告,然后从自检报告分析各个物理盘的风险等级,将风险等级最高的物理盘确定为故障盘,通过使用风险等级对系统盘对应的多个物理盘进行排序,避免服务器同时对多个物理盘进行报错的情况,直接识别出现慢盘风险的物理盘,而无需逐一更换硬盘来判定故障盘,节省业务时延。
一种可能的实施方式中,上述步骤根据每个物理盘的自检报告确定每个物理盘的风险等级包括:根据每个物理盘的自检报告确定每个物理盘的小周期等级,小周期等级为每个物理盘的自检周期内输入输出时延的延迟程度;根据小周期等级在大周期内的数量确定每个物理盘的风险等级,大周期包括每个物理盘的多个自检周期。
上述可能的实施方式中,物理盘的自检过程中包括小周期的自检周期,由于自检周期可能存在误差,还需要对多个自检周期例如一个大周期内的自检结果进行分析,服务器对于每个物理盘的自检可以是通过对每个小周期的自检结果划分小周期等级,再对大周期内小周期等级进行统计,针对大周期内小周期等级的数量确定每个物理盘的风险等级。通过多个小周期等级的累加,避免因小周期自检的波动性导致的自检准确度低的问题,提高物理盘的风险等级的评估准确度。
一种可能的实施方式中,上述步骤根据每个物理盘的自检报告确定每个物理盘的小周期等级包括:对每个物理盘在自检周期内的自检报告分析每个物理盘在自检周期内的输入输出时延;对每个物理盘在自检周期内的输入输出时延匹配预设条件,以获得每个物理盘的小周期等级。
上述可能的实施方式中,物理盘的自检报告可以用来分析该物理盘的输入输出时延,将各个物理盘的输入输出时延与预设条件进行匹配,获得该物理盘的小周期等级,如输入输出超过某个数值,则达到该数值对应的小周期等级,通过输入输出时延确定小周期等级,提高方案的准确度。
一种可能的实施方式中,多个物理盘包括第一物理盘,根据小周期等级在大周期内的数量确定每个物理盘的风险等级包括:将第一物理盘在大周期内的小周期等级按照相同等级进行累加;将第一物理盘中数量最高的小周期等级作为第一物理盘的风险等级。
上述可能的实施方式中,对多个物理盘中的各个物理盘进行评估,即对多个物理盘中的第一物理盘中的一个大周期内的小周期等级进行累加,将大周期内的数量最多的小周期等级作为该物理盘的风险等级,通过多个小周期等级的累加,避免因小周期自检的波动性导致的自检准确度低的问题,提高物理盘的风险等级的评估准确度。
一种可能的实施方式中,自检报告包括重映射扇区数、坏道信息、读错误率、寻道错误率、接口误码率、温度、写错误次数、读错误次数,对每个物理盘在自检周期内的自检报告分析每个物理盘在自检周期内的输入输出时延包括:对每个物理盘在自检周期内的重映射扇区数、坏道信息、读错误率、寻道错误率、接口误码率、温度、写错误次数和读错误次数分析每个物理盘在自检周期内的输入输出时延。
上述可能的实施方式中,针对自检报告中的多个参数计算输入输出时延,提高评估的准确度。
一种可能的实施方式中,该方法还包括:接收指令,指令用于触发根据每个物理盘的自检报告确定故障盘的步骤。
上述可能的实施方式中,分析物理盘的风险等级来确定故障盘的流程也可以由用户指示需不需要使用,具体的,服务器可以接收用户的指令,当接收到该指令时才执行根据风险等级确定故障盘的步骤,可以提高方案的灵活性。
本申请第二方面提供了一种慢盘检测装置,可以实现上述第一方面或第一方面中任一种可能的实施方式中的方法。该装置包括用于执行上述方法的相应的单元或模块。该装置包括的单元或模块可以通过软件和/或硬件方式实现。该装置例如可以为网络设备,也可以为支持网络设备实现上述方法的芯片、芯片系统、或处理器等,还可以为能实现全部或部分网络设备功能的逻辑模块或软件。
本申请第三方面提供了一种计算机设备,包括:处理器,该处理器与存储器耦合,该存储器用于存储指令,当指令被处理器执行时,使得该计算机设备实现上述第一方面或第一方面中任一种可能的实施方式中的方法。该计算机设备例如可以为网络设备,也可以为支持网络设备实现上述方法的芯片或芯片系统等。
本申请第四方面提供了一种计算机可读存储介质,该计算机可读存储介质中保存有指令,当该指令被处理器执行时,实现前述第一方面或第一方面任一种可能的实施方式提供的方法。
本申请第五方面提供了一种计算机程序产品,计算机程序产品中包括计算机程序代码,当该计算机程序代码在计算机上执行时,实现前述第一方面或第一方面任一种可能的实施方式提供的方法。
附图说明
图1为本申请实施例提供的一种服务器系统的架构图;
图2为本申请实施例提供的一种慢盘检测方法的流程示意图;
图3为本申请实施例提供的一种多盘组RAID场景的结构示意图;
图4为本申请实施例提供的一种慢盘检测装置的结构示意图;
图5为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
本申请提供了一种慢盘检测方法以及装置,用于节省业务时延。
下面结合附图,对本申请的实施例进行描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。本领域普通技术人员可知,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本申请,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本申请同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本申请的主旨。
下面对本申请实施例中的一些术语进行解释。
系统盘:操作系统下呈现的盘符。
物理盘:真实的硬盘实体。
平均服务时间(svctm):平均每次设备I/O操作的服务时间(毫秒),即delta(use)/delta(rio+wio)。
%util:一秒中有百分之多少的时间用于I/O操作,或者说一秒中有多少时间I/O队列是非空的。即delta(use)/s/1000(因为use的单位为毫秒)。
自我检测分析与报告技术(self-monitoring analysis and reportingtechnology,SMART),的目的是监控硬盘的可靠性、预测磁盘故障和执行各种类型的磁盘自检。如今大部分的硬盘接口技术:高级技术连接(advanced technology attachment,ATA)/串行高级技术连接(serial advanced technology attachment,SATA)、小型计算机系统接口(small computer system interface,SCSI)/串行SCSI(serial attached SCSI,SAS)和固态硬盘都搭载内置的SMART系统。作为行业规范,SMART规定了硬盘制造厂商应遵循的标准,满足SMART标准的条件主要包括:
1)在设备制造期间完成SMART需要的各项参数、属性的设定;
2)在特定系统平台下,能够正常使用SMART;通过基本输入输出系统(basic inputoutput system,BIOS)检测,能够识别设备是否支持SMART并可显示相关信息,而且能辨别有效和失效的SMART信息;
3)允许用户自由开启和关闭SMART功能;
4)在用户使用过程中,能提供SMART的各项有效信息,确定设备的工作状态,并能发出相应的修正指令或警告。在硬盘及操作系统都支持SMART技术并且开启的情况下,若硬盘状态不良,SMART功能会在开机时响起警报,SMART技术能够在屏幕上显示英文警告信息:“WARNING IMMEDIATLY BACKUP YOUR DATA AND REPLACE YOUR HARD DISK DRIVE,AFAILURE MAY BE IMMINENT.”(警告:立刻备份你的数据并更换硬盘,硬盘可能失效。)
SMART功能不断从硬盘上的各个传感器收集信息,并把信息保存在硬盘的系统保留区(service area)内,这个区域一般位于硬盘0物理面的最前面几十个物理磁道,由厂商写入相关的内部管理程序。这里除了SMART信息表外还包括低级格式化程序、加密解密程序、自监控程序、自动修复程序等。用户使用的监测软件通过名为“SMART Return Status”的命令(命令代码为:B0h)对SMART信息进行读取,且不允许最终用户对信息进行修改。
请参阅图1,如图1所示为本申请实施例提供的一种服务器的系统架构图,该服务器10包括CPU101、硬盘背板102和冗余磁盘阵列(redundant arrays of independentdisks,RAID)卡103,其中,硬盘背板102连接多个硬盘1021,RAID卡103用于实现服务器10对硬盘1021的管理。例如,可以通过将多个硬盘组成一个逻辑盘,按照预设规则将该逻辑盘切分为多个条带,每个条带作为一个逻辑卷,以此向上层应用提供存储资源硬盘。此外,通过把数据分成多个数据块(block)并行写入/读出多个硬盘以提高访问硬盘的速度,还可以通过镜像或校验操作提供容错能力等等。RAID卡103可以接收CPU101的指令并转换成信号传输到硬盘背板102中。
其中,该服务器的RAID卡的类型可以是RAID直通,磁盘簇(just a bunch ofdisks,JBOD),单盘RAID,RAID直通硬盘:IT系列RAID卡,RAID卡透传管理硬盘,不能组RAID;RAID JBOD硬盘:类似IT系列卡的管理机制,无需组RAID即可使用。
CPU 101可以由现场可编程逻辑门阵列(field programmable gate array,FPGA)或其他硬件代替,或者,FPGA或其他硬件与CPU101共同执行上述相应的操作。
当前通过系统盘IO性能,根据IO吞吐量以及IO耗时,计算出IO平均时延,然后根据该时延制定判断标准,在一个滑窗周期内,IO平均时延超时达到一定的次数,就确定故障的系统盘,由于出现慢盘故障后需要定位问题物理盘,当前方案多是采用更换所有硬盘,或者逐一更换硬盘的方式确认哪块硬盘出现了问题;但是,更换所有硬盘或者逐一更换硬盘的方式可能会带来业务较长时间的影响,而且会带来硬盘返还率的提升。
为解决上述问题,本申请实施例提供了一种慢盘检测方法,该方法如下所述。
请参阅图2,如图2所示为本申请实施例提供的一种慢盘检测方法的流程示意图,该方法包括:
步骤201.服务器确定慢盘的系统盘。
本实施例中,服务器可以通过慢盘检测找到慢盘的系统盘,其中,该慢盘检测可以是通过对系统盘的输入输出(input-output,IO)性能检测的方式,示例性的,服务器可以通过系统盘IO性能,根据IO吞吐量以及IO耗时,计算出IO平均时延,然后根据该时延制定判断标准,在一个滑窗周期内,IO平均时延超时达到一定的次数的系统盘为慢盘。
其中,慢盘检测过程可以是周期性的,则检测时段也可以称为检测周期;或者,慢盘检测过程也可以是被动触发的,如由人工或其他监测设备触发,例如当物理主机发生卡顿时,可以触发慢盘检测过程,以确定是否由于慢盘原因导致的物理主机卡顿。
步骤202.服务器根据系统盘确定对应的多个物理盘。
本实施例中,系统盘与物理盘具有对应关系,该物理盘即为图1中的硬盘,即一个系统盘的数据可以存储在一个或多个物理盘上,则该系统盘与该一个或多个物理盘具有对应关系,由于系统盘与物理盘一一对应的情况下可以直接确定故障的物理盘,本申请实施例中的系统盘以对应多个物理盘为例,如图3所示的多盘组RAID场景的结构示意图,系统盘对应多个物理盘,图中以一个系统盘对应两个物理盘为例,系统盘1对应物理盘1和物理盘2,系统盘2对应物理盘3和物理盘4,图3中虚线表示对应关系,即服务器在确定慢盘的系统盘后,即可根据对应关系确定该系统盘对应的多个物理盘。
步骤203.服务器获取多个物理盘中每个物理盘的自检报告。
本实施例中,服务器在确定对应的多个物理盘后,即可获取该多个物理盘中各个物理盘的自检报告,其中,该自检报告可以是定期收集的,也可以是即时获取的,此处不作限定。示例性的,该自检报告可以包括自我检测分析与报告技术(self-monitoringanalysis and reporting technology,SMART)信息,每个物理盘的自检报告为SMART功能不断从物理盘上的各个传感器收集的。
步骤204.服务器根据每个物理盘的自检报告确定每个物理盘的风险等级。
本实施例中,服务器在获得慢盘的系统盘对应的多个物理盘的自检报告后,即可根据自检报告中的IO性能数据分析各个物理盘故障的可能性,并划分风险等级,即对多个物理盘的故障可能性作等级区分,示例性的,3个物理盘的风险等级分别可以是1、2、3,风险等级越高,则物理盘故障可能性越大,具体此处不作限定。
其中,服务器根据每个物理盘的自检报告确定每个物理盘的风险等级的过程可以是先根据每个物理盘的自检报告确定每个物理盘的小周期等级,再根据小周期等级在大周期内的数量确定每个物理盘的风险等级。其中,小周期等级为每个物理盘的自检周期内输入输出时延的延迟程度,大周期包括每个物理盘的多个自检周期。
具体的,物理盘的自检过程中包括小周期的自检周期,由于自检周期可能存在误差,还需要对多个自检周期例如一个大周期内的自检结果进行分析,服务器对于每个物理盘的自检可以是通过对每个小周期的自检结果划分小周期等级,再对大周期内小周期等级进行统计,针对大周期内小周期等级的数量确定每个物理盘的风险等级。通过多个小周期等级的累加,避免因小周期自检的波动性导致的自检准确度低的问题,提高物理盘的风险等级的评估准确度。
在一个示例中,根据每个物理盘的自检报告确定每个物理盘的小周期等级地过程为,对每个物理盘在自检周期内的自检报告分析每个物理盘在自检周期内的输入输出时延;对每个物理盘在自检周期内的输入输出时延匹配预设条件,以获得每个物理盘的小周期等级。
具体的,物理盘的自检报告可以用来分析该物理盘的输入输出时延,将各个物理盘的输入输出时延与预设条件进行匹配,获得该物理盘的小周期等级,如输入输出超过某个数值,则达到该数值对应的小周期等级,通过输入输出时延确定小周期等级,提高方案的准确度。
在一个示例中,多个物理盘包括第一物理盘,则根据小周期等级在大周期内的数量确定每个物理盘的风险等级的过程为,将第一物理盘在大周期内的小周期等级按照相同等级进行累加;将第一物理盘中数量最高的小周期等级作为第一物理盘的风险等级。
具体的,对多个物理盘中的各个物理盘进行评估,即对多个物理盘中的第一物理盘中的一个大周期内的小周期等级进行累加,将大周期内的数量最多的小周期等级作为该物理盘的风险等级,通过多个小周期等级的累加,避免因小周期自检的波动性导致的自检准确度低的问题,提高物理盘的风险等级的评估准确度。
示例性的,慢盘程度划定评价标准,分为5个风险等级:0,1,2,3,10,当慢盘风险等级达到10的标准时,表示系统盘性能下降严重,需要更换物理盘;其他风险等级时,表示出现慢盘现象,风险可控。每个档次,根据IO性能数据,计算得出IO平均时延、IO繁忙程度,结合环境中相同类型硬盘(电脑硬盘(hard disk drive,HDD)或固态硬盘(solid statedisk,SSD)),判定是否出现相对慢盘的情况:
正常情况:svctm<=30ms,30<=%util<=60,假设一个小周期为3s,一个大周期为5min,其中有50个小周期异常,该盘存在风险。
小周期等级=1:满足下面条件2者之一则达到标准:
1)svctm:小周期的r/s+w/s>=10,svctm大于M,且是同类型盘平均值的X倍以上时,该小周期为慢周期。
2)%util:>M,且是同类型盘平均值的X倍以上。其中,M=30,X=2。
小周期等级=2:满足下面条件2者之一则达到标准:
1)svctm:小周期的r/s+w/s>=10,svctm大于M,且是同类型盘平均值的X倍以上时,该小周期为慢周期。
2)%util:>=M,且是同类型盘平均值的X倍以上。其中,M=100,X=1.6。
小周期等级=3:满足下面条件则达到标准:
1)svctm:小周期的r/s+w/s>=10,svctm大于M,且是同类型盘平均值的X倍以上时,该小周期为慢周期。其中,M=100,X=5。
小周期等级=10:满足下面条件则达到标准:
1)svctm:小周期r/s+w/s>=10,svctm大于M,且是同类型盘平均值的X倍以上时,该小周期为慢周期。其中,M=150,X=5。
慢周期使用累加的方式统计,如:小周期等级10的数量为20,小周期等级3的数量为30,则认为达到风险等级3的门限,物理盘的风险等级判定为3。本实施例中的小周期等级的划分、小周期等级的判断方式以及M和X的值仅为示例,此处不作限定。
其中,若服务器还包括热备盘,且慢盘的系统盘对应的多个物理盘使用了该热备盘,则服务器可以排除该热备盘触发慢盘的可能想,直接获取多个物理盘中的非热备盘的自检报告。
在一个示例中,物理盘的自检报告可以包括重映射扇区数、坏道信息、读错误率、寻道错误率、接口误码率、温度、写错误次数、读错误次数,其中,重映射扇区数、坏道信息、读错误率、寻道错误率、接口误码率、温度、写错误次数、读错误次数可以用来分析出物理盘的输入输出时延。服务器也可以只选择重映射扇区数、坏道信息、读错误率、寻道错误率、接口误码率、温度、写错误次数、读错误次数中的部分作为自检报告,此处不作限定。其中,物理盘与的接口不做限定,可以是SAS、SATA、快速外围组件互连(peripheral componentinterconnect express,PCIe)等。
步骤205.服务器确定风险等级最高的物理盘为故障盘。
本实施例中,服务器可以对多个物理盘的风险等级进行排序,其中,风险等级最高的物理盘为最可能的故障的物理盘,则可以将该风险等级最高的物理盘确认为故障盘,示例性的,3个物理盘的风险等级分别可以是1、2、3,则风险等级为3的物理盘为故障盘,其中,针对统计出的物理盘的风险等级,用户还可以根据自身业务需要,制定不同的预警和更换策略,从而降低由于慢盘对业务带来的影响,具体此处不作限定。
在另一个示例中,本申请实施例分析物理盘的风险等级来确定故障盘的流程也可以由用户指示需不需要使用,具体的,服务器可以接收用户的指令,当接收到该指令时才执行根据风险等级确定故障盘的步骤,该指令的形式可以是显示界面的一个按钮或者用户输入的代码实现,具体此处不作限定。
本申请实施例通过对确定慢盘的系统盘对应的多个物理盘获取自检报告,然后从自检报告分析各个物理盘的风险等级,将风险等级最高的物理盘确定为故障盘,通过使用风险等级对系统盘对应的多个物理盘进行排序,避免服务器同时对多个物理盘进行报错的情况,直接识别出现慢盘风险的物理盘,而无需逐一更换硬盘来判定故障盘,节省业务时延。
上面讲述了慢盘检测方法,下面对执行该方法的装置进行描述。
请参阅图4,如图4所示为本申请实施例提供的一种慢盘检测装置的结构示意图,该装置40包括:
确定单元401,用于确定慢盘的系统盘,根据系统盘确定对应的多个物理盘;
获取单元402,用于获取多个物理盘中每个物理盘的自检报告;
确定单元401还用于根据每个物理盘的自检报告确定每个物理盘的风险等级,确定风险等级最高的物理盘为故障盘。
其中,确定单元401用于执行图2方法实施例中的步骤201、步骤202、步骤204和步骤205,获取单元402用于执行图2方法实施例中的步骤203。
可选的,确定单元401具体用于:
根据每个物理盘的自检报告确定每个物理盘的小周期等级,小周期等级为每个物理盘的自检周期内输入输出时延的延迟程度;
根据小周期等级在大周期内的数量确定每个物理盘的风险等级,大周期包括每个物理盘的多个自检周期。
可选的,确定单元401具体用于:
对每个物理盘在自检周期内的自检报告分析每个物理盘在自检周期内的输入输出时延;
对每个物理盘在自检周期内的输入输出时延匹配预设条件,以获得每个物理盘的小周期等级。
可选的,多个物理盘包括第一物理盘,确定单元401具体用于:
将第一物理盘在大周期内的小周期等级按照相同等级进行累加;
将第一物理盘中数量最高的小周期等级作为第一物理盘的风险等级。
可选的,自检报告包括重映射扇区数、坏道信息、读错误率、寻道错误率、接口误码率、温度、写错误次数、读错误次数,确定单元401具体用于:
对每个物理盘在自检周期内的重映射扇区数、坏道信息、读错误率、寻道错误率、接口误码率、温度、写错误次数和读错误次数分析每个物理盘在自检周期内的输入输出时延。
可选的,装置40还包括接收单元403,接收单元403具体用于:
接收指令,指令用于触发根据每个物理盘的自检报告确定故障盘的步骤。
图5所示,为本申请的实施例提供的计算机设备50的一种可能的逻辑结构示意图。计算机设备50包括:处理器501、通信接口502、存储系统503以及总线504。处理器501、通信接口502以及存储系统503通过总线504相互连接。在本申请的实施例中,处理器501用于对计算机设备50的动作进行控制管理,例如,处理器501用于执行图2的方法实施例中服务器所执行的步骤。通信接口502用于支持计算机设备50进行通信。存储系统503,用于存储计算机设备50的程序代码和数据。
其中,处理器501可以是中央处理器单元,通用处理器,数字信号处理器,专用集成电路,现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器501也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,数字信号处理器和微处理器的组合等等。总线504可以是外设部件互连标准(PeripheralComponent Interconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
装置40中的接收单元403相当于计算机设备50中的通信接口502,装置40中的确定单元401和获取单元402相当于计算机设备50中的处理器501。
本实施例的计算机设备50可对应于上述图2方法实施例中的服务器,该计算机设备50中的通信接口502可以实现上述图2方法实施例中的服务器所具有的功能和/或所实施的各种步骤,为了简洁,在此不再赘述。
应理解以上装置中单元的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且装置中的单元可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分单元以软件通过处理元件调用的形式实现,部分单元以硬件的形式实现。例如,各个单元可以为单独设立的处理元件,也可以集成在装置的某一个芯片中实现,此外,也可以以程序的形式存储于存储器中,由装置的某一个处理元件调用并执行该单元的功能。此外这些单元全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件又可以成为处理器,可以是一种具有信号的处理能力的集成电路。在实现过程中,上述方法的各步骤或以上各个单元可以通过处理器元件中的硬件的集成逻辑电路实现或者以软件通过处理元件调用的形式实现。
在一个例子中,以上任一装置中的单元可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(application specific integratedcircuit,ASIC),或,一个或多个微处理器(digital singnal processor,DSP),或,一个或者多个现场可编程门阵列(field programmable gate array,FPGA),或这些集成电路形式中至少两种的组合。再如,当装置中的单元可以通过处理元件调度程序的形式实现时,该处理元件可以是通用处理器,例如中央处理器(central processing unit,CPU)或其它可以调用程序的处理器。再如,这些单元可以集成在一起,以片上系统(system-on-a-chip,SOC)的形式实现。
在本申请的另一个实施例中,还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当设备的处理器执行该计算机执行指令时,设备执行上述方法实施例中服务器所执行的方法。
在本申请的另一个实施例中,还提供一种计算机程序产品,该计算机程序产品包括计算机执行指令,该计算机执行指令存储在计算机可读存储介质中。当设备的处理器执行该计算机执行指令时,设备执行上述方法实施例中服务器所执行的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (14)

1.一种慢盘检测方法,其特征在于,包括:
确定慢盘的系统盘;
根据所述系统盘确定对应的多个物理盘;
获取所述多个物理盘中每个物理盘的自检报告;
根据所述每个物理盘的自检报告以及同类型物理盘的自检报告确定所述每个物理盘的风险等级,所述同类型物理盘为所述多个物理盘中与所述每个物理盘相同类型的物理盘;
确定风险等级最高的物理盘为故障盘。
2.根据权利要求1所述的方法,其特征在于,根据所述每个物理盘的自检报告以及同类型物理盘的自检报告确定所述每个物理盘的风险等级包括:
根据所述每个物理盘的自检报告确定所述每个物理盘的小周期等级,所述小周期等级为所述每个物理盘的自检周期内输入输出时延的延迟程度;
根据所述每个物理盘和所述同类型物理盘中,所述小周期等级在大周期内的数量确定所述每个物理盘的风险等级,所述大周期包括所述每个物理盘的多个所述自检周期。
3.根据权利要求2所述的方法,其特征在于,所述根据所述每个物理盘的自检报告确定所述每个物理盘的小周期等级包括:
对所述每个物理盘在自检周期内的自检报告分析所述每个物理盘在所述自检周期内的输入输出时延;
对所述每个物理盘在所述自检周期内的输入输出时延匹配预设条件,以获得所述每个物理盘的小周期等级。
4.根据权利要求2所述的方法,其特征在于,所述多个物理盘包括第一物理盘,所述根据所述小周期等级在大周期内的数量确定所述每个物理盘的风险等级包括:
将所述第一物理盘在所述大周期内的小周期等级按照相同等级进行累加;
将所述第一物理盘中数量最高的小周期等级作为所述第一物理盘的风险等级。
5.根据权利要求3所述的方法,其特征在于,所述自检报告包括重映射扇区数、坏道信息、读错误率、寻道错误率、接口误码率、温度、写错误次数、读错误次数,所述对所述每个物理盘在自检周期内的自检报告分析所述每个物理盘在所述自检周期内的输入输出时延包括:
对所述每个物理盘在自检周期内的重映射扇区数、坏道信息、读错误率、寻道错误率、接口误码率、温度、写错误次数和读错误次数分析所述每个物理盘在所述自检周期内的输入输出时延。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
接收指令,所述指令用于触发根据所述每个物理盘的自检报告确定故障盘的步骤。
7.一种慢盘检测装置,其特征在于,包括:
确定单元,用于确定慢盘的系统盘,根据所述系统盘确定对应的多个物理盘;
获取单元,用于获取所述多个物理盘中每个物理盘的自检报告;
所述确定单元还用于根据所述每个物理盘的自检报告以及同类型物理盘的自检报告确定所述每个物理盘的风险等级,所述同类型物理盘为所述多个物理盘中与所述每个物理盘相同类型的物理盘,确定风险等级最高的物理盘为故障盘。
8.根据权利要求7所述的装置,其特征在于,确定单元具体用于:
根据所述每个物理盘的自检报告确定所述每个物理盘的小周期等级,所述小周期等级为所述每个物理盘的自检周期内输入输出时延的延迟程度;
根据所述每个物理盘和所述同类型物理盘中,所述小周期等级在大周期内的数量确定所述每个物理盘的风险等级,所述大周期包括所述每个物理盘的多个所述自检周期。
9.根据权利要求8所述的装置,其特征在于,所述确定单元具体用于:
对所述每个物理盘在自检周期内的自检报告分析所述每个物理盘在所述自检周期内的输入输出时延;
对所述每个物理盘在所述自检周期内的输入输出时延匹配预设条件,以获得所述每个物理盘的小周期等级。
10.根据权利要求8所述的装置,其特征在于,所述多个物理盘包括第一物理盘,所述确定单元具体用于:
将所述第一物理盘在所述大周期内的小周期等级按照相同等级进行累加;
将所述第一物理盘中数量最高的小周期等级作为所述第一物理盘的风险等级。
11.根据权利要求9所述的装置,其特征在于,所述自检报告包括重映射扇区数、坏道信息、读错误率、寻道错误率、接口误码率、温度、写错误次数、读错误次数,所述确定单元具体用于:
对所述每个物理盘在自检周期内的重映射扇区数、坏道信息、读错误率、寻道错误率、接口误码率、温度、写错误次数和读错误次数分析所述每个物理盘在所述自检周期内的输入输出时延。
12.根据权利要求7或11所述的装置,其特征在于,所述装置还包括接收单元,所述接收单元具体用于:
接收指令,所述指令用于触发根据所述每个物理盘的自检报告确定故障盘的步骤。
13.一种计算机设备,其特征在于,包括:处理器以及存储器,
所述处理器用于执行所述存储器中存储的指令,使得所述计算机设备执行权利要求1至6中任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序在所述计算机上运行时,使得所述计算机执行如权利要求1至6中任一项所述的方法。
CN202211284577.0A 2022-10-17 2022-10-17 一种慢盘检测方法以及装置 Active CN115691636B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211284577.0A CN115691636B (zh) 2022-10-17 2022-10-17 一种慢盘检测方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211284577.0A CN115691636B (zh) 2022-10-17 2022-10-17 一种慢盘检测方法以及装置

Publications (2)

Publication Number Publication Date
CN115691636A CN115691636A (zh) 2023-02-03
CN115691636B true CN115691636B (zh) 2024-05-17

Family

ID=85067326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211284577.0A Active CN115691636B (zh) 2022-10-17 2022-10-17 一种慢盘检测方法以及装置

Country Status (1)

Country Link
CN (1) CN115691636B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339539A (zh) * 2007-07-06 2009-01-07 三星电子株式会社 具有非易失性存储器和缓冲存储器的存储系统及读取方法
CN104951383A (zh) * 2014-03-31 2015-09-30 伊姆西公司 用于监测硬盘的健康状况的方法和装置
CN106980468A (zh) * 2017-03-03 2017-07-25 杭州宏杉科技股份有限公司 触发raid阵列重建的方法及装置
CN112445669A (zh) * 2019-09-05 2021-03-05 中车株洲电力机车研究所有限公司 一种存储性能测试方法、装置、电子设备
CN113805800A (zh) * 2021-08-08 2021-12-17 苏州浪潮智能科技有限公司 一种基于raid条带的写io的方法、装置、设备及可读介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339539A (zh) * 2007-07-06 2009-01-07 三星电子株式会社 具有非易失性存储器和缓冲存储器的存储系统及读取方法
CN104951383A (zh) * 2014-03-31 2015-09-30 伊姆西公司 用于监测硬盘的健康状况的方法和装置
CN106980468A (zh) * 2017-03-03 2017-07-25 杭州宏杉科技股份有限公司 触发raid阵列重建的方法及装置
CN112445669A (zh) * 2019-09-05 2021-03-05 中车株洲电力机车研究所有限公司 一种存储性能测试方法、装置、电子设备
CN113805800A (zh) * 2021-08-08 2021-12-17 苏州浪潮智能科技有限公司 一种基于raid条带的写io的方法、装置、设备及可读介质

Also Published As

Publication number Publication date
CN115691636A (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
EP3660681B1 (en) Memory fault detection method and device, and server
US7917810B2 (en) Method for detecting problematic disk drives and disk channels in a RAID memory system based on command processing latency
US7506314B2 (en) Method for automatically collecting trace detail and history data
US20200004434A1 (en) Determining when to replace a storage device using a machine learning module
US5450609A (en) Drive array performance monitor
CN101010663A (zh) 确定盘数据存储系统的维护费的按需、非基于容量的进程、设备和计算机程序
CN105468484A (zh) 用于在存储系统中确定故障位置的方法和装置
CN114579340A (zh) 内存错误处理方法和装置
CN104951383A (zh) 用于监测硬盘的健康状况的方法和装置
US10606490B2 (en) Storage control device and storage control method for detecting storage device in potential fault state
CN109684140A (zh) 一种慢盘检测方法、装置、设备及计算机可读存储介质
CN111045881A (zh) 一种慢盘检测方法及系统
WO2010099992A1 (en) Method, system and computer program product for managing the placement of storage data in a multi tier virtualized storage infrastructure
CN111324304A (zh) 一种基于ssd硬盘寿命预测的数据保护方法及装置
US11467942B2 (en) Predictive performance indicator for storage devices
US11237893B2 (en) Use of error correction-based metric for identifying poorly performing data storage devices
US8843781B1 (en) Managing drive error information in data storage systems
CN106844166B (zh) 一种数据处理方法及装置
CN113590405A (zh) 硬盘错误的检测方法、装置、存储介质和电子装置
CN115691636B (zh) 一种慢盘检测方法以及装置
CN112650446A (zh) NVMe全闪存存储系统的智能存储方法、装置及设备
US10409663B2 (en) Storage system and control apparatus
JP5273185B2 (ja) 記録媒体制御システム、記録媒体制御方法、記録媒体制御プログラム
JP6946716B2 (ja) ストレージ制御装置,ストレージ制御プログラムおよびストレージ制御方法
CN111190781A (zh) 服务器系统的测试自检方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant