CN112579379B - 一种卡慢盘的识别处理方法、系统、装置及可读存储介质 - Google Patents

一种卡慢盘的识别处理方法、系统、装置及可读存储介质 Download PDF

Info

Publication number
CN112579379B
CN112579379B CN202011553798.4A CN202011553798A CN112579379B CN 112579379 B CN112579379 B CN 112579379B CN 202011553798 A CN202011553798 A CN 202011553798A CN 112579379 B CN112579379 B CN 112579379B
Authority
CN
China
Prior art keywords
card
preset
slow
time
disk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011553798.4A
Other languages
English (en)
Other versions
CN112579379A (zh
Inventor
王正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN202011553798.4A priority Critical patent/CN112579379B/zh
Publication of CN112579379A publication Critical patent/CN112579379A/zh
Application granted granted Critical
Publication of CN112579379B publication Critical patent/CN112579379B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C29/00Checking stores for correct operation ; Subsequent repair; Testing stores during standby or offline operation
    • G11C29/04Detection or location of defective memory elements, e.g. cell constructio details, timing of test signals
    • G11C29/08Functional testing, e.g. testing during refresh, power-on self testing [POST] or distributed testing
    • G11C29/12Built-in arrangements for testing, e.g. built-in self testing [BIST] or interconnection details
    • G11C29/1201Built-in arrangements for testing, e.g. built-in self testing [BIST] or interconnection details comprising I/O circuitry
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种卡慢盘的识别处理方法、系统、装置及计算机可读存储介质,每隔预设识别周期,均获取在本识别周期内硬盘的平均使用率和平均IO吞吐量;若平均使用率超过预设使用率阈值且平均IO吞吐量低于预设吞吐量阈值,则将硬盘记录为卡慢盘;若在预设连续时间段内,硬盘被记录为卡慢盘的总次数不低于预设次数阈值,则确认硬盘为卡慢盘,以对确认的卡慢盘进行处理。可见,本申请通过获取硬盘在识别周期内的平均使用率和平均IO吞吐量即可实现对卡慢盘的识别处理,且此方案可以实现数秒级识别处理,从而降低业务中断的概率。

Description

一种卡慢盘的识别处理方法、系统、装置及可读存储介质
技术领域
本发明涉及分布式存储领域,特别是涉及一种卡慢盘的识别处理方法、系统、装置及计算机可读存储介质。
背景技术
在分布式存储中,不可避免的会出现慢盘情况,甚至卡慢盘情况。慢盘是指硬盘对IO(Input/Output,输入/输出)的响应时间超过了正常值数的十倍以上,相关应用程序响应变慢。而卡慢盘是一种比慢盘更为严重的情况,其IO响应时间一般在数秒以上,业务基本处于无法工作的状态。
现有技术中,分布式存储中的慢盘识别方法有两种:1)每隔采样周期,均获取硬盘在本采样周期内的平均IO时延,若平均IO时延超过预设IO时延阀值,则确定硬盘为慢盘。2)通过驱动层识别硬盘对应的错误码,若错误码中包含特定错误码,则确定硬盘为慢盘。基于此,对分布式存储中的慢盘进行识别并处理。
但是,现有技术缺少对卡慢盘场景的考虑,原因在于:1)卡慢盘出现时,短时间是无法采样到IO的平均响应时延的,只要IO完成时间超过了采样周期,则平均IO时延为0,故平均IO时延的慢盘识别方法无法识别卡慢盘。2)卡慢盘出现时,由于其IO完成时间达到数秒甚至更长,硬盘的错误码识别方法是需要等待IO完成后才能获取,故此时业务已经受卡慢盘的影响而中断了。因此,现有的慢盘识别方法不适用于对卡慢盘的识别,从而不利于及时对卡慢盘进行处理,影响系统业务运行。
因此,如何提供一种解决上述技术问题的方案是本领域的技术人员目前需要解决的问题。
发明内容
本发明的目的是提供一种卡慢盘的识别处理方法、系统、装置及计算机可读存储介质,通过获取硬盘在识别周期内的平均使用率和平均IO吞吐量即可实现对卡慢盘的识别处理,且此方案可以实现数秒级识别处理,从而降低业务中断的概率。
为解决上述技术问题,本发明提供了一种卡慢盘的识别处理方法,包括:
每隔预设识别周期,均获取在本识别周期内硬盘的平均使用率和平均IO吞吐量;
若所述平均使用率超过预设使用率阈值且所述平均IO吞吐量低于预设吞吐量阈值,则将所述硬盘记录为卡慢盘;
若在预设连续时间段内,所述硬盘被记录为卡慢盘的总次数不低于预设次数阈值,则确认所述硬盘为卡慢盘,以对确认的卡慢盘进行处理;其中,预设次数阈值与预设识别周期的乘积值小于等于预设连续时间段。
优选地,对确认的卡慢盘进行处理的过程,包括:
在确认所述硬盘为卡慢盘之后,判断上一个下电处理的卡慢盘的已下电时间是否超过预设第一静默时间;
若已下电时间超过预设第一静默时间,则对当前确认的卡慢盘进行下电处理;
若已下电时间未超过预设第一静默时间,则不响应当前确认的卡慢盘的下电处理事件。
优选地,对确认的卡慢盘进行处理的过程,还包括:
在对当前确认的卡慢盘进行下电处理之后,按照预设上电恢复策略判断已下电处理的卡慢盘是否满足上电恢复条件;
若已下电处理的卡慢盘满足上电恢复条件,则对当前满足上电恢复条件的卡慢盘进行上电处理。
优选地,按照预设上电恢复策略判断已下电处理的卡慢盘是否满足上电恢复条件的过程,包括:
在每次下电一块卡慢盘时,均将在当前下电的卡慢盘之前下电的卡慢盘的恢复时间在原有时间的基础上增加预设增量时间;其中,卡慢盘的恢复时间初始值大于预设增量时间且预设增量时间大于预设第一静默时间;
从目标卡慢盘进行下电处理时开始计时,判断计时时间是否到达所述目标卡慢盘当前的恢复时间;其中,所述目标卡慢盘为任一卡慢盘;
若计时时间到达所述目标卡慢盘当前的恢复时间,则确定所述目标卡慢盘满足上电恢复条件;
若计时时间未到达所述目标卡慢盘当前的恢复时间,则确定所述目标卡慢盘不满足上电恢复条件。
优选地,预设第一静默时间加1的和小于等于预设增量时间,且预设第一静默时间与2的乘积值大于等于预设增量时间。
优选地,对确认的卡慢盘进行处理的过程,还包括:
在判断出已下电处理的卡慢盘满足上电恢复条件之后,在对当前满足上电恢复条件的卡慢盘进行上电处理之前,判断上一个上电处理的卡慢盘的已上电时间是否超过预设第二静默时间;
若已上电时间超过预设第二静默时间,则执行对当前满足上电恢复条件的卡慢盘进行上电处理的操作;
若已上电时间未超过预设第二静默时间,则只允许响应上一个上电处理的卡慢盘新的下电处理事件,且不执行对当前满足上电恢复条件的卡慢盘进行上电处理的操作。
优选地,对确认的卡慢盘进行处理的过程,还包括:
累计目标卡慢盘的总下电次数;其中,所述目标卡慢盘为任一卡慢盘;
当所述总下电次数超过预设次数阈值时,将所述目标卡慢盘永久离线,并将所述目标卡慢盘的数据进行重建,以使系统恢复正常状态。
为解决上述技术问题,本发明还提供了一种卡慢盘的识别处理系统,包括:
获取模块,用于每隔预设识别周期,均获取在本识别周期内硬盘的平均使用率和平均IO吞吐量;
记录模块,用于若所述平均使用率超过预设使用率阈值且所述平均IO吞吐量低于预设吞吐量阈值,则将所述硬盘记录为卡慢盘;
确认模块,用于若在预设连续时间段内,所述硬盘被记录为卡慢盘的总次数不低于预设次数阈值,则确认所述硬盘为卡慢盘,以对确认的卡慢盘进行处理;其中,预设次数阈值与预设识别周期的乘积值小于等于预设连续时间段。
为解决上述技术问题,本发明还提供了一种卡慢盘的识别处理装置,包括:
存储器,用于存储计算机程序;
处理器,用于在执行所述计算机程序时实现上述任一种卡慢盘的识别处理方法的步骤。
为解决上述技术问题,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种卡慢盘的识别处理方法的步骤。
本发明提供了一种卡慢盘的识别处理方法,每隔预设识别周期,均获取在本识别周期内硬盘的平均使用率和平均IO吞吐量;若平均使用率超过预设使用率阈值且平均IO吞吐量低于预设吞吐量阈值,则将硬盘记录为卡慢盘;若在预设连续时间段内,硬盘被记录为卡慢盘的总次数不低于预设次数阈值,则确认硬盘为卡慢盘,以对确认的卡慢盘进行处理。可见,本申请通过获取硬盘在识别周期内的平均使用率和平均IO吞吐量即可实现对卡慢盘的识别处理,且此方案可以实现数秒级识别处理,从而降低业务中断的概率。
本发明还提供了一种卡慢盘的识别处理系统、装置及计算机可读存储介质,与上述识别处理方法具有相同的有益效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种卡慢盘的识别处理方法的流程图;
图2为本发明实施例提供的一种卡慢盘的识别原理图;
图3为本发明实施例提供的一种卡慢盘的处理原理图;
图4为本发明实施例提供的一种卡慢盘的识别处理系统的结构示意图;
图5为本发明实施例提供的一种卡慢盘的识别处理装置的结构示意图。
具体实施方式
本发明的核心是提供一种卡慢盘的识别处理方法、系统、装置及计算机可读存储介质,通过获取硬盘在识别周期内的平均使用率和平均IO吞吐量即可实现对卡慢盘的识别处理,且此方案可以实现数秒级识别处理,从而降低业务中断的概率。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1,图1为本发明实施例提供的一种卡慢盘的识别处理方法的流程图。
该卡慢盘的识别处理方法包括:
步骤S1:每隔预设识别周期,均获取在本识别周期内硬盘的平均使用率和平均IO吞吐量。
具体地,考虑到硬盘在单位时间内的使用率和IO吞吐量影响硬盘的响应速度,所以本申请通过硬盘在单位时间内的使用率和IO吞吐量来判断硬盘的响应速度快慢。基于此,本申请首先每隔预设识别周期,均获取在本识别周期内硬盘的历史统计信息,然后基于硬盘的历史统计信息计算在本识别周期内硬盘的平均使用率和平均IO吞吐量,以为后续判断硬盘的响应速度快慢提供依据。
需要说明的是,预设识别周期最好选为1s,以在每秒监控硬盘的历史统计信息,计算每秒硬盘的使用率和每秒硬盘的IO吞吐量(相当于在本识别周期内硬盘的平均使用率和平均IO吞吐量),从而避免相邻时间内的硬盘状态相互影响。
步骤S2:若平均使用率超过预设使用率阈值且平均IO吞吐量低于预设吞吐量阈值,则将硬盘记录为卡慢盘。
具体地,考虑到硬盘在单位时间内的使用率越高、硬盘在单位时间内的IO吞吐量越低,越影响硬盘的响应速度,所以本申请提前设置一个使用率阈值(如99%),且设置一个吞吐量阈值(如1KB/s),其设置原理为:当硬盘在当前识别周期内的平均使用率超过预设使用率阈值,且硬盘在当前识别周期内的平均IO吞吐量低于预设吞吐量阈值时,认为硬盘当前卡慢。
基于此,在计算出硬盘在当前识别周期内的平均使用率和平均IO吞吐量之后,本申请将硬盘在当前识别周期内的平均使用率与预设使用率阈值作比较,且将硬盘在当前识别周期内的平均IO吞吐量与预设吞吐量阈值作比较,若硬盘在当前识别周期内的平均使用率超过预设使用率阈值,且硬盘在当前识别周期内的平均IO吞吐量低于预设吞吐量阈值,则将硬盘记录为卡慢盘。
步骤S3:若在预设连续时间段内,硬盘被记录为卡慢盘的总次数不低于预设次数阈值,则确认硬盘为卡慢盘,以对确认的卡慢盘进行处理。
需要说明的是,预设次数阈值与预设识别周期的乘积值小于等于预设连续时间段,即预设连续时间段≥预设次数阈值*预设识别周期。
具体地,为了避免硬盘偶然性卡慢的情况,本申请在多次将硬盘记录为卡慢盘之后才确认硬盘为卡慢盘。基于此,本申请在预设连续时间段内,累计硬盘被记录为卡慢盘的总次数,只有在硬盘被记录为卡慢盘的总次数不低于预设次数阈值时,才确认硬盘为卡慢盘,然后对确认的卡慢盘进行处理。
比如,请参照图2,图2为本发明实施例提供的一种卡慢盘的识别原理图。预设识别周期选为1s,保留最近N秒内的卡慢盘记录结果,如果N秒内有超过M次硬盘被记录为卡慢盘,则确认硬盘为卡慢盘。如图2所示,0表示无卡慢,1表示卡慢,当N=7、M=4时,第7秒记录如果为卡慢,则满足7秒内发生了4次卡慢,则硬盘会被确认为卡慢盘。
本发明提供了一种卡慢盘的识别处理方法,每隔预设识别周期,均获取在本识别周期内硬盘的平均使用率和平均IO吞吐量;若平均使用率超过预设使用率阈值且平均IO吞吐量低于预设吞吐量阈值,则将硬盘记录为卡慢盘;若在预设连续时间段内,硬盘被记录为卡慢盘的总次数不低于预设次数阈值,则确认硬盘为卡慢盘,以对确认的卡慢盘进行处理。可见,本申请通过获取硬盘在识别周期内的平均使用率和平均IO吞吐量即可实现对卡慢盘的识别处理,且此方案可以实现数秒级识别处理,从而降低业务中断的概率。
在上述实施例的基础上:
请参照图3,图3为本发明实施例提供的一种卡慢盘的处理原理图。
作为一种可选的实施例,对确认的卡慢盘进行处理的过程,包括:
在确认硬盘为卡慢盘之后,判断上一个下电处理的卡慢盘的已下电时间是否超过预设第一静默时间;
若已下电时间超过预设第一静默时间,则对当前确认的卡慢盘进行下电处理;
若已下电时间未超过预设第一静默时间,则不响应当前确认的卡慢盘的下电处理事件。
具体地,考虑到卡慢盘出现时,部分中低端RAID(Redundant Arrays ofIndependent Disks,磁盘阵列)卡会受卡慢盘的影响,将正常盘的IO挂起,从而导致正常盘也变得卡慢,从而导致正常盘会被误认为卡慢盘被误处理掉,所以本申请对确认的卡慢盘进行软件下电处理,并等待预设第一静默时间(后续以静默时间S表示),在静默时间S内不响应其它卡慢盘的下电处理事件。这是因为卡慢源盘(影响正常盘的卡慢盘称为卡慢源盘)下电需要一个过程,且下电后,其它正常盘恢复也需要一定时间,所以等待静默时间S的目的在于避免误处理掉受卡慢源盘影响的正常盘。
需要说明的是,静默时间S建议取值在2~5秒之间,静默时间S取值太小的话,则正常盘仍会处于受影响状态而被误下电;静默时间S取值太大的话,则会延长业务受影响时间。
基于此,本申请在确认硬盘为卡慢盘之后,首先判断上一个下电处理的卡慢盘的已下电时间是否超过预设静默时间S;若超过预设静默时间S,则对当前确认的卡慢盘进行下电处理;若未超过预设静默时间S,则不响应当前确认的卡慢盘的下电处理事件。
比如,如图3所示,T1时刻1号盘卡慢,则1号盘下电,T2时刻2号盘卡慢则会被忽略,因为此时2号盘可能仍处于1号盘卡慢的影响范围之内,故此时需要忽略掉2号盘的卡慢事件。
作为一种可选的实施例,对确认的卡慢盘进行处理的过程,还包括:
在对当前确认的卡慢盘进行下电处理之后,按照预设上电恢复策略判断已下电处理的卡慢盘是否满足上电恢复条件;
若已下电处理的卡慢盘满足上电恢复条件,则对当前满足上电恢复条件的卡慢盘进行上电处理。
进一步地,本申请还可将下电的卡慢盘重新上电恢复,本申请需提前设置上电恢复策略,目的是在对确认的卡慢盘进行下电处理之后,按照预设上电恢复策略判断已下电处理的卡慢盘是否满足上电恢复条件,以对当前满足上电恢复条件的卡慢盘进行上电处理。
作为一种可选的实施例,按照预设上电恢复策略判断已下电处理的卡慢盘是否满足上电恢复条件的过程,包括:
在每次下电一块卡慢盘时,均将在当前下电的卡慢盘之前下电的卡慢盘的恢复时间在原有时间的基础上增加预设增量时间;其中,卡慢盘的恢复时间初始值大于预设增量时间且预设增量时间大于预设第一静默时间;
从目标卡慢盘进行下电处理时开始计时,判断计时时间是否到达目标卡慢盘当前的恢复时间;其中,目标卡慢盘为任一卡慢盘;
若计时时间到达所述目标卡慢盘当前的恢复时间,则确定目标卡慢盘满足上电恢复条件;
若计时时间未到达所述目标卡慢盘当前的恢复时间,则确定目标卡慢盘不满足上电恢复条件。
具体地,本申请为卡慢盘设置恢复时间,以使下电处理的卡慢盘在一段时间后重新上电恢复。更具体地,如果卡慢源盘存在多个,或者未处理掉卡慢源盘,则还会继续报卡慢,故上一个下电处理的卡慢盘的静默时间S结束后,继续下电另一块卡慢盘,每下电一块卡慢盘,则将在当前下电的卡慢盘之前下电的卡慢盘的恢复时间在原有时间的基础上增加预设增量时间(后续以增量时间X表示),其目的在于避免静默时间S到期后,不仅有卡慢盘要下电处理,还有之前的卡慢盘要上电恢复的情况,增加增量时间X是为了可以优先处理卡慢盘的下电动作。
需要说明的是,卡慢盘的恢复时间初始值>增量时间X>静默时间S。其中,恢复时间初始值取值过小的话,则不易达成一次性将所有卡慢盘下电,并且下电时间过短,压缩了业务正常服务时间。卡慢盘的恢复时间初始值建议取值>1min。增量时间X取值过小的话,则不易达成一次性将所有卡慢盘下电;增量时间X取值过大的话,则会延长卡慢盘上电时间,影响的是数据多副本的一致性。增量时间X建议取值在S+1~2*S之间,即S+1≤增量时间X≤2*S。
基于此,本申请在每次下电一块卡慢盘时,均将在当前下电的卡慢盘之前下电的卡慢盘的恢复时间在原有时间的基础上增加预设增量时间X。对于任一卡慢盘(称为目标卡慢盘)来说,从目标卡慢盘进行下电处理时开始计时,判断计时时间是否到达目标卡慢盘当前的恢复时间;若到达目标卡慢盘当前的恢复时间,则确定目标卡慢盘满足上电恢复条件,可对目标卡慢盘进行上电处理;若未到达目标卡慢盘当前的恢复时间,则确定目标卡慢盘不满足上电恢复条件,先不对目标卡慢盘进行上电处理。
比如,如图3所示,T3时刻,2号盘仍然为卡慢盘,则2号盘下电,增加1号盘的恢复时间X,假如不增加1号盘的恢复时间的话,那么在T4时刻,刚好静默时间S到,既有3号盘卡慢事件,又有1号盘恢复事件,如果将1号盘恢复的话,那么1号盘为卡慢盘源,则又会引起所有正常盘的卡慢,所以增加1号盘的恢复时间X之后,其效果在于一次性所有卡慢盘全部下电后,才开始进行下电卡慢盘依次恢复的动作,此时的环境应该是无扰的情况,可以精准识别卡慢盘。
作为一种可选的实施例,预设第一静默时间加1的和小于等于预设增量时间,且预设第一静默时间与2的乘积值大于等于预设增量时间。
本实施例的内容在上述实施例中已作介绍,本实施例在此不再赘述。
作为一种可选的实施例,对确认的卡慢盘进行处理的过程,还包括:
在判断出已下电处理的卡慢盘满足上电恢复条件之后,在对当前满足上电恢复条件的卡慢盘进行上电处理之前,判断上一个上电处理的卡慢盘的已上电时间是否超过预设第二静默时间;
若已上电时间超过预设第二静默时间,则执行对当前满足上电恢复条件的卡慢盘进行上电处理的操作;
若已上电时间未超过预设第二静默时间,则只允许响应上一个上电处理的卡慢盘新的下电处理事件,且不执行对当前满足上电恢复条件的卡慢盘进行上电处理的操作。
进一步地,本申请还可在每恢复一块卡慢盘时对其监控一段时间,如无异常再恢复另一块卡慢盘,直到恢复卡慢源盘时,卡慢源盘又会引起其它盘的卡慢。故在卡慢源盘恢复期间,只会下电刚上电的卡慢源盘,即卡慢源盘会被重新下电,然后恢复其它正常盘。
基于此,本申请在卡慢盘上电恢复后设置第二静默时间(后续以静默时间R表示),静默时间R内不恢复其它盘,且不响应其它盘的卡慢事件,静默时间R内只处理刚上电的卡慢盘的卡慢事件。具体地,本申请在判断出已下电处理的卡慢盘满足上电恢复条件之后,首先判断上一个上电处理的卡慢盘的已上电时间是否超过预设静默时间R;若超过预设静默时间R,则执行对当前满足上电恢复条件的卡慢盘进行上电处理的操作;若未超过预设静默时间R,则只允许响应上一个上电处理的卡慢盘新的下电处理事件,且不执行对当前满足上电恢复条件的卡慢盘进行上电处理的操作。
需要说明的是,静默时间R取值过小的话,则卡慢盘可能需要IO访问才会表现为卡慢盘,观察期间需要预留足够的时间放行IO去访问。静默时间R建议取值>1min。
比如,如图3所示,T6时刻,1号盘恢复正常,需要经过静默时间R观察,无异常的话,则T7时刻2盘号才恢复正常,在静默时间R内,1、2、5号盘同时报卡慢,则只处理2号盘卡慢,故2号盘在T8时刻再次下电,经过静默时间S后,1、5号盘则恢复正常状态。依次类推1、3、5号盘恢复正常,2、4号盘处于下电状态。可见,2、4号盘为卡慢源盘,1、3、5号盘为受影响的正常盘。
作为一种可选的实施例,对确认的卡慢盘进行处理的过程,还包括:
累计目标卡慢盘的总下电次数;其中,目标卡慢盘为任一卡慢盘;
当总下电次数超过预设次数阈值时,将目标卡慢盘永久离线,并将目标卡慢盘的数据进行重建,以使系统恢复正常状态。
进一步地,本申请还可将多次下电的卡慢盘永久离线,其上数据会被重建,以使系统恢复正常状态。基于此,本申请提前设置次数阈值,对于任一卡慢盘(称为目标卡慢盘)来说,当目标卡慢盘的总下电次数超过预设次数阈值时,将目标卡慢盘永久离线,并将目标卡慢盘的数据进行重建,从而重新恢复业务数据副本的可靠等级,系统重新恢复正常状态。
请参照图4,图4为本发明实施例提供的一种卡慢盘的识别处理系统的结构示意图。
该卡慢盘的识别处理系统包括:
获取模块10,用于每隔预设识别周期,均获取在本识别周期内硬盘的平均使用率和平均IO吞吐量;
记录模块11,用于若平均使用率超过预设使用率阈值且平均IO吞吐量低于预设吞吐量阈值,则将硬盘记录为卡慢盘;
确认模块12,用于若在预设连续时间段内,硬盘被记录为卡慢盘的总次数不低于预设次数阈值,则确认硬盘为卡慢盘,以对确认的卡慢盘进行处理;其中,预设次数阈值与预设识别周期的乘积值小于等于预设连续时间段。
本申请提供的识别处理系统的介绍请参考上述识别处理方法的实施例,本申请在此不再赘述。
请参照图5,图5为本发明实施例提供的一种卡慢盘的识别处理装置的结构示意图。
该卡慢盘的识别处理装置包括:
存储器21,用于存储计算机程序;
处理器22,用于在执行计算机程序时实现上述任一种卡慢盘的识别处理方法的步骤。
本申请提供的识别处理装置的介绍请参考上述识别处理方法的实施例,本申请在此不再赘述。
本申请还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述任一种卡慢盘的识别处理方法的步骤。
本申请提供的可读存储介质的介绍请参考上述识别处理方法的实施例,本申请在此不再赘述。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种卡慢盘的识别处理方法,其特征在于,包括:
每隔预设识别周期,均获取在本识别周期内硬盘的平均使用率和平均IO吞吐量;
若所述平均使用率超过预设使用率阈值且所述平均IO吞吐量低于预设吞吐量阈值,则将所述硬盘记录为卡慢盘;
若在预设连续时间段内,所述硬盘被记录为卡慢盘的总次数不低于预设次数阈值,则确认所述硬盘为卡慢盘,以对确认的卡慢盘进行处理;其中,预设次数阈值与预设识别周期的乘积值小于等于预设连续时间段;
其中,对确认的卡慢盘进行处理的过程,包括:
在确认所述硬盘为卡慢盘之后,判断上一个下电处理的卡慢盘的已下电时间是否超过预设第一静默时间;
若已下电时间超过预设第一静默时间,则对当前确认的卡慢盘进行下电处理;
若已下电时间未超过预设第一静默时间,则不响应当前确认的卡慢盘的下电处理事件。
2.如权利要求1所述的卡慢盘的识别处理方法,其特征在于,对确认的卡慢盘进行处理的过程,还包括:
在对当前确认的卡慢盘进行下电处理之后,按照预设上电恢复策略判断已下电处理的卡慢盘是否满足上电恢复条件;
若已下电处理的卡慢盘满足上电恢复条件,则对当前满足上电恢复条件的卡慢盘进行上电处理。
3.如权利要求2所述的卡慢盘的识别处理方法,其特征在于,按照预设上电恢复策略判断已下电处理的卡慢盘是否满足上电恢复条件的过程,包括:
在每次下电一块卡慢盘时,均将在当前下电的卡慢盘之前下电的卡慢盘的恢复时间在原有时间的基础上增加预设增量时间;其中,卡慢盘的恢复时间初始值大于预设增量时间且预设增量时间大于预设第一静默时间;
从目标卡慢盘进行下电处理时开始计时,判断计时时间是否到达所述目标卡慢盘当前的恢复时间;其中,所述目标卡慢盘为任一卡慢盘;
若计时时间到达所述目标卡慢盘当前的恢复时间,则确定所述目标卡慢盘满足上电恢复条件;
若计时时间未到达所述目标卡慢盘当前的恢复时间,则确定所述目标卡慢盘不满足上电恢复条件。
4.如权利要求3所述的卡慢盘的识别处理方法,其特征在于,预设第一静默时间加1的和小于等于预设增量时间,且预设第一静默时间与2的乘积值大于等于预设增量时间。
5.如权利要求2所述的卡慢盘的识别处理方法,其特征在于,对确认的卡慢盘进行处理的过程,还包括:
在判断出已下电处理的卡慢盘满足上电恢复条件之后,在对当前满足上电恢复条件的卡慢盘进行上电处理之前,判断上一个上电处理的卡慢盘的已上电时间是否超过预设第二静默时间;
若已上电时间超过预设第二静默时间,则执行对当前满足上电恢复条件的卡慢盘进行上电处理的操作;
若已上电时间未超过预设第二静默时间,则只允许响应上一个上电处理的卡慢盘新的下电处理事件,且不执行对当前满足上电恢复条件的卡慢盘进行上电处理的操作。
6.如权利要求2所述的卡慢盘的识别处理方法,其特征在于,对确认的卡慢盘进行处理的过程,还包括:
累计目标卡慢盘的总下电次数;其中,所述目标卡慢盘为任一卡慢盘;
当所述总下电次数超过预设次数阈值时,将所述目标卡慢盘永久离线,并将所述目标卡慢盘的数据进行重建,以使系统恢复正常状态。
7.一种卡慢盘的识别处理系统,其特征在于,包括:
获取模块,用于每隔预设识别周期,均获取在本识别周期内硬盘的平均使用率和平均IO吞吐量;
记录模块,用于若所述平均使用率超过预设使用率阈值且所述平均IO吞吐量低于预设吞吐量阈值,则将所述硬盘记录为卡慢盘;
确认模块,用于若在预设连续时间段内,所述硬盘被记录为卡慢盘的总次数不低于预设次数阈值,则确认所述硬盘为卡慢盘,以对确认的卡慢盘进行处理;其中,预设次数阈值与预设识别周期的乘积值小于等于预设连续时间段;
其中,所述卡慢盘的识别处理系统,还用于在确认所述硬盘为卡慢盘之后,判断上一个下电处理的卡慢盘的已下电时间是否超过预设第一静默时间;若已下电时间超过预设第一静默时间,则对当前确认的卡慢盘进行下电处理;若已下电时间未超过预设第一静默时间,则不响应当前确认的卡慢盘的下电处理事件。
8.一种卡慢盘的识别处理装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于在执行所述计算机程序时实现如权利要求1-6任一项所述的卡慢盘的识别处理方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的卡慢盘的识别处理方法的步骤。
CN202011553798.4A 2020-12-24 2020-12-24 一种卡慢盘的识别处理方法、系统、装置及可读存储介质 Active CN112579379B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011553798.4A CN112579379B (zh) 2020-12-24 2020-12-24 一种卡慢盘的识别处理方法、系统、装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011553798.4A CN112579379B (zh) 2020-12-24 2020-12-24 一种卡慢盘的识别处理方法、系统、装置及可读存储介质

Publications (2)

Publication Number Publication Date
CN112579379A CN112579379A (zh) 2021-03-30
CN112579379B true CN112579379B (zh) 2024-02-23

Family

ID=75139697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011553798.4A Active CN112579379B (zh) 2020-12-24 2020-12-24 一种卡慢盘的识别处理方法、系统、装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN112579379B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114003477B (zh) * 2021-10-27 2023-08-22 苏州浪潮智能科技有限公司 慢盘诊断信息收集方法、系统、终端及存储介质
CN114327266B (zh) * 2021-12-24 2024-04-09 深信服科技股份有限公司 一种存储装置的卡慢识别方法、装置、介质
CN114415973B (zh) * 2022-03-28 2022-08-30 阿里云计算有限公司 慢盘检测方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810062A (zh) * 2014-03-05 2014-05-21 华为技术有限公司 慢盘检测方法和装置
CN106557389A (zh) * 2015-09-29 2017-04-05 成都华为技术有限公司 一种慢盘检测方法和装置
CN109284207A (zh) * 2018-08-30 2019-01-29 紫光华山信息技术有限公司 硬盘故障处理方法、装置、服务器和计算机可读介质
CN109684140A (zh) * 2018-12-11 2019-04-26 广东浪潮大数据研究有限公司 一种慢盘检测方法、装置、设备及计算机可读存储介质
CN110688063A (zh) * 2019-09-05 2020-01-14 苏州浪潮智能科技有限公司 一种Raid的慢盘筛选方法、装置、设备及介质
CN111045881A (zh) * 2018-10-15 2020-04-21 深信服科技股份有限公司 一种慢盘检测方法及系统
CN111897684A (zh) * 2020-07-15 2020-11-06 中国工商银行股份有限公司 磁盘故障模拟测试的方法、装置及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160077747A1 (en) * 2014-09-11 2016-03-17 Dell Products, Lp Efficient combination of storage devices for maintaining metadata
CN106802847B (zh) * 2015-11-26 2022-05-13 伊姆西Ip控股有限责任公司 用于模拟慢速存储盘的方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810062A (zh) * 2014-03-05 2014-05-21 华为技术有限公司 慢盘检测方法和装置
CN106557389A (zh) * 2015-09-29 2017-04-05 成都华为技术有限公司 一种慢盘检测方法和装置
CN109284207A (zh) * 2018-08-30 2019-01-29 紫光华山信息技术有限公司 硬盘故障处理方法、装置、服务器和计算机可读介质
CN111045881A (zh) * 2018-10-15 2020-04-21 深信服科技股份有限公司 一种慢盘检测方法及系统
CN109684140A (zh) * 2018-12-11 2019-04-26 广东浪潮大数据研究有限公司 一种慢盘检测方法、装置、设备及计算机可读存储介质
CN110688063A (zh) * 2019-09-05 2020-01-14 苏州浪潮智能科技有限公司 一种Raid的慢盘筛选方法、装置、设备及介质
CN111897684A (zh) * 2020-07-15 2020-11-06 中国工商银行股份有限公司 磁盘故障模拟测试的方法、装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
硬盘保护卡的破解测试及对策;许克勤;;实验技术与管理(第06期);全文 *

Also Published As

Publication number Publication date
CN112579379A (zh) 2021-03-30

Similar Documents

Publication Publication Date Title
CN112579379B (zh) 一种卡慢盘的识别处理方法、系统、装置及可读存储介质
CN107506266B (zh) 一种数据恢复方法及系统
CN101419564A (zh) 一种采用快照恢复数据的方法和装置
US10452315B2 (en) Block priority information
CN110908613B (zh) 一种数据写命令处理方法、装置、电子设备及存储介质
CN108431781A (zh) 设备驱动器检测的错误的自诊断和自动诊断数据收集
US8583959B2 (en) System and method for recovering data of complementary metal-oxide semiconductor
CN103064752A (zh) 一种文件修复方法及装置
CN116149559A (zh) 队列处理方法、装置、服务器、电子设备和存储介质
US20090138740A1 (en) Method and computer device capable of dealing with power fail
US20150286548A1 (en) Information processing device and method
CN104391755A (zh) 嵌入式多媒体卡eMMC芯片异常的处理方法和装置
US20110276843A1 (en) Intelligent error-reporting apparatus and method
US20130185470A1 (en) Detection method and apparatus for hot-swapping of sd card
CN108287761B (zh) 内存回收方法及装置、终端设备及计算机可读存储介质
CN112764684A (zh) 一种存储系统的硬盘性能识别方法和系统
JP2008257411A (ja) ディスク制御システム
US7600151B2 (en) RAID capacity expansion interruption recovery handling method and system
JP5849491B2 (ja) ディスク制御装置、ディスク装置異常検出方法、及びプログラム
CN116578459A (zh) 一种慢盘监测及处理方法、装置及计算机可读存储介质
CN112765151A (zh) 基于分布式存储系统随机写方法、装置及分布式存储系统
CN101189674A (zh) 操作记录介质时的功率管理
KR100713769B1 (ko) 디스크 관리 장치 및 디스크 관리 프로그램을 기록한 컴퓨터 판독가능한 기록 매체
CN102455979B (zh) 受损存储单元的资料保护方法
US7996497B2 (en) Method of handling duplicate or invalid node controller IDs in a distributed service processor environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant