CN116149894A - 一种卡慢的检测方法及相关设备 - Google Patents

一种卡慢的检测方法及相关设备 Download PDF

Info

Publication number
CN116149894A
CN116149894A CN202310177236.1A CN202310177236A CN116149894A CN 116149894 A CN116149894 A CN 116149894A CN 202310177236 A CN202310177236 A CN 202310177236A CN 116149894 A CN116149894 A CN 116149894A
Authority
CN
China
Prior art keywords
fault
storage system
target
data
card
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310177236.1A
Other languages
English (en)
Other versions
CN116149894B (zh
Inventor
李诗逸
夏文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202310177236.1A priority Critical patent/CN116149894B/zh
Publication of CN116149894A publication Critical patent/CN116149894A/zh
Application granted granted Critical
Publication of CN116149894B publication Critical patent/CN116149894B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请实施例提供了一种卡慢的检测方法及相关设备,用于检测卡慢故障,并尽可能地提升卡慢盘检测的准确率。本申请实施例方法包括:当存储系统触发卡慢故障状态时,获取所述存储系统的目标故障数据;分析所述目标故障数据,以根据目标判定算法检测所述存储系统的故障类型;根据所述故障类型确定所述存储系统的目标故障源,并将所述目标故障源与所述存储系统进行隔离,以使得所述存储系统由所述卡慢故障状态恢复至预设运行状态。

Description

一种卡慢的检测方法及相关设备
技术领域
本申请实施例涉及存储领域,尤其涉及一种卡慢的检测方法及相关设备。
背景技术
随着数据爆炸式增长,存储系统规模越来越大,因而一个存储系统中采用的存储设备也越来越多。而随着存储设备的寿命老化,使用磨损,或制造缺陷,会存在卡慢盘的现象,这会严重影响上层应用的性能和服务质量保证。因此研究及时准确通用的卡慢盘检测方法变得十分重要。
目前现有的卡慢盘检测方法主要是基于阈值、同比或学习的方法来检测卡慢盘。然而,基于阈值的方法准确率低,基于同比和基于学习的方法使用条件苛刻,需要相同型号的磁盘或者有足够大的数据量。
发明内容
本申请实施例提供了一种卡慢的检测方法及相关设备,用于检测卡慢故障,并尽可能地提升卡慢盘检测的准确率。
本申请实施例第一方面提供了一种卡慢的检测方法,包括:
当存储系统触发卡慢故障状态时,获取所述存储系统的目标故障数据;
分析所述目标故障数据,以根据目标判定算法检测所述存储系统的故障类型;
根据所述故障类型确定所述存储系统的目标故障源,并将所述目标故障源与所述存储系统进行隔离,以使得所述存储系统由所述卡慢故障状态恢复至预设运行状态。
可选地,所述获取所述存储系统的目标故障数据包括:
根据所述存储系统的运行状态确定输入输出IO模式;
根据所述IO模式获取所述存储系统的初始故障数据;
将所述初始故障数据进行归一化处理,清理所述初始故障数据中的差异数据,以获取所述目标故障数据。
可选地,所述分析所述目标故障数据,以根据目标判定算法检测所述存储系统的故障类型包括:
根据异常点判定算法,判断所述目标故障数据是否满足预设阈值;
获取第一判断结果,并根据所述第一判断结果检测所述存储系统的所述故障类型。
可选地,所述存储系统至少包括第一设备及第二设备,所述将所述访问带宽数据及所述延时数据进行归一化处理之前,所述方法还包括:
基于预设权重系数将所述初始故障数据进行加权处理,以平衡所述第一设备及所述第二设备的故障数据;
所述分析所述目标故障数据之后,所述方法还包括:
调整所述预设权重系数或归一化策略,以调整所述目标判定算法。
可选地,所述分析所述目标故障数据,以根据目标判定算法检测所述存储系统的故障类型包括:
若所述目标故障数据中包括所述存储系统的系统型号,分析所述系统型号与所述卡慢故障状态之间的映射关系,以根据所述目标判定算法确定于所述系统型号下的所述故障类型;或,
若所述目标故障数据中包括所述存储系统的算法参数,根据所述算法参数确定所述存储系统的运行环境,并将所述算法参数输入所述目标判定算法,以检测于所述运行环境下的所述故障类型,其中所述算法参数至少包括所述存储系统的运行环境参数或与所述运行环境参数存在关联的关联参数;或,
若所述目标故障数据中包括所述存储系统的负载数据,确定与所述负载数据存在映射关系的缓存表,以根据所述缓存表及所述负载数据判定所述故障类型。
可选地,所述存储系统包括子存储系统,所述根据目标判定算法检测所述存储系统的故障类型包括:
若所述子存储系统的数量满足预设数量阈值,或不同所述子存储系统之间的性能参数满足预设差异数据,获取所述子存储系统的历史运行数据,根据所述历史运行数据判断所述存储系统的所述故障类型。
可选地,所述根据所述故障类型确定所述存储系统的目标故障源,并将所述目标故障源与所述存储系统进行隔离包括:
根据所述故障类型获取告警信息;
根据所述告警信息定位所述目标故障源的故障区间;
调用卡慢隔离算法隔离所述故障区间,并根据所述故障区间确定卡慢故障,以根据所述卡慢故障调整所述存储系统,以使得所述存储系统由所述卡慢故障状态恢复至所述预设运行状态。
本申请实施例第二方面提供了一种卡慢的检测系统,包括:
获取单元,用于当存储系统触发卡慢故障状态时,获取所述存储系统的目标故障数据;
分析单元,用于分析所述目标故障数据,以根据目标判定算法检测所述存储系统的故障类型;
确定单元,用于根据所述故障类型确定所述存储系统的目标故障源,并将所述目标故障源与所述存储系统进行隔离,以使得所述存储系统由所述卡慢故障状态恢复至预设运行状态。
本申请实施例第二方面提供的用于执行第一方面所述的一种卡慢的检测方法。
本申请实施例第三方面提供了一种卡慢的检测装置,包括:
中央处理器,存储器,输入输出接口,有线或无线网络接口以及电源;
所述存储器为短暂存储存储器或持久存储存储器;
所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行第一方面所述的卡慢的检测方法。
本申请实施例第四方面提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括指令,当所述指令在计算机上运行时,使得计算机执行第一方面所述的卡慢的检测方法。
从以上技术方案可以看出,本申请实施例具有以下优点:通过本申请实施例公开的一种方法,当存储系统触发卡慢故障状态时,先获取存储系统的目标故障数据;再分析目标故障数据,以根据目标判定算法检测存储系统的故障类型;最后,根据故障类型确定存储系统的目标故障源,并将目标故障源与存储系统进行隔离,以使得存储系统由卡慢故障状态恢复至预设运行状态。当存储系统发生卡慢故障时,能基于存储系统产生的故障数据进行自适应的判定算法的检测,以确定出存储系统的故障类型。从而,便能根据故障类型定位到具体的故障源,并将该故障源与存储系统隔离,以使得存储系统恢复至预设运行状态。同时,由于是基于故障数据进行自适应的检测判定,从而该检测方案还能尽可能地提高检测准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种卡慢故障研究的框架示意图;
图2为本申请实施例公开的一种卡慢的检测方法的流程示意图;
图3为本申请实施例公开的另一种卡慢的检测方法的流程示意图;
图4为本申请实施例公开的一种卡慢的检测系统的结构示意图;
图5为本申请实施例公开的一种卡慢的检测装置的结构示意图。
具体实施方式
目前主流的卡慢盘检测方式主要是采用基于阈值、基于同比或基于学习的方法来进行检测,然而,基于阈值的方法准确率低。基于同比和基于学习的方法使用条件苛刻,需要相同型号的磁盘或者有足够大的数据量。此外,现有方案中的卡慢盘检测方法不提供辅助故障定位的信息。从而,导致现有的卡慢盘检测方法的准确率低以及不通用。
其中,需要了解的是,卡慢盘是一种在存储系统中的运行状态。例如,当一块硬盘出现多次输入/输出(IO,Input/Output)被卡住的情况,则认为这个硬盘成为卡盘。而“慢盘”则是指存储系统中性能较低的硬盘。卡慢则是指硬盘IO明显变慢或者卡顿。为方便理解和描述,后续不再对“卡慢盘”进行赘述。
随着越来越多的研究人员关注卡慢故障,与卡慢故障相关的数据和特征已逐渐被相关领域人员所知。再有,若要设计出基于存储卡慢故障的高效保护方法,首先要分析存储卡慢故障的故障特征。从故障现象来看,存储卡慢故障主要分为永久性故障和临时性故障这两大类。
其中,永久性故障表现为自某个时间点之后,该存储设备性能急剧下降,而且不会自动恢复。永久性故障理论上来说比较好判定,但是实际上来看,现有方案都是基于简单的静态阈值判定,因而未能实现准确及时的永久性卡慢故障判定目标。其中,永久性故障多出现于磁盘或RAID卡等,不难理解的是,以上仅为永久性故障可能出现的存储设备的举例说明,具体此处不做赘述。
临时性故障表现为偶尔,不确定性的发生卡慢,这类故障从现象来看,除非实时发现,否则故障发生后极难排查和定位,因此极为棘手。临时性故障理论上可以通过实时监控来检测判定,但持续的时间监控在开销和成本上都很高。其中,临时性故障多表现为进程卡或接触不良等情况,不难理解的是,以上仅为临时性故障可能出现的表现形式的举例说明,具体此处不做赘述。为方便理解和描述,后续不再对永久性故障或临时性故障进行详细说明。
结合上述技术问题,本申请实施例设计一种新型通用的智能卡满盘检测框架,用于检测卡慢故障,并尽可能地提升卡慢盘检测的准确率。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,图1为本申请实施例公开的一种卡慢故障研究的框架示意图。需要提前说明的是,本申请技术方案所公开的卡慢故障研究框架,也可简单理解为一种卡慢检测算法。
不难理解的是,本申请实施例所提出的卡慢的检测方法主要用于检测存储系统上的卡慢故障。其中,存储系统主要是一种分布式存储系统,该分布式存储系统可由一个或多个结构、功能等类似的存储系统构成,具体此处不对该存储系统的结构或功能等进行赘述。在分布式存储系统的构成中,可以包括应用程序Apps、操作系统(OS,operating system)、磁盘阵列(RAID,redundant array ofindependent disks)卡驱动或磁盘驱动等。不难理解的,分布式存储系统还可以包括其他子存储系统或其他存储设备,具体此处不做赘述。
当分布式存储系统发生卡慢故障时(此时,卡慢故障可能是永久故障或临时故障),综合判定算法会对产生卡慢故障时的故障数据或分部分存储系统之前的运行数据进行综合判定,从而检测出故障源。其中,综合判定算法包括多种判定算法。例如,综合判定算法包括自适应阈值判定、宽松同比判定或自主学习判定等,具体此处不对综合判定算法中所包含的其他判定算法进行限制,在其中一个具体的实施例中,综合判定算法可由上述所描述的一个或多个判定算法组合而成,具体此处也不做赘述。为方便理解和描述,后续将对上述中的综合判定算法进行详细描述。可参阅图3。
还需要说明的是,针对永久性故障,可以需要根据存储系统中各个存储设备或业务需求来确定阈值,然后进行卡慢故障判定。但是卡慢阈值的设定十分麻烦,因为不同的I/O大小,不同的IO模式下的性能是不一样的,需要进行归一化,而这需要进行大量的测试和分析,开发和时间成本很高。其次因为系统器件在不断变更,业务也在不断变化,简单的静态阈值无法适应这种变化。而针对临时性的存储卡慢故障,情况要复杂很多。首先现有的检测方法可能无法检测或很晚才检测到,因此需要分析故障数据,并精心设计相应的检测策略。其次只用阈值判定并不可行,因为可能没有明确的故障特征或故障规律,使得阈值极难触发和设定,因此需要针对性的设计综合判定算法。
从而,根据多点区间隔离策略进行卡慢隔离,即将故障源从分布式存储系统中隔离出去,避免卡慢故障的快速传播而造成的灾难性故障。例如,确定故障区间,然后调用为该故障区间设计的卡慢隔离程序来执行隔离。或者是将存储设备与卡慢故障之间的映射关系进行隔离,从而将与卡慢故障存在映射关系的存储设备与分布式存储系统进行隔离。等等,具体此处不做赘述。
最后,再确定卡慢的根因后便可以此执行相应的操作。例如采用重启/升级/更新/替换等进行恢复。
为方便对本申请实施例公开的一种卡慢的检测方法进行描述,请参阅图2,图2为本申请实施例公开的一种卡慢的检测方法的流程示意图。包括步骤201-步骤203。
201、当存储系统触发卡慢故障状态时,获取存储系统的目标故障数据。
由于综合判定算法是需要基于存储系统(即上述中所描述的分布式存储系统,后续以存储系统进行详细描述)的运行数据或其它诸如系统参数数据等,由此,当存储系统发生卡慢故障,即触发卡慢故障状态时,可以获取到存储系统的故障数据。不难理解的是,该故障数据即为上述中所描述目标故障数据,为方便理解和描述,后续不再对此进行赘述。
在其中一个具体的实施例中,目标故障数据包括存储系统的发生故障时所采集的运行数据,或存储系统中各个存储设备的设备数据(例如,设备型号或设备运行参数等),或存储系统的设备运行环境参数等,具体此处不对目标故障数据所包含的数据内容进行限制,后续也在对此进行赘述。
202、分析目标故障数据,以根据目标判定算法检测存储系统的故障类型。
当获取到存储系统的目标故障数据后,便会对目标故障数据进行分析,从而根据目标判定算法检测存储系统的故障类型。
在其中一个具体的实施例中,目标判定算法可以理解为图1中所描述的综合判定算法,该综合判定算法至少包括自适应阈值判定、宽松同比判定或自主学习判定等。自适应阈值判定多应用于永久性故障的判定过程,而宽松同比判定或自主学习判定多应用于临时性故障的判定过程。当然,在另外一个具体的实施例中,永久性故障或临时性故障的判定过程中也可以使用其他的判定算法,例如,针对于临时性故障的判定过程中,也可采用自适应阈值判定,具体此处不做赘述。
具体的,基于上述实施例,在其中一个具体的实施例中,将目标故障数据输入到综合判定算法(目标判定算法),从而综合判定算法根据目标故障数据中的各个数据进行检测判定,从而确定出存储系统的故障类型是永久性故障或临时性故障。
在另外一个具体的实施例中,在分析目标故障数据中,还可以将目标故障数据解析为可供目标判定算法中各个下属的判定算法能够识别的识别数据,从而,阈值判定、同比判定或学习判定等可以根据识别数据自主选择,以进行判定检测,最终检测出当前存储系统的故障类型。
203、根据故障类型确定存储系统的目标故障源,并将目标故障源与存储系统进行隔离,以使得存储系统由卡慢故障状态恢复至预设运行状态。
当确定出故障类型后,便可以根据目标判定算法确定出当前存储系统中各个存储设备的卡慢状态。
由于存储卡慢故障会造成灾难性的故障,一旦检测到磁盘卡慢,故障隔离是最急切需要的。由此,一旦检测到存储系统存在卡慢,便需要确定出存储系统中产生卡慢的目标故障源,一般情况下,目标故障源可以是存储系统中的存储设备或运行软件,具体此处不做限制。确定目标故障源后,便需要将该目标故障源于存储系统进行卡慢隔离,从而使得存储系统由最开始的卡慢故障状态恢复至预设运行状态。
在其中一个具体的实施例中,就是根据多点区间隔离策略,将存储设备或存储系统的软件与存储系统进行隔离,然后依据卡慢产生的原因执行响应的操作,从而卡慢恢复,最后使得存储系统恢复至正常运行状态。为方便理解,后续将对此过程进行详细描述。
通过本实施例提出的一种卡慢的检测方法,当存储系统发生卡慢故障时,能基于存储系统产生的故障数据进行自适应的判定算法的检测,以确定出存储系统的故障类型。从而,便能根据故障类型定位到具体的故障源,并将该故障源与存储系统隔离,以使得存储系统恢复至预设运行状态。同时,由于是基于故障数据进行自适应的检测判定,从而该检测方案还能尽可能地提高检测准确率。
为方便对图2中所提出的检测方法进行详细描述,请参阅图3,图3为本申请实施例公开的另一种卡慢的检测方法的流程示意图。包括步骤301-步骤310。
301、根据存储系统的运行状态确定输入输出IO模式,并根据IO模式获取存储系统的初始故障数据。
针对于本实施例所提出的一种卡慢的检测方法,需要提前说明的是,由于在整个存储系统的运行过程中,存储系统中各个存储设备及其业务需求也并不相同,因此首先需要根据系统及其业务需求来进行访问模式分类。具体的,该访问模式就是I/O模式。然后,便可以根据IO模式获取到存储系统的初始故障数据。不难理解的是,该初始故障数据包括存储系统的发生故障时所采集的运行数据,或存储系统中各个存储设备的设备数据(例如,设备型号或设备运行参数等),或存储系统的设备运行环境参数等,具体此处不对初始故障数据所包含的数据内容进行限制,后续也在对此进行赘述。当然,该初始故障数据也可以理解未经过处理的,存储系统的实时数据,具体此处不做赘述。
302、将初始故障数据进行归一化处理,清理初始故障数据中的差异数据,以获取目标故障数据。
当获取到初始故障数据后,由于存储系统中的各个存储设备之间可能存在较大差异,因此,便需要将初始故障数据中的数据采用归一化的策略,来清理初始故障数据中的差异数据,以获取目标故障数据,以便实现统一的卡慢检测。
在其中一个具体的实施例中,可以基于一定的额度阈值将初始故障数据中各个数据进行归一化处理。
基于上述实施例,在另外一个具体的实施例中,由于在部分场景下,存储系统中不同存储设备之间存在差距,因此就需要采用加权方法来处理不平衡问题,从而再进行归一化处理。例如,存储系统中包括第一设备及第二设备,其中,第一设备和第二设备分别是7200转和5400转的磁盘,因为磁盘性能有差距,假设差距为W,那么在设计阈值的时候就需要引入W来平衡这两种不同类型磁盘的差异。
再有,在另外一个实施例中,由于存储系统及其相关的逻辑业务在发生编码,因此,还需要感知系统和业务的变化,并根据产生的变化来及时调整归一化策略、参数或权重等,从而实现对不同系统和业务的动态自适应。例如,可以调整归一化策略中的换算比例,或故障数据中设备运行参数所占的权重等,具体此处不做赘述。
不难理解的是,步骤302后可执行步骤303-步骤304,或步骤305,或步骤306,或步骤307,或步骤308中的一种或多种,具体此处不做限制。具体而言,可以根据系统和业务需求来执行一种自适应的判定算法。简言之,就是一种综合判定算法,具体可参阅图1中对于该综合判定算法的描述。为方便理解,后续将对其中的综合判定算法中的各个子算法进行详细赘述。
303、根据异常点判定算法,判断目标故障数据是否满足预设阈值。
不难理解的是,步骤303-步骤304可以理解为一种自适应的阈值判定算法。其中,该自适应阈值判定算法与现有阈值判定算法存在差别,具体在于自适应阈值判定算法能基于系统变化及业务变化进行感知,并调整自适应阈值判定算法。
在其中一个具体的实施例中,自适应阈值判定算法具体为一种异常点判定算法。针对归一化后的目标故障数据,设计异常点判定算法,从而来实现智能的卡慢检测。例如,目标故障数据包含有磁盘IO的访问带宽数据和延时数据。为方便理解和描述,步骤303-步骤304对于目标故障数据的描述以访问带宽数据和延时数据进行详细描述。
在综合判定算法中提前设置了访问带宽数据及延时数据的预设阈值,此时,便可以根据异常点判定算法判定磁盘IO的访问带宽数据和延时数据在某段时间是否低于某个预设阈值,或者明显不正常的下降等。具体此处不对该判定依据进行限制,对应的,也不对具体的预设阈值进行限制,为方便理解和描述,后续不再对此进行赘述。
在另外一个具体的实施例中,异常点判定算法常用于长久性故障的判定过程中,具体此处不做赘述。
304、获取第一判断结果,并根据第一判断结果检测存储系统的故障类型。
基于步骤303,便可以根据判断过程获取到第一判断结果。当第一判断结果是访问带宽数据和延时数据在某段时间明显低于某个预设阈值,或访问带宽数据和延时数据于一段时间内出现断崖式下降的过程,则确定此时的存储系统出现了永久性故障。
然,在另外一个具体的实施例中,预设阈值还可能存在第一预设阈值和第二预设阈值,当访问带宽数据和延时数据明显低于第一预设阈值时,可以确定存储系统出现永久性故障。当访问带宽数据和延时数据明显低于第二预设阈值,但高于第一预设阈值时,可以确定存储系统出现临时性故障。其中,第一预设阈值低于第二预设阈值。
305、若子存储系统的数量满足预设数量阈值,或不同子存储系统之间的性能参数满足预设差异数据,获取子存储系统的历史运行数据,根据历史运行数据判断存储系统的故障类型。
不难理解的是,步骤305可以理解为一种自主学习判定算法。其中,该自主学习算法与现有学习判定算法存在差别,具体在于自主学习算法能根据存储系统中各个存储设备的历史运行数据进行运算学习,从而训练学习器,以便根据存储设备的历史运行数据来判定当前存储系统的卡慢状态。
例如,该学习器可以执行诸如数据处理、模型评估、特征工程或AI算法等进行自主训练学习,并不断进行学习优化,以展示训练结果。换言之,学习机制基本就是基于AI,基于大数据,机器学习,深度学习等。
在其中一个具体的实施例中,若当前存储系统中运行的子存储系统的数量满足预设数量阈值,或者是子存储系统之间的性能参数满足预设差异数据,则获取所有子存储系统的历史运行数据,并根据历史运行数据判断存储系统的故障类型。
基于上述实施例,具体的,子存储系统可以理解为上述中所描述存储设备,例如,磁盘等。如果存储系统中磁盘较少(例如预设数量阈值为4,而磁盘数量为3,则确定磁盘较少)或者磁盘之间差异过大(差异指的是磁盘类型有很多,差异过大而很难统一),这时候便可以基于磁盘历史信息的学习机制,可以根据磁盘的历史信息来判定当前磁盘的卡慢状态。
306、若目标故障数据中包括存储系统的系统型号,分析系统型号与卡慢故障状态之间的映射关系,以根据目标判定算法确定于系统型号下的故障类型。
不难理解的是,步骤306-步骤308可以理解为一种宽松同比判定算法。同时,该宽松同比判定算法属于综合判定算法中的一种,且多用于临时性故障的检测中。其中,该宽松同比判定算法与现有同比判定算法存在差别,具体在于同比判定主要是基于同型号,同环境,相同负载的磁盘设备来进行卡慢判定。但这样的算法设计要求比较苛刻,适用性很窄。而宽松同比判定算法,不仅可以应用于不同型号之间的存储设备,在不同环境及不同负载下也可实现。具体的,可以研究磁盘型号映射,或引入关联系数,环境参数等,或进行负载区间采样,或进行负载区间映射等,具体此处不对同比判定及宽松同比判定之间的区别进行限制。为方便描述,后续不再对本实施例所提出的宽松同比判定算法与现有同比判定算法进行详细说明。
基于步骤306,当目标故障数据中包括存储系统的系统型号时,则可以分析系统型号与卡慢故障状态之间的映射关系,以根据目标判定算法确定于系统型号下的故障类型。
具体的,在其中一个实施例中,存储系统的系统型号主要指代的是磁盘的磁盘型号。此时,便可以分析磁盘型号和卡慢故障之间的映射来放松相同型号要求,换言之,就是确定磁盘型号后,便可以确定其所对应的卡慢故障。
基于上述实施例,映射可以理解为一种函数关系,磁盘型号与卡慢故障之间一般来说有比较固定的映射关系,比如可以通过函数y=f(x)来描述磁盘型号A和卡慢的映射。其中,f(x)则是映射关系,x为磁盘型号,y则是卡慢。不难理解的是,以上仅为一种映射关系的具体实施例,映射关系还可以是其他的表现形式,具体此处不做赘述。
307、若目标故障数据中包括存储系统的算法参数,根据算法参数确定存储系统的运行环境,并将算法参数输入目标判定算法,以检测于运行环境下的故障类型。
基于步骤307,当目标故障数据中包括存储系统的算法参数时,便可以根据算法参数确定存储系统的运行环境,并将算法参数输入目标判定算法,以检测于运行环境下的故障类型。其中,算法参数至少包括存储系统的运行环境参数或与运行环境参数存在关联的关联参数。
在其中一个具体的实施例中,运行环境参数即为环境参数,关联参数即为关联系数。通过引入关联系数以及环境参数便可达到放松相同环境的要求。比如多个磁盘在α环境下和β环境下,可以通过α=w*f(β)来描述,其中w表示环境参数,f(β)表示关联关系,而函数的系数就是关联系数,这是因为磁盘的原理是一样的,可以比较容易找到关联性。
从而,当获取到目标故障数据后,便可以基于该函数,检测存储系统的故障类型。
308、若目标故障数据中包括存储系统的负载数据,确定与负载数据存在映射关系的缓存表,以根据缓存表及负载数据判定故障类型。
基于步骤308,当目标故障数据中包括存储系统的负载数据时,便可以确定与该负载数据存在映射关系的缓存表,从而根据缓存表及负载数据判定存储系统的故障类型。
在其中一个具体的实施例中,可以通过划分负载区间,并设计采样缓存表和负载映射关系,来放松相同负载要求。其中,该负载即为上述中描述的负载数据。例如,因为磁盘IO有一个区间,基本是512KB到1MB,部分磁盘可能会有大于512KB或1MB的,但总的来说是有限的。比如可以按照2的指数次方来设计缓存表,一般在相邻的负载区间(比如2KB-4KB,和4KB-8KB)会有线性关系,这样如果一个磁盘跑的是2KB-4KB的负载,而另一个磁盘跑的是4KB-8KB的负载,那么就可以用缓存表和负载映射来进行判定,而不需要两块磁盘都同时跑4KB-8KB的负载。
从而,当获取到目标故障数据后,便可以基于负载区间及其映射,检测存储系统的故障类型。
不难理解的是,步骤305-步骤308均可用于检测临时性故障,即可以同时实施该步骤,并将得到的结果与其他步骤得到的结果进行相互印证,具体此处不做赘述。
309、根据故障类型获取告警信息,并根据告警信息定位目标故障源的故障区间。
当确定故障类型后,便可以基于该故障类型(永久性故障或临时性故障)获取到存储系统的告警信息,从而根据告警信息定位到目标故障源及其故障区间。
在其中一个具体的实施例中,由于存储卡慢故障会造成灾难性的故障,一旦检测到磁盘卡慢,故障隔离是最急切需要的。需要尽快把故障源从存储系统中隔离出去,避免卡慢故障的快速传播造成灾难性故障。由此,本实施例通过整个整个存储堆栈的多点快速隔离机制,这样一旦检测到磁盘卡慢,根据告警信息快速定位到故障区间。
310、调用卡慢隔离算法隔离故障区间,并根据故障区间确定卡慢故障,以根据卡慢故障调整存储系统,以使得存储系统由卡慢故障状态恢复至预设运行状态。
当确定故障区间后,便可以调用卡慢隔离算法隔离故障区间,并根据故障区间确定卡慢故障。从而,根据卡慢故障确定调整存储系统的方案,从而使得存储系统由卡慢故障状态恢复至预设运行状态。
具体的,在其中一个具体的实施例中,调用为该故障区间设计的卡慢隔离程序来执行隔离。针对存储卡慢故障的恢复,可以在管理人员确认卡慢根因后来执行相应的操作。如果是存储系统的软件问题,就需要调用重启或者升级修改bug的新版本/补丁。而如果是硬件问题,就需要更换硬件。如果是驱动问题,就需要更新和修复驱动。此外为了预防卡慢故障再次出现,也可以针对性的调整一些保护策略。比如检测到是由于坏道引起的卡慢,那么就要加快坏道扫描,及时检测坏道,降低坏道再次引起卡慢故障的概率。
此外由于不同存储设备的卡慢故障会有一些独特性,比如HDD/NVMe SSD。因此还要结合不同存储设备的故障特征来进行分析和处理,对相应的卡慢检测/隔离/恢复算法进行相应的调整。
比如,有批次问题的设备,可以加入该批次的故障系数。还有某些定制的设备,可以设置相应的定制项系数。具体此处不对具体的调整恢复存储系统的方式进行限制,后续也不再对此进行赘述。
通过本实施例提出的一种卡慢的检测方法,不仅实现了通用的卡慢盘的检测框架,适用于各种场景。同时,相比现有方案中的卡慢盘检测方案,还可以有效的解决准确率低的问题。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
若方案涉及敏感信息(如用户信息、企业信息),则应当说明针对敏感信息的收集、使用和处理需要遵守相关国家和地区的法律法规和标准,且需要在相应主体(如用户或企业等)许可或同意的情况下进行。
请参阅图4,图4为本申请实施例公开的一种卡慢的检测系统的结构示意图。
获取单元401,用于当存储系统触发卡慢故障状态时,获取存储系统的目标故障数据;
分析单元402,用于分析目标故障数据,以根据目标判定算法检测存储系统的故障类型;
确定单元403,用于根据故障类型确定存储系统的目标故障源,并将目标故障源与存储系统进行隔离,以使得存储系统由卡慢故障状态恢复至预设运行状态。
示例性地,系统还包括:处理单元404;
确定单元403,具体用于根据存储系统的运行状态确定输入输出IO模式;
获取单元401,具体用于根据IO模式获取存储系统的初始故障数据;
处理单元404,用于将初始故障数据进行归一化处理,清理初始故障数据中的差异数据,以获取目标故障数据。
示例性地,系统还包括:判断单元405;
判断单元405,用于根据异常点判定算法,判断目标故障数据是否满足预设阈值;
获取单元401,具体用于获取第一判断结果,并根据第一判断结果检测存储系统的故障类型。
示例性地,存储系统至少包括第一设备及第二设备,系统还包括:调整单元406;
处理单元404,还用于基于预设权重系数将初始故障数据进行加权处理,以平衡第一设备及第二设备的故障数据;
调整单元406,用于调整预设权重系数或归一化策略,以调整目标判定算法。
示例性地,系统包括:
分析单元402,具体用于当目标故障数据中包括存储系统的系统型号时,分析系统型号与卡慢故障状态之间的映射关系,以根据目标判定算法确定于系统型号下的故障类型;或,
确定单元403,具体用于当目标故障数据中包括存储系统的算法参数时,根据算法参数确定存储系统的运行环境,并将算法参数输入目标判定算法,以检测于运行环境下的故障类型,其中算法参数至少包括存储系统的运行环境参数或与运行环境参数存在关联的关联参数;或,
确定单元403,具体用于当目标故障数据中包括存储系统的负载数据时,确定与负载数据存在映射关系的缓存表,以根据缓存表及负载数据判定故障类型。
示例性地,存储系统包括子存储系统,系统包括:
获取单元401,具体用于当子存储系统的数量满足预设数量阈值,或不同子存储系统之间的性能参数满足预设差异数据时,获取子存储系统的历史运行数据,根据历史运行数据判断存储系统的故障类型。
示例性地,系统还包括:定位单元407;
获取单元401,具体用于根据故障类型获取告警信息;
定位单元407,用于根据告警信息定位目标故障源的故障区间;
调整单元406,具体用于调用卡慢隔离算法隔离故障区间,并根据故障区间确定卡慢故障,以根据卡慢故障调整存储系统,以使得存储系统由卡慢故障状态恢复至预设运行状态。
下面请参阅图5,本申请实施例公开的一种卡慢的检测装置的结构示意图包括:
中央处理器501,存储器505,输入输出接口504,有线或无线网络接口503以及电源502;
存储器505为短暂存储存储器或持久存储存储器;
中央处理器501配置为与存储器505通信,并执行存储器505中的指令操作以执行前述图2或图3所示实施例中的卡慢的检测方法。
本申请实施例还提供一种芯片系统,其特征在于,芯片系统包括至少一个处理器和通信接口,通信接口和至少一个处理器通过线路互联,至少一个处理器用于运行计算机程序或指令,以执行前述图2或图3所示实施例中的卡慢的检测方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种卡慢的检测方法,其特征在于,所述方法包括:
当存储系统触发卡慢故障状态时,获取所述存储系统的目标故障数据;
分析所述目标故障数据,以根据目标判定算法检测所述存储系统的故障类型;
根据所述故障类型确定所述存储系统的目标故障源,并将所述目标故障源与所述存储系统进行隔离,以使得所述存储系统由所述卡慢故障状态恢复至预设运行状态。
2.根据权利要求1所述的卡慢的检测方法,其特征在于,所述获取所述存储系统的目标故障数据包括:
根据所述存储系统的运行状态确定输入输出IO模式;
根据所述IO模式获取所述存储系统的初始故障数据;
将所述初始故障数据进行归一化处理,清理所述初始故障数据中的差异数据,以获取所述目标故障数据。
3.根据权利要求2所述的卡慢的检测方法,其特征在于,所述分析所述目标故障数据,以根据目标判定算法检测所述存储系统的故障类型包括:
根据异常点判定算法,判断所述目标故障数据是否满足预设阈值;
获取第一判断结果,并根据所述第一判断结果检测所述存储系统的所述故障类型。
4.根据权利要求2所述的卡慢的检测方法,其特征在于,所述存储系统至少包括第一设备及第二设备,所述将所述访问带宽数据及所述延时数据进行归一化处理之前,所述方法还包括:
基于预设权重系数将所述初始故障数据进行加权处理,以平衡所述第一设备及所述第二设备的故障数据;
所述分析所述目标故障数据之后,所述方法还包括:
调整所述预设权重系数或归一化策略,以调整所述目标判定算法。
5.根据权利要求1所述的卡慢的检测方法,其特征在于,所述分析所述目标故障数据,以根据目标判定算法检测所述存储系统的故障类型包括:
若所述目标故障数据中包括所述存储系统的系统型号,分析所述系统型号与所述卡慢故障状态之间的映射关系,以根据所述目标判定算法确定于所述系统型号下的所述故障类型;或,
若所述目标故障数据中包括所述存储系统的算法参数,根据所述算法参数确定所述存储系统的运行环境,并将所述算法参数输入所述目标判定算法,以检测于所述运行环境下的所述故障类型,其中所述算法参数至少包括所述存储系统的运行环境参数或与所述运行环境参数存在关联的关联参数;或,
若所述目标故障数据中包括所述存储系统的负载数据,确定与所述负载数据存在映射关系的缓存表,以根据所述缓存表及所述负载数据判定所述故障类型。
6.根据权利要求1所述的卡慢的检测方法,其特征在于,所述存储系统包括子存储系统,所述根据目标判定算法检测所述存储系统的故障类型包括:
若所述子存储系统的数量满足预设数量阈值,或不同所述子存储系统之间的性能参数满足预设差异数据,获取所述子存储系统的历史运行数据,根据所述历史运行数据判断所述存储系统的所述故障类型。
7.根据权利要求1所述的卡慢的检测方法,其特征在于,所述根据所述故障类型确定所述存储系统的目标故障源,并将所述目标故障源与所述存储系统进行隔离包括:
根据所述故障类型获取告警信息;
根据所述告警信息定位所述目标故障源的故障区间;
调用卡慢隔离算法隔离所述故障区间,并根据所述故障区间确定卡慢故障,以根据所述卡慢故障调整所述存储系统,以使得所述存储系统由所述卡慢故障状态恢复至所述预设运行状态。
8.一种卡慢的检测系统,其特征在于,所述系统包括:
获取单元,用于当存储系统触发卡慢故障状态时,获取所述存储系统的目标故障数据;
分析单元,用于分析所述目标故障数据,以根据目标判定算法检测所述存储系统的故障类型;
确定单元,用于根据所述故障类型确定所述存储系统的目标故障源,并将所述目标故障源与所述存储系统进行隔离,以使得所述存储系统由所述卡慢故障状态恢复至预设运行状态。
9.一种卡慢的检测装置,其特征在于,所述装置包括:
中央处理器,存储器,输入输出接口,有线或无线网络接口以及电源;
所述存储器为短暂存储存储器或持久存储存储器;
所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行权利要求1至7中任意一项所述的卡慢的检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至7中任意一项所述的卡慢的检测方法。
CN202310177236.1A 2023-02-28 2023-02-28 一种卡慢的检测方法及相关设备 Active CN116149894B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310177236.1A CN116149894B (zh) 2023-02-28 2023-02-28 一种卡慢的检测方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310177236.1A CN116149894B (zh) 2023-02-28 2023-02-28 一种卡慢的检测方法及相关设备

Publications (2)

Publication Number Publication Date
CN116149894A true CN116149894A (zh) 2023-05-23
CN116149894B CN116149894B (zh) 2023-10-27

Family

ID=86373472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310177236.1A Active CN116149894B (zh) 2023-02-28 2023-02-28 一种卡慢的检测方法及相关设备

Country Status (1)

Country Link
CN (1) CN116149894B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017054690A1 (zh) * 2015-09-29 2017-04-06 华为技术有限公司 一种慢盘检测方法和装置
CN106897178A (zh) * 2017-02-21 2017-06-27 曲阜师范大学 一种基于极限学习机的慢盘检测方法及系统
CN111679658A (zh) * 2020-06-29 2020-09-18 哈尔滨工业大学 不确定非线性控制系统的自适应故障检测与隔离方法
CN113625945A (zh) * 2021-06-25 2021-11-09 济南浪潮数据技术有限公司 分布式存储的慢盘处理方法、系统、终端及存储介质
CN113672415A (zh) * 2021-07-09 2021-11-19 济南浪潮数据技术有限公司 一种磁盘故障处理方法、装置、设备及存储介质
CN115454703A (zh) * 2022-09-21 2022-12-09 新华三技术有限公司 一种慢盘隔离控制方法及装置、设备、存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017054690A1 (zh) * 2015-09-29 2017-04-06 华为技术有限公司 一种慢盘检测方法和装置
CN106897178A (zh) * 2017-02-21 2017-06-27 曲阜师范大学 一种基于极限学习机的慢盘检测方法及系统
CN111679658A (zh) * 2020-06-29 2020-09-18 哈尔滨工业大学 不确定非线性控制系统的自适应故障检测与隔离方法
CN113625945A (zh) * 2021-06-25 2021-11-09 济南浪潮数据技术有限公司 分布式存储的慢盘处理方法、系统、终端及存储介质
CN113672415A (zh) * 2021-07-09 2021-11-19 济南浪潮数据技术有限公司 一种磁盘故障处理方法、装置、设备及存储介质
CN115454703A (zh) * 2022-09-21 2022-12-09 新华三技术有限公司 一种慢盘隔离控制方法及装置、设备、存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
夏文等: "基于Modelica语言对气体机工作过程的建模和仿真", 《应用科技》, no. 04, pages 11 - 15 *

Also Published As

Publication number Publication date
CN116149894B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
US10860939B2 (en) Application performance analyzer and corresponding method
Xu et al. Improving service availability of cloud systems by predicting disk error
Lin et al. Predicting node failure in cloud service systems
CN108647136B (zh) 基于smart信息和深度学习的硬盘损坏预测方法及装置
De Santo et al. Deep Learning for HDD health assessment: An application based on LSTM
CN107179957B (zh) 物理机故障分类处理方法、装置和虚拟机恢复方法、系统
CN109828869B (zh) 预测硬盘故障发生时间的方法、装置及存储介质
Guan et al. Adaptive anomaly identification by exploring metric subspace in cloud computing infrastructures
US7730364B2 (en) Systems and methods for predictive failure management
US20140195860A1 (en) Early Detection Of Failing Computers
US20080195369A1 (en) Diagnostic system and method
CN111459692B (zh) 用于预测驱动器故障的方法、设备和计算机程序产品
Di et al. Exploring properties and correlations of fatal events in a large-scale hpc system
Gabel et al. Latent fault detection in large scale services
CN109062723A (zh) 服务器故障的处理方法和装置
CN105607973B (zh) 一种虚拟机系统中设备故障处理的方法、装置及系统
CN112433928A (zh) 一种存储设备的故障预测方法、装置、设备及存储介质
Amvrosiadis et al. Getting back up: Understanding how enterprise data backups fail
CN110175100B (zh) 一种存储盘故障预测方法及预测系统
CN115168168A (zh) 一种服务器故障预测方法、系统、设备及介质
CN110865866A (zh) 一种基于自省技术的虚拟机安全检测方法
CN116149894B (zh) 一种卡慢的检测方法及相关设备
Pinciroli et al. The life and death of SSDs and HDDs: Similarities, differences, and prediction models
US10776240B2 (en) Non-intrusive performance monitor and service engine
Nikiforov Clustering-based anomaly detection for microservices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant