CN117194177A - 一种提高存储系统慢盘检测准确率的方法 - Google Patents
一种提高存储系统慢盘检测准确率的方法 Download PDFInfo
- Publication number
- CN117194177A CN117194177A CN202311453193.1A CN202311453193A CN117194177A CN 117194177 A CN117194177 A CN 117194177A CN 202311453193 A CN202311453193 A CN 202311453193A CN 117194177 A CN117194177 A CN 117194177A
- Authority
- CN
- China
- Prior art keywords
- slow
- disk
- points
- event
- storage system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000007246 mechanism Effects 0.000 claims description 17
- 238000000513 principal component analysis Methods 0.000 claims description 15
- 230000008859 change Effects 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 abstract description 4
- 238000010801 machine learning Methods 0.000 abstract description 3
- 230000004044 response Effects 0.000 description 9
- 230000006399 behavior Effects 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000013403 standard screening design Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000002354 daily effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本发明属于存储系统硬盘检测方法技术领域,具体涉及一种提高存储系统慢盘检测准确率的方法,首先建立延迟和吞吐量的比例的数据集,剔除数据集中的噪声条目,然后选择多项式回归模型描述“正常”硬盘的行为,并划定慢盘检测的变化范围,再标识慢盘事件,建立风险评分机制,最后根据风险评分机制计算每个慢盘事件的风险值,根据每个慢盘事件的风险值判定需要进行检查的慢盘。通过机器学习技术来建立模型,然后用模型数据适配原始数据,不再依赖经验值。极大地提高慢盘检测准确率,从而显著降低了硬盘所在节点或者集群的尾部延迟,使得具备较高的慢盘识别率和较低的慢盘召回率。
Description
技术领域
本发明属于存储系统硬盘检测方法技术领域,尤其涉及一种提高存储系统慢盘检测准确率的方法。
背景技术
存储系统的部署规模越来越大,特别是云存储系统里,涉及硬盘数(包含HDD硬盘和SSD硬盘)超过十万,硬盘作为精密部件,研究硬盘故障规律就极为重要。而硬盘故障分为响应慢和停止响应,其中停止响应的硬盘故障包含无应答和直接返回错误两种,响应慢的故障硬盘称为慢盘。最近研究表明,大部分硬盘故障率在1%至2%,而响应慢故障率和停止响应故障率几乎相同,故慢盘故障在大规模存储系统里,是一个高频事件。
慢盘的出现会拖累整个存储系统,让存储系统整体变慢,出现所谓的尾部延迟效应。特别是随着更快的硬件设备和软件堆栈的使用,慢盘对存储系统的影响也越来越大。
硬盘的慢盘检测的准确性非常具有挑战性,比如SSD硬盘内部均衡、垃圾收集以及工作负载突然增大等因素会导致与慢盘相同的征兆,即访问硬盘的响应变慢。另外,慢盘常常是瞬间发生,现场检测工程师很难对其进行定位。
目前业界内进行慢盘检测主要有三个方法:
第一种方法:对硬盘延迟强制设置阈值,超过这个阈值即可报告为慢盘事件。该方法的限制较大,其阈值识别的慢盘的准确性很低,因为延迟受到工作负载的高度影响。如果设置一个宽松的阈值,则很容易将正常的性能变化误标记为慢盘事件,即较高的慢盘召回率。如果设置一个严格的阈值,则可能会让许多慢盘事件未被发现,即较低慢盘识别率。
第二种方法:既然绝对阈值不行,可以采用相对阈值。一个存储系统里,通过负载平衡算法,来自同一节点的硬盘应该会承受类似的工作负载压力,并且节点中的大多数硬盘是正常的,因此可以通过比较同一节点的硬盘之间的性能来识别慢盘。但是该方法也存在限制,通过比较虽然能获取自适应阈值,但同样依赖如减速程度和监测窗口跨度等进行调整,工作量巨大,而且针对特定的存储服务集群上的微调好的参数,无法应用到其它存储集群上。
第三种方法:基于IASO模型,IASO模型是一个“慢故障”检测框架,专注于识别性能下降的节点。IASO的设计原则是利用软件超时,并将其转换为度量信息,作为检测“慢故障”的基准,但是IASO模型针对的是节点级检测,而不是硬盘级检测。
因此亟需对现有的存储系统慢盘检测方法进行改进,以解决现有的存储系统慢盘检测方法的检测准确率较低的技术问题。
发明内容
本发明的目的在于提供一种提高存储系统慢盘检测准确率的方法,用以解决 现有的存储系统慢盘检测方法的检测准确率较低的技术问题。
为解决上述技术问题,本发明采用的技术方案如下:
一种提高存储系统慢盘检测准确率的方法,包括以下步骤:
S1:建立延迟和吞吐量的比例的数据集;
S2:剔除数据集中的噪声条目;
S3:选择多项式回归模型描述“正常”硬盘的行为,并划定慢盘检测的变化范围;
S4:标识慢盘事件;
S5:建立风险评分机制;
S6:根据风险评分机制计算每个慢盘事件的风险评分;
S7:通过每个慢盘事件的风险评分判定需要进行检查的慢盘。
优选的,步骤S1包括以下具体步骤:
S10:在存储系统的每个节点均放置一个守护程序;
S11:通过守护程序收集每个硬盘的延迟和吞吐量的比例;
S12:守护程序的守护进程按照固定时间跨度计算一次平均统计数据;
S13:将该统计数据记录为序列数据项;
S14:将每天记录的序列数据项作为延迟和吞吐量的比例的数据集。
优选的,步骤S12中,守护程序统计数据的固定时间跨度设为10秒~30秒,所述守护程序每天运行时间不少于3小时。
优选的,步骤S2中通过结合基于密度的聚类算法DBSCAN和主成分分析算法PCA对噪声条目进行识别。
优选的,基于密度的聚类算法DBSCAN的流程如下:
S20:对延迟和吞吐量的比例的数据集初始化,确定其半径ε和最小点数MinPts;
S21:寻找核心点,计算每个数据点ε邻域内的点数,将点数大于等于MinPts的数据点记为核心点;
S22:寻找密度可达点,将每个核心点的ε邻域内的所有点加入核心点的聚类簇中,如果ε邻域内的点也是核心点,则将ε邻域内的点也加入所述聚类簇,寻找密度可达点的过程通过递归进行,直到ε邻域内的点不再是核心点为止;
S23:标记噪声点,将数据集中未被标记为核心点或者密度可达点的点,标记为噪声点。
优选的,通过主成分分析算法PCA变换坐标,惩罚垂直于倾斜方向的异常值。
优选的,在步骤S4中的具体步骤为:
S40:通过多项式回归模型计算预测上限值以区分慢速条目;
S41:使用慢速条目检测慢盘事件。
优选的,步骤S5中的风险评分机制如下:
S50:根据每天滑动窗口的时间跨度,将慢盘事件的持续时间分为10分钟到30分钟的短期、30分钟到60分钟的中期和60分钟到120分钟的长期;
S51:根据当天的平均慢速比,评估慢盘事件的缓慢程度,将1≤慢速比<2的慢盘事件记为轻度、将2≤慢速比<5的慢盘事件记为中度,将慢速比≥5的慢盘事件记为重度;
S52:通过为风险级别分配不同的权重来计算每个慢盘事件的风险评分。
优选的,步骤S52中的风险评分公式为:
风险评分=Ne * 100 + Nh * 25 + Nm * 10 + Nl * 5 + Nmi * 1;
其中,其中Ne表示最近N天内慢盘事件严重程度为e的次数;
Nh表示最近N天内慢盘事件严重程度为h的次数;
Nm表示最近N天内慢盘事件严重程度为m的次数;
Nl表示最近N天内慢盘事件严重程度为l的次数;
Nmi表示最近N天内慢盘事件严重程度为mi的次数。
本发明的有益效果包括:
本发明提供的提高存储系统慢盘检测准确率的方法,首先建立延迟和吞吐量的比例的数据集,剔除数据集中的噪声条目,然后选择多项式回归模型描述“正常”硬盘的行为,并划定慢盘检测的变化范围,再标识慢盘事件,建立风险评分机制,最后根据风险评分机制计算每个慢盘事件的风险评分,根据每个慢盘事件的风险评分判定需要进行检查的慢盘。通过机器学习技术来建立模型,然后用模型数据适配原始数据,不再依赖经验值。有效提高了慢盘检测准的确率,从而显著降低硬盘所在节点或者集群的尾部延迟,使得具备较高的慢盘识别率和较低的慢盘召回率。
附图说明
图1为本发明提高存储系统慢盘检测准确率的方法的流程图。
图2为本发明提高存储系统慢盘检测准确率的方法的步骤S1的具体流程图。
图3为本发明提高存储系统慢盘检测准确率的方法的步骤S2的具体流程图。
图4为本发明提高存储系统慢盘检测准确率的方法的步骤S4的具体流程图。
图5为本发明提高存储系统慢盘检测准确率的方法的步骤S5的风险评分机制的具体流程图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请将围绕可包括多个设备、组件、模块等的系统来呈现各个方面、实施例或特征。应当理解和明白的是,各个系统可以包括另外的设备、组件、模块等,并且/或者可以并不包括结合附图讨论的所有设备、组件、模块等。此外,还可以使用这些方案的组合。
另外,在本申请实施例中,“示例地”、“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用示例的一词旨在以具体方式呈现概念。
本申请实施例中,“信息(information)”,“信号(signal)”,“消息(message)”,“信道(channel)”、“信令(singaling)”有时可以混用,应当指出的是,在不强调其区别时,其所要表达的含义是一致的。“的(of)”,“相应的(corresponding,relevant)”和“对应的(corresponding)”有时可以混用,应当指出的是,在不强调其区别时,其所要表达的含义是一致的。
下面结合附图1~图5对本发明作进一步的详细说明:
参见附图1所示,提高存储系统慢盘检测准确率的方法,包括以下步骤:
S1:建立延迟和吞吐量的比例的数据集;
S2:剔除数据集中的噪声条目;
S3:选择多项式回归模型描述“正常”硬盘的行为,并划定慢盘检测的变化范围;
S4:标识慢盘事件;
S5:建立风险评分机制;
S6:根据风险评分机制计算每个慢盘事件的风险评分;
S7:通过每个慢盘事件的风险评分判定需要进行检查的慢盘。
上述方案中,首先利用每个硬盘的延迟和吞吐量的比例作为检测慢盘的指标数据,然后在固定时间跨度内计算平均统计数据,并将其记录为序列数据项。每天统计至少3个小时的延迟和吞吐量的比例数据条目,构成数据集。
然后利用经典的机器学习的主成分分析算法PCA(Principal ComponentAnalysis)和基于密度的聚类算法DBSCAN(Density-Based Spatial Clustering ofApplications withNoise)的组合来识别延迟和吞吐量的比例数据集里的噪声条目,并丢弃噪声条目。
再基于已排除噪声条目的数据集,执行多项式回归以获得模型,并使用预测上限作为慢盘检测阈值。然后,将多项式回归模型应用于原始数据集,包括噪声条目,以识别越界条目,并将其标记为慢速条目。
最后使用滑动窗口和减速比来识别连续的慢速条目,并生成相应的慢盘事件,并基于风险评分机制,统计慢盘事件的持续时间和严重程度,根据每日累积的慢盘事件为每个硬盘计算风险评分值。检测工程师可以根据硬盘的风险评分对事件进行调查和处理。
该方法极大地提高慢盘检测准确率,从而显著降低了硬盘所在节点或者集群的尾部延迟,使得具备较高的慢盘识别率和较低的慢盘召回率。
参见图2,步骤S1包括以下具体步骤:
S10:在大规模存储系统的每个节点均放置一个守护程序;
S11:通过守护程序收集每个硬盘的延迟和吞吐量的比例数据;
S12:守护程序的守护进程按照固定时间跨度计算一次平均统计数据;
S13:将该统计数据记录为序列数据项;
S14:将每天记录的序列数据项作为延迟和吞吐量的比例的数据集。
上述方案中,在大规模存储系统里,每个节点中都放置了一个守护程序,以收集每个硬盘的延迟和吞吐量。守护进程按10-30秒的固定时间跨度计算一次平均统计数据,并将其记录为序列数据项。守护程序每天运行至少3个小时。比如按照每天运行6小时,时间跨度为15秒计算,一个硬盘每天生成1440个延迟和吞吐量的比例条目。最终,收集的数据集里延迟和吞吐量的比例条目不少于1亿个。
步骤S2中通过结合基于密度的聚类算法DBSCAN和主成分分析算法PCA对噪声条目进行识别。
参见图3,基于密度的聚类算法DBSCAN的流程如下:
S20:对延迟和吞吐量的比例的数据集初始化,确定其半径ε和最小点数MinPts;
S21:寻找核心点,计算每个数据点ε邻域内的点数,将点数大于等于MinPts的记为核心点;
S22:寻找密度可达点,将每个核心点的ε邻域内的所有点加入核心点的聚类簇中,如果ε邻域内的点也是核心点,则将ε邻域内的点也加入该聚类簇,寻找密度可达点的过程通过递归进行,直到ε邻域内的点不再是核心点为止;
S23:标记噪声点,将数据集中未被标记为核心点或者密度可达点的点,标记为噪声点。
由于吞吐量和延迟呈正相关,单独使用基于密度的聚类算法DBSCAN来标识噪声条目效果不佳,延迟和吞吐量的比例可能朝着特定的方向倾斜,导致噪声条目可能被错误标记为正常值,通过主成分分析算法PCA变换坐标,惩罚垂直于倾斜方向的异常值,以减少错误标记。将基于密度的聚类算法DBSCAN与主成分分析算法PCA结合使用可以有效地检测93%以上的慢速条目。
在步骤S3中,由于节点内的正常硬盘可能具有类似的延迟与吞吐量映射,即很好地类聚,可以使用回归模型来描述“正常”硬盘的行为,并划定慢盘检测的变化范围。经典的回归模型包括线性、多项式和核回归等高级回归模型。本发明由于延迟对吞吐量的依赖性显然是非线性的,不使用线性回归。此外,高级模型,比如内核回归是不必要的,因为延迟与吞吐量的映射主要是单调的,即延迟随着吞吐量的增加而增加。多项式回归模型是优选的,因为它处理非线性,同时能够保持模型的简约性,即用足够的参数实现所需的拟合优度。
参见图4,步骤S4中的具体步骤为:
S40:通过多项式回归模型计算预测上限值以区分慢速条目;
S41:使用慢速条目检测慢盘事件。
上述方案中,在获得回归模型后,计算预测上限值来区分慢速条目,并使用慢速条目来检测慢盘事件。例如,99.9%的上限值意味着99.9%的变化被认为是正常的。使用94%的宽松上限和99.9%的严格上限的组合来避免过拟合,同时识别尽可能多的慢盘。
下面举例描述生成慢盘事件的过程:
首先,引入慢速比概念,慢速比是通过将硬盘延迟逐个条目(每隔15秒)除以上限值获得的。例如,假设硬盘在一分钟内的延迟条目为[15、20、25、10、5],延迟条目的单位可忽略,其相应的上限为[5、5、5和5]。慢速比序列为[3、4、5、2、1]。
其次,通过使用时间滑动窗口生成慢盘事件。滑动窗口具有固定长度,并从第一个条目开始滑动。在滑动窗口的时间内,如果某个比例的慢速比序列里的慢速比中值超过阈值,则记录该驱动器在滑动窗口内遭遇到慢盘事件。上面的慢速比为例([3,4,5,2,1]),将滑动窗口的时间跨度设置为1分钟(四个条目),比例设置为50%,阈值设置为1。
然后,前四个慢速比条目可以形成慢盘事件,因为超过50%的慢速比值(3、4、5、2)具有比阈值(1)更高的中值(3.5)。这样做的基本原理是仅在持续的一系列减速条目下才能生成慢盘事件,因为一次性峰值条目可能是可接受的性能变化造成的。
参见图5,步骤S5中的风险评分机制如下:
S50:根据每天滑动窗口的时间跨度,慢盘事件的持续时间分为10到30分钟的短期、30到60分钟的中期和60到120分钟的长期;
S51:根据当天的平均慢速比,评估慢盘事件的缓慢程度,1≤慢速比<2的慢盘事件记为轻度、2≤慢速比<5的慢盘事件记为中度,慢速比≥5的慢盘事件记为重度;
S52:通过为风险级别分配不同的权重来计算每个慢盘事件的风险评分。
步骤S52中的风险评分公式为:
风险评分=Ne * 100 + Nh * 25 + Nm * 10 + Nl * 5 + Nmi * 1。
上述方案中,与硬盘直接返回故障或者无响应不同,没有明确的标准来检测慢盘。首先,设备如SSD和软件如用户代码都是现场检测工程师的黑盒。其次,慢盘故障可能是暂时的,症状各异。此外,慢盘故障的根本原因可能过于模糊,无法诊断。因此,不能排除错误标记慢盘故障的可能性,不能简单地依赖步骤四的慢盘事件即笃定认为该硬盘是慢盘。事实上,如果简单地依据慢盘事件,可能一天就能存在上百个慢盘案例。
因此,采用从性能回归测试中建立风险评分机制。如下表慢速持续时间和严重程度被划分为不同的风险水平。根据每天滑动窗口的时间跨度,慢盘事件的持续时间分为短期(10到30分钟)、中期(30到60分钟)和长期(60到120分钟)。此外,根据当天的平均慢速比,慢盘事件的缓慢程度进行评估,1≤慢速比<2评估为轻度,2≤慢速比<5评估为中度,慢速比≥5评估为重度。
其中,e表示极高风险;h表示高风险;m表示中风险;l表示低风险;mi表示轻微风险。
然后,通过为风险级别分配不同的权重来计算每个慢盘事件的风险评分:
风险评分=Ne * 100 + Nh * 25 + Nm * 10 + Nl * 5 + Nmi * 1。
其中,其中Ne表示最近N天内慢盘事件严重程度为e的次数;
Nh表示最近N天内慢盘事件严重程度为h的次数;
Nm表示最近N天内慢盘事件严重程度为m的次数;
Nl表示最近N天内慢盘事件严重程度为l的次数;
Nmi表示最近N天内慢盘事件严重程度为mi的次数。
如果硬盘的风险评分在最近N天(一般设置为10天左右)内超过最小风险评分值(99%的上限值建议为90,94%的上限值建议为40),则建议立即隔离该硬盘并进行硬件检查。机械硬盘HDD和固态硬盘SSD皆可使用相同的评分机制。
综上所述,本发明提供的提高存储系统慢盘检测准确率的方法,首先建立延迟和吞吐量的比例的数据集,剔除数据集中的噪声条目,然后选择多项式回归模型描述“正常”硬盘的行为,并划定慢盘检测的变化范围,再标识慢盘事件,建立风险评分机制,最后根据风险评分机制计算每个慢盘事件的风险评分,根据每个慢盘事件的风险评分判定需要进行检查的慢盘。通过机器学习技术来建立模型,然后用模型数据适配原始数据,不再依赖经验值。极大地提高慢盘检测准确率,从而显著降低了硬盘所在节点或者集群的尾部延迟,使得具备较高的慢盘识别率和较低的慢盘召回率。
以上所述实施例仅表达了本申请的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请技术方案构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。
Claims (9)
1.一种提高存储系统慢盘检测准确率的方法,其特征在于,包括以下步骤:
S1:建立延迟和吞吐量的比例的数据集;
S2:剔除数据集中的噪声条目;
S3:选择多项式回归模型描述“正常”硬盘的行为,并划定慢盘检测的变化范围;
S4:标识慢盘事件;
S5:建立风险评分机制;
S6:根据风险评分机制计算每个慢盘事件的风险评分;
S7:通过每个慢盘事件的风险评分判定需要进行检查的慢盘。
2.根据权利要求1所述的一种提高存储系统慢盘检测准确率的方法,其特征在于,步骤S1包括以下具体步骤:
S10:在存储系统的每个节点均放置一个守护程序;
S11:通过守护程序收集每个硬盘的延迟和吞吐量的比例;
S12:守护程序的守护进程按照固定时间跨度计算一次平均统计数据;
S13:将平均统计数据记录为序列数据项;
S14:将每天记录的序列数据项作为延迟和吞吐量的比例的数据集。
3.根据权利要求2所述的一种提高存储系统慢盘检测准确率的方法,其特征在于,在步骤S12中,守护程序统计数据的固定时间跨度设为10秒~30秒,所述守护程序每天的运行时间不少于3小时。
4.根据权利要求1所述的一种提高存储系统慢盘检测准确率的方法,其特征在于,步骤S2中通过结合基于密度的聚类算法DBSCAN和主成分分析算法PCA对噪声条目进行识别。
5.根据权利要求4所述的一种提高存储系统慢盘检测准确率的方法,其特征在于,基于密度的聚类算法DBSCAN的流程如下:
S20:对延迟和吞吐量比例的数据集初始化,确定其半径ε和最小点数MinPts;
S21:寻找核心点,计算每个数据点在ε邻域内的点数,将其中点数大于等于MinPts的数据点记为核心点;
S22:寻找密度可达点,将每个核心点的ε邻域内的所有点加入核心点的聚类簇中,如果ε邻域内的点也是核心点,则将ε邻域内的点也加入该聚类簇,寻找密度可达点的过程通过递归进行,直到ε邻域内的点不再是核心点为止;
S23:标记噪声点,将数据集中未被标记为核心点或者密度可达点的点标记为噪声点。
6.根据权利要求4所述的一种提高存储系统慢盘检测准确率的方法,其特征在于,通过主成分分析算法PCA变换坐标,惩罚垂直于倾斜方向的异常值。
7.根据权利要求1所述的一种提高存储系统慢盘检测准确率的方法,其特征在于,步骤S4包括以下具体步骤:
S40:根据多项式回归模型计算预测上限值以区分慢速条目;
S41:使用慢速条目检测慢盘事件。
8.根据权利要求7所述的一种提高存储系统慢盘检测准确率的方法,其特征在于,步骤S5中的风险评分机制如下:
S50:根据每天滑动窗口的时间跨度,将慢盘事件的持续时间分为10分钟到30分钟的短期、30分钟到60分钟的中期和60分钟到120分钟的长期;
S51:根据当天的平均慢速比,评估慢盘事件的缓慢程度,将1≤慢速比<2的慢盘事件记为轻度、将2≤慢速比<5的慢盘事件记为中度,将慢速比≥5的慢盘事件记为重度;
S52:通过为风险级别分配不同的权重来计算每个慢盘事件的风险评分。
9.根据权利要求8所述的一种提高存储系统慢盘检测准确率的方法,其特征在于,步骤S52中的风险评分公式如下:
风险评分=Ne * 100 + Nh * 25 + Nm * 10 + Nl * 5 + Nmi * 1;
其中,其中Ne表示最近N天内慢盘事件严重程度为e的次数;
Nh表示最近N天内慢盘事件严重程度为h的次数;
Nm表示最近N天内慢盘事件严重程度为m的次数;
Nl表示最近N天内慢盘事件严重程度为l的次数;
Nmi表示最近N天内慢盘事件严重程度为mi的次数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311453193.1A CN117194177A (zh) | 2023-11-03 | 2023-11-03 | 一种提高存储系统慢盘检测准确率的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311453193.1A CN117194177A (zh) | 2023-11-03 | 2023-11-03 | 一种提高存储系统慢盘检测准确率的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117194177A true CN117194177A (zh) | 2023-12-08 |
Family
ID=89000170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311453193.1A Pending CN117194177A (zh) | 2023-11-03 | 2023-11-03 | 一种提高存储系统慢盘检测准确率的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117194177A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117806890A (zh) * | 2024-02-28 | 2024-04-02 | 四川省华存智谷科技有限责任公司 | 一种基于分布式存储的慢盘检测处理方法 |
CN118210681A (zh) * | 2024-05-15 | 2024-06-18 | 北京数巅科技有限公司 | 慢盘识别方法、装置、电子设备、存储介质及程序产品 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7134053B1 (en) * | 2002-11-22 | 2006-11-07 | Apple Computer, Inc. | Method and apparatus for dynamic performance evaluation of data storage systems |
WO2017012392A1 (zh) * | 2015-07-17 | 2017-01-26 | 中兴通讯股份有限公司 | 一种磁盘检测的方法和装置 |
CN112241343A (zh) * | 2019-07-19 | 2021-01-19 | 深信服科技股份有限公司 | 一种慢盘检测方法、装置、电子设备及可读存储介质 |
CN115795403A (zh) * | 2022-10-26 | 2023-03-14 | 上海交通大学 | 一种存储设备缓慢故障检测方法、系统及存储介质 |
-
2023
- 2023-11-03 CN CN202311453193.1A patent/CN117194177A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7134053B1 (en) * | 2002-11-22 | 2006-11-07 | Apple Computer, Inc. | Method and apparatus for dynamic performance evaluation of data storage systems |
WO2017012392A1 (zh) * | 2015-07-17 | 2017-01-26 | 中兴通讯股份有限公司 | 一种磁盘检测的方法和装置 |
CN112241343A (zh) * | 2019-07-19 | 2021-01-19 | 深信服科技股份有限公司 | 一种慢盘检测方法、装置、电子设备及可读存储介质 |
CN115795403A (zh) * | 2022-10-26 | 2023-03-14 | 上海交通大学 | 一种存储设备缓慢故障检测方法、系统及存储介质 |
Non-Patent Citations (1)
Title |
---|
朱晨光: "《机器阅读理解》", 机械工业出版社, pages: 206 - 308 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117806890A (zh) * | 2024-02-28 | 2024-04-02 | 四川省华存智谷科技有限责任公司 | 一种基于分布式存储的慢盘检测处理方法 |
CN117806890B (zh) * | 2024-02-28 | 2024-05-03 | 四川省华存智谷科技有限责任公司 | 一种基于分布式存储的慢盘检测处理方法 |
CN118210681A (zh) * | 2024-05-15 | 2024-06-18 | 北京数巅科技有限公司 | 慢盘识别方法、装置、电子设备、存储介质及程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117194177A (zh) | 一种提高存储系统慢盘检测准确率的方法 | |
CN108986869B (zh) | 一种使用多模型预测的磁盘故障检测方法 | |
Liang et al. | Failure prediction in ibm bluegene/l event logs | |
KR101621019B1 (ko) | 시계열 통계 기반 공격의심 이상징후를 탐지하기 위한 방법 | |
CN112951311B (zh) | 一种基于变权重随机森林的硬盘故障预测方法及系统 | |
KR101948634B1 (ko) | 스마트 컴퓨팅을 위한 시스템 자원의 장애 예측 방법 | |
CN111581072A (zh) | 一种基于smart和性能日志的磁盘故障预测方法 | |
CN110249276A (zh) | 不良状况要因推定装置及不良状况要因推定方法 | |
CN116737510B (zh) | 一种基于数据分析的键盘智能监测方法及系统 | |
CN115514619B (zh) | 告警收敛方法及系统 | |
CN111309502A (zh) | 固态硬盘寿命预测方法 | |
CN111858108A (zh) | 一种硬盘故障预测方法、装置、电子设备和存储介质 | |
CN115495274B (zh) | 基于时序数据的异常处理方法、网络设备和可读存储介质 | |
CN110175100B (zh) | 一种存储盘故障预测方法及预测系统 | |
CN110851450A (zh) | 一种基于增量计算的伴随车即时发现方法 | |
CN117632552A (zh) | 一种实时预测存储节点故障装置 | |
CN111258788B (zh) | 磁盘故障预测方法、装置及计算机可读存储介质 | |
CN113778792A (zh) | 一种it设备的告警归类方法及系统 | |
CN112732517A (zh) | 一种磁盘故障告警方法、装置、设备及可读存储介质 | |
CN112527789A (zh) | 变电设备在线监测数据中的重复数据检测方法及装置 | |
KR20210033839A (ko) | 성능 모니터링 시스템 및 방법 | |
CN118585941B (zh) | 一种基于多源数据分析的自然资源资产清查方法及系统 | |
CN117093433B (zh) | 故障检测方法、装置、电子设备及存储介质 | |
US12113687B2 (en) | System and method for outage prediction | |
Broadwell | Component failure prediction using supervised Naïve Bayes classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |